kobart-summary
- ์ด ๋ชจ๋ธ์ kobart๋ชจ๋ธ์ ๋์์๋ฃ ์์ฝ, ๋ฌธ์์์ฝ, ์์งํ ๋ด์ค ๋ฐ์ดํฐ๋ก fine-tuningํ ๋ชจ๋ธ์ ๋๋ค.
- ์ง๋ฌธ์ ๋ง๋ ์งง์ ์์ฝ๋ฌธ์ ์ ๋ชฉ๊ณผ ์ ์ฌํ ํ์์ผ๋ก ์์ฑํฉ๋๋ค.
How to use
from transformers import PreTrainedTokenizerFast, BartForConditionalGeneration
# Load Model and Tokenizer
tokenizer = PreTrainedTokenizerFast.from_pretrained("EbanLee/kobart-title")
model = BartForConditionalGeneration.from_pretrained("EbanLee/kobart-title")
# Encoding
input_text = "2017 ๋
2 ์์ ํ์ฐํ ํ์งํด์ด ์ฌํ๋ก ์ธํ ์ค์ง์ ๊ท๋ชจ๊ฐ ์ ๊ตญ์ ์ผ๋ก 1 ๋ง ๋ช
์ ์ด๋ฅด๋ ๋ค๊ณ ํ๋ค.2 ๋
์ฌ๊ฐ ํ๋ฅธ ์ง๊ธ ์ด๋ค ์ค์ง์๋ค์ด ์ด๋ป๊ฒ ์ง๋ด๋์ง, ์๋ก์ด ์ง์ฅ์ ๊ตฌํ๋์ง ๊ถ๊ธํ๋ค.ํด์ดํญ๋ง์
๊ณ ์ค์ง์๋ค์ ์ํ ์ฌ์ทจ์
ํ๋ก๊ทธ๋จ์ด ๋ถ์ฐ์์ ์ถ์ง๋๋ค๋ ๋ฐ๊ฐ์ด ์์์ด ๋ค๋ฆฐ๋ค.ํด์ดํญ๋ง์
๊ณ ์ค์ง์๋ฅผ ๋์์ผ๋ก ์ฌ์ทจ์
์ ๋๋ ์ ์ฑ
์ด ์ํ๋๋ ๊ฒ์ ์ด๋ฒ์ด ์ฒ์์ด๋ผ๋ ์ฌ์ค ๋๋ฌด ๋ฆ์๋ค.๋ช
์์ด ํด์์๋ ๋ถ์ฐ์ธ๋ฐ ์ง์ญ ์ฌํ์ ๊ด์ฌ์ด ๋ถ์กฑํ๋ค.๊ทธ๋์์๋ ๋
ธ๋๋ถ, ์ฐ์
๋ถ, ํ์๋ถ ๋ฑ์์ ํด์ดํญ๋ง์
๊ณ๋ฅผ ๋์์ผ๋ก ๋ค์ํ ์ผ์๋ฆฌ ์ฐฝ์ถ ์ฌ์
์ด ์๊ธฐ๋ ํ๋ค.ํ์ง๋ง ๋๋ถ๋ถ์ด ์ฒญ๋
์์ฃผ์ ์ ์ฑ
์ด์ด์ ์ค์ง์๋ค์ด ํํ์ ๋ณด๊ธฐ๋ ์ด๋ ค์ ๋ค.ํด์ดํญ๋ง์
๊ณ์์ ์ค์ฅ๊ธฐ ์ด์์ ์ค๋ ๊ฒฝ๋ ฅ์๋ ์ผ์๋ฆฌ ์ฌ์
์์ ์ฐ๋๋ฐ๊ธฐ๋์ปค๋
๋์์์์ ์ ์ธ๋๋ ์ ์ธ์๋ค๋ ์ด๋์๋ ์ ๋ ์ผ์ด๋ค.์ด๋ค์ ๋ํ ์ ๋ถ์ ์ธ๊ฑด๋น ์ง์์ด ์์ด ์
์ฒด๋ค์ ์ฑ์ฉ ์์์ ๋ฎ์๊ณ , ์ ๋ฌธ์ ์ธ ๊ต์ก๊ณผ๋ ์ฐ๊ณ๋์ง ์์ ํ์ฅ์ ๋จ๊ธฐ์ ์ผ์๋ฆฌ๋ง ์์ฐํด ์๋ค๊ณ ํ๋ค.ํด์ดํญ๋ง์
๊ณ ์ฌ์ทจ์
ํ๋ก๊ทธ๋จ์ ๊ณต๊ณต๊ทผ๋ก ์ฌ์
์ด ์๋๋ผ๋ ์ ์ ๋ช
์ฌํด์ผ ํ๋ค.์์ฐ ๋ญ๋น๋ง ํ๋ ์ฌ์ทจ์
ํ๋ก๊ทธ๋จ์ ํ ์ด์ ๊ฐ ์๋ค.ํฅํ ์ ํ๋ ์ง๋ฌด์ ๋ฐ๋ผ ๋ง์ถคํ ์ฌ๊ต์ก์ ํ ๋ค ์ฌ์ทจ์
์ ์ง์ํ๋ ์ฌ์
์ด ๋์ด์ผ ํ๋ค.๊ทธ๋์ผ 1 ์ธ๋น 2000 ๋ง ์์ ๋ฌํ ๊ฒ์ด๋ผ๋ ์ทจ์
์ง์๊ธ๊ณผ 500 ๋ง ์์ ์ฌ๊ต์ก๋น๊ฐ ์๊น์ง ์๋ค.ํด์ดํญ๋ง ์ค์ง์๋ค์ ๊ฒฝํ์ด ํ๋ถํ ์ฐ์ ์ธ๋ ฅ์ด๋ค.์ทจ์
์ ์ค๋นํ๋ ๋ฒ ํ
๋๋ค์ด ๋ชจ์ฌ์ ์ ๋ณด์ ๊ธฐ์ ์ ๊ต๋ฅํ๊ณ ๊ณต์ ํ ์ง์ ๊ฑฐ์ ํ๋ซํผ์ด ๋ง๋ จ๋๋ฉด ํจ๊ณผ๋ ๋ฐฐ๊ฐ๋ ๊ฒ์ด๋ค.๊ด๊ฑด์ ์์ฐ์ด๋ค.ํ์งํด์ด์ด ๋ถ๋๋ 2017 ๋
๊ณผ 2018 ๋
์๋ ํด์ดํญ๋ง ๋ถ์ผ ํด์ง์์ ๋ํ ์ง์ ์ฌ์
์ด ์ถ์ง๋์์ง๋ง ๋งค๋ฒ ๊ตญํ ๋ฌธํฑ์ ๋์ง ๋ชปํ๋ค.๋น์์๋ ํด์์์ฐ๋ถ ์ฐ๊ฐ ์ฌ์
์ ํฌํจ๋์ง ๋ชปํ์ง๋ง ์ฌํด ์ฒ์์ผ๋ก ํฌํจ๋๋ฉด์ ์์ฐ ์ง์ ๊ฐ๋ฅ์ฑ์ด ๋์ ์ํฉ์ด๋ผ๊ณ ํ๋ค.ํด์ดํญ๋ง์
๊ณ ์ฌ์ทจ์
์ง์ ์ฌ์
์ด ๋ถ์ฐ์ ์์์ผ๋ก ์ ๊ตญ์ผ๋ก ํ๋๋๊ธฐ๋ฅผ ๊ธฐ๋ํ๋ค.ํด์ดํญ๋ง์
๊ณ ๋ถํ์ ๊ฒฌ์ธ์ฐจ๊ฐ ๋ ํด์ดํญ๋ง ์ค์ง์ ์ฌ์ทจ์
ํ๋ก๊ทธ๋จ์ ์ ๋๋ก ์ถ์ง๋์ด์ผ ํ๋ค."
input_ids = tokenizer.encode(input_text, return_tensors="pt", padding="max_length", truncation=True, max_length=1026)
# Generate Summary Text Ids
summary_text_ids = model.generate(
input_ids=input_ids,
bos_token_id=model.config.bos_token_id,
eos_token_id=model.config.eos_token_id,
length_penalty=1.0,
max_length=40,
min_length=3,
num_beams=6,
repetition_penalty=1.5,
)
# Decoding Text Ids
print(tokenizer.decode(summary_text_ids[0], skip_special_tokens=True))
- Downloads last month
- 3
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social
visibility and check back later, or deploy to Inference Endpoints (dedicated)
instead.