File size: 4,573 Bytes
19fed67
 
 
 
 
 
 
 
 
 
 
f1f0d21
67cf6f9
19fed67
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
---
language:
- ko
metrics:
- rouge
library_name: transformers
pipeline_tag: summarization
tags:
- bart
---
# kobart-summary
- 이 λͺ¨λΈμ€ [kobartλͺ¨λΈ](https://huggingface.co./hyunwoongko/kobart)을 [λ¬Έμ„œμš”μ•½](https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=97), [λ„μ„œμžλ£Œμš”μ•½](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=93), [μš”μ•½λ¬Έ 및 레포트 생성](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&dataSetSn=582) λ°μ΄ν„°λ‘œ fine-tuningν•œ λͺ¨λΈμž…λ‹ˆλ‹€.
- v2와 λΉ„μŠ·μ§€λ§Œ 데이터λ₯Ό 쑰금 더 μΆ”κ°€ν–ˆκ³  길게 μ—°κ²°λœ λ¬Έμž₯이 많이 λ‚˜μ™”μ—ˆλŠ”λ° 쑰금 더 λŠμ–΄μ Έμ„œ μƒμ„±λ©λ‹ˆλ‹€.

## How to use
```python
from transformers import PreTrainedTokenizerFast, BartForConditionalGeneration

# Load Model and Tokenizer
tokenizer = PreTrainedTokenizerFast.from_pretrained("EbanLee/kobart-summary-v3")
model = BartForConditionalGeneration.from_pretrained("EbanLee/kobart-summary-v3")

# Encoding
input_text = "10λ…„ λ…Όλž€ 끝에 λ°‘κΈ€μ”¨κΉŒμ§€ μƒˆκΈ°κ³  μ œμž‘ μ™„λ£Œλ₯Ό λˆˆμ•žμ— λ‘” β€˜κ΄‘ν™”λ¬Έ ν˜„νŒβ€™μ„ μ›μ μ—μ„œ μž¬κ²€ν† ν•΄ ν•œκΈ€ ν˜„νŒμœΌλ‘œ κ΅μ²΄ν•˜μžλŠ” μ£Όμž₯이 문화계 λͺ…사듀이 ν¬ν•¨λœ 자칭 β€˜μ‹œλ―Όλͺ¨μž„β€™μ—μ„œ λ‚˜μ™”λ‹€.\n  이듀은 λ¬Έν™”μž¬μ²­μ΄ μ§€λ‚œν•΄ 8μ›” μ΅œμ’… ν™•μ •ν•œ λ³΅μ›μ•ˆμ΄ μ‹œλ―Ό 의견과 μ‹œλŒ€μ •μ‹ μ„ λ°˜μ˜ν•œ 것이 μ•„λ‹ˆλΌλ©΄μ„œ μ˜€λŠ” ν•œκΈ€λ‚ κΉŒμ§€ λŒ€λŒ€μ μΈ ν˜„νŒ ꡐ체 μ‹œλ―Όμš΄λ™μ„ λ²Œμ΄κ² λ‹€κ³  μ˜ˆκ³ ν–ˆλ‹€.\n  β€˜κ΄‘ν™”λ¬Έ ν˜„νŒ ν›ˆλ―Όμ •μŒμ²΄λ‘œ μ‹œλ―Όλͺ¨μž„’(κ³΅λ™λŒ€ν‘œ κ°•λ³‘μΈβ€§ν•œμž¬μ€€, μ΄ν•˜ β€˜μ‹œλ―Όλͺ¨μž„’)에 이름을 올린 λ¬Έν™”μ˜ˆμˆ μΈμ€ ν˜„μž¬κΉŒμ§€ 총 24λͺ….\n  이 쀑엔 2014~2016λ…„ μ„œμšΈμ‹œ 총괄건좕가λ₯Ό 지낸 μŠΉνš¨μƒ 이둜재 λŒ€ν‘œμ™€ β€˜μ•ˆμƒμˆ˜μ²΄β€™λ‘œ 유λͺ…ν•œ μ•ˆμƒμˆ˜ νŒŒμ£Όνƒ€μ΄ν¬κ·ΈλΌν”Όν•™κ΅ ꡐμž₯, μœ μ˜μˆ™ μ „ ν™˜κ²½λΆ€μž₯κ΄€(μ„Έμ’…μ‚¬λž‘λ°© 회μž₯), μž„μ˜₯상 λ―Έμˆ κ°€ 등이 μžˆλ‹€.\n  κ³΅λ™λŒ€ν‘œμΈ 강병인 μž‘κ°€λŠ” β€˜μ°Έμ΄μŠ¬β€™ β€˜ν™”μš”β€™ λ“±μ˜ μƒν‘œ κΈ€μ”¨λ‘œ 유λͺ…ν•œ μΊ˜λ¦¬κ·ΈλΌν”Ό(μ„œμ²΄) μž‘κ°€λ‹€.\n  β€˜μ‹œλ―Όλͺ¨μž„’은 14일 μ˜€ν›„ μ„œμšΈ μ’…λ‘œκ΅¬μ˜ ν•œ μ„œμ μ—μ„œ κΈ°μžκ°„λ‹΄νšŒλ₯Ό μ—΄κ³  이 같은 μž…μž₯κ³Ό ν•¨κ»˜ ν›ˆλ―Όμ •μŒ ν•΄λ‘€ κΈ€μžκΌ΄λ‘œ μ‹œλ²” μ œμž‘ν•œ λͺ¨ν˜• ν˜„νŒ(1/2 크기 μΆ•μ†ŒνŒ)도 κ³΅κ°œν•  μ˜ˆμ •μ΄λ‹€.\n  κ°• κ³΅λ™λŒ€ν‘œλŠ” 13일 κΈ°μžμ™€ ν†΅ν™”μ—μ„œ β€œμƒˆ ν˜„νŒ μ œμž‘ κ³Όμ •μ—μ„œ ν•œκΈ€λ‘œ λ§Œλ“€μžλŠ” μ˜κ²¬μ€ λ¬΅μ‚΄λλ‹€β€λ©΄μ„œ β€œμ§€λ‚œν•΄ 8μ›” 이후 λ¬Έν™”μž¬μ²­μ— κ±°λ“­ μž…μž₯을 μ „ν–ˆμ§€λ§Œ λ°˜μ˜λ˜μ§€ μ•Šμ•„ μ‹œλ―Όμš΄λ™μ— λ‚˜μ„œκΈ°λ‘œ ν–ˆλ‹€β€κ³  λ§ν–ˆλ‹€.\n  일단 λ¬Έν™”μ˜ˆμˆ μΈ μ£ΌμΆ•μœΌλ‘œ κΎΈλ Έμ§€λ§Œ μ‘°λ§Œκ°„ ν•œκΈ€ν˜‘νšŒ λ“± ν•œκΈ€ 관련단체듀과 μ—°λŒ€ν•œλ‹€λŠ” 방침이닀.\n  이듀이 λ°°ν¬ν•œ μ‚¬μ „μžλ£Œμ—” ^ν•œμžν˜„νŒ μ„€μΉ˜λŠ” μ€‘κ΅­μ˜ μ†κ΅­μž„μ„ ν‘œμ‹œν•˜λŠ” κ²ƒμœΌλ‘œ λŒ€ν•œλ―Όκ΅­ 정체성에 도움이 λ˜μ§€ μ•Šκ³  ^광화문은 21μ„ΈκΈ°μ˜ 쀑건이지 볡원이 μ•„λ‹ˆλ―€λ‘œ λ‹ΉλŒ€μ˜ μ‹œλŒ€μ •μ‹ μΈ ν•œκΈ€λ‘œ ν˜„νŒμ„ μ¨μ•Όν•˜λ©° ^ν•œκΈ€ν˜„νŒμ€ λ―Έλž˜μ— 남겨쀄 우리 μœ μ‚°μ„ μž¬μ°½μ‘°ν•œλ‹€λŠ” μ˜λ―ΈλΌλŠ” μ£Όμž₯이 λ‹΄κ²Όλ‹€.\n  ν˜„μž¬ κ΄‘ν™”λ¬Έ ν˜„νŒμ— λŒ€ν•΄μ„  β€œκ³ μ’…μ΄ 경볡ꢁ을 쀑건할 λ•Œ λ‹Ήμ‹œ ν›ˆλ ¨λŒ€μž₯이던 μž„νƒœμ˜μ΄ μ“΄ κ΄‘ν™”λ¬Έ ν˜„νŒμ˜ 글씨λ₯Ό 쑰그만 μ‚¬μ§„μ—μ„œ μŠ€μΊλ‹ν•˜κ³  이λ₯Ό 닀듬어 이λͺ…λ°•μ •λΆ€ λ•Œ μ„€μΉ˜λœ κ²ƒβ€μ΄λΌλ©΄μ„œ 볡원 κΈ°μ€€μœΌλ‘œμ„œμ˜ 정당성을 κΉŽμ•„λ‚΄λ Έλ‹€.\n    β€˜μ‹œλ―Όλͺ¨μž„’에 μ°Έμ—¬ν•œ μŠΉνš¨μƒ λŒ€ν‘œλ„ κ°œμΈμ˜κ²¬μ„ μ „μ œλ‘œ β€œν˜„νŒμ„ κΌ­ ν•œκ°€μ§€λ§Œ 고집할 ν•„μš”λ„ μ—†λ‹€.\n  맀년 ꡐ체할 μˆ˜λ„ 있고, κ΄‘μž₯μ—μ„œ λ³΄μ΄λŠ” μ •λ©΄μ—” ν•œκΈ€ν˜„νŒ, λ°˜λŒ€νŽΈμ—” ν•œμžν˜„νŒμ„ λ‹€λŠ” 아이디어도 κ°€λŠ₯ν•œ 것 μ•„λ‹ˆλƒβ€κ³  λ§ν–ˆλ‹€.\n  κ·ΈλŸ¬λ©΄μ„œ β€œλ¬Έν™”μž¬ 전문가듀은 보수적일 μˆ˜λ°–μ— μ—†μ§€λ§Œ ν˜„νŒμ΄λž€ 게 μš”μ¦˜ λ§λ‘œλŠ” β€˜κ°„νŒβ€™μΈλ° μƒˆ μ‹œλŒ€μ— 맞게 λ°”κΏ” λ‹€λŠ” 게 λ°”λžŒμ§ν•˜λ‹€β€κ³  μ£Όμž₯ν–ˆλ‹€.\n"
inputs = tokenizer(input_text, return_tensors="pt", padding="max_length", truncation=True, max_length=1026)

# Generate Summary Text Ids
summary_text_ids = model.generate(
input_ids=inputs['input_ids'],
attention_mask=inputs['attention_mask'],
bos_token_id=model.config.bos_token_id,
eos_token_id=model.config.eos_token_id,
length_penalty=1.0,
max_length=300,
min_length=12,
num_beams=6,
repetition_penalty=1.5,
no_repeat_ngram_size=15,
)

# Decoding Text Ids
print(tokenizer.decode(summary_text_ids[0], skip_special_tokens=True))

```