EbanLee commited on
Commit
19fed67
Β·
verified Β·
1 Parent(s): 284e362

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +44 -0
README.md ADDED
@@ -0,0 +1,44 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language:
3
+ - ko
4
+ metrics:
5
+ - rouge
6
+ library_name: transformers
7
+ pipeline_tag: summarization
8
+ tags:
9
+ - bart
10
+ ---
11
+ # kobart-summary
12
+ - 이 λͺ¨λΈμ€ [kobartλͺ¨λΈ](https://huggingface.co/hyunwoongko/kobart)을 [λ¬Έμ„œμš”μ•½](https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=97), [λ„μ„œμžλ£Œμš”μ•½](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=93), [μš”μ•½λ¬Έ 및 레포트 생성 데이터](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&dataSetSn=582) λ°μ΄ν„°λ‘œ fine-tuningν•œ λͺ¨λΈμž…λ‹ˆλ‹€.
13
+ - v2와 λΉ„μŠ·μ§€λ§Œ 데이터λ₯Ό 쑰금 더 μΆ”κ°€ν–ˆκ³  λ¬Έμž₯이 쑰금 더 λŠκ²¨μ„œ 좜λ ₯λ©λ‹ˆλ‹€.
14
+
15
+ ## How to use
16
+ ```python
17
+ from transformers import PreTrainedTokenizerFast, BartForConditionalGeneration
18
+
19
+ # Load Model and Tokenizer
20
+ tokenizer = PreTrainedTokenizerFast.from_pretrained("EbanLee/kobart-summary-v3")
21
+ model = BartForConditionalGeneration.from_pretrained("EbanLee/kobart-summary-v3")
22
+
23
+ # Encoding
24
+ input_text = "10λ…„ λ…Όλž€ 끝에 λ°‘κΈ€μ”¨κΉŒμ§€ μƒˆκΈ°κ³  μ œμž‘ μ™„λ£Œλ₯Ό λˆˆμ•žμ— λ‘” β€˜κ΄‘ν™”λ¬Έ ν˜„νŒβ€™μ„ μ›μ μ—μ„œ μž¬κ²€ν† ν•΄ ν•œκΈ€ ν˜„νŒμœΌλ‘œ κ΅μ²΄ν•˜μžλŠ” μ£Όμž₯이 문화계 λͺ…사듀이 ν¬ν•¨λœ 자칭 β€˜μ‹œλ―Όλͺ¨μž„β€™μ—μ„œ λ‚˜μ™”λ‹€.\n 이듀은 λ¬Έν™”μž¬μ²­μ΄ μ§€λ‚œν•΄ 8μ›” μ΅œμ’… ν™•μ •ν•œ λ³΅μ›μ•ˆμ΄ μ‹œλ―Ό 의견과 μ‹œλŒ€μ •μ‹ μ„ λ°˜μ˜ν•œ 것이 μ•„λ‹ˆλΌλ©΄μ„œ μ˜€λŠ” ν•œκΈ€λ‚ κΉŒμ§€ λŒ€λŒ€μ μΈ ν˜„νŒ ꡐ체 μ‹œλ―Όμš΄λ™μ„ λ²Œμ΄κ² λ‹€κ³  μ˜ˆκ³ ν–ˆλ‹€.\n β€˜κ΄‘ν™”λ¬Έ ν˜„νŒ ν›ˆλ―Όμ •μŒμ²΄λ‘œ μ‹œλ―Όλͺ¨μž„’(κ³΅λ™λŒ€ν‘œ κ°•λ³‘μΈβ€§ν•œμž¬μ€€, μ΄ν•˜ β€˜μ‹œλ―Όλͺ¨μž„’)에 이름을 올린 λ¬Έν™”μ˜ˆμˆ μΈμ€ ν˜„μž¬κΉŒμ§€ 총 24λͺ….\n 이 쀑엔 2014~2016λ…„ μ„œμšΈμ‹œ 총괄건좕가λ₯Ό 지낸 μŠΉνš¨μƒ 이둜재 λŒ€ν‘œμ™€ β€˜μ•ˆμƒμˆ˜μ²΄β€™λ‘œ 유λͺ…ν•œ μ•ˆμƒμˆ˜ νŒŒμ£Όνƒ€μ΄ν¬κ·ΈλΌν”Όν•™κ΅ ꡐμž₯, μœ μ˜μˆ™ μ „ ν™˜κ²½λΆ€μž₯κ΄€(μ„Έμ’…μ‚¬λž‘λ°© 회μž₯), μž„μ˜₯상 λ―Έμˆ κ°€ 등이 μžˆλ‹€.\n κ³΅λ™λŒ€ν‘œμΈ 강병인 μž‘κ°€λŠ” β€˜μ°Έμ΄μŠ¬β€™ β€˜ν™”μš”β€™ λ“±μ˜ μƒν‘œ κΈ€μ”¨λ‘œ 유λͺ…ν•œ μΊ˜λ¦¬κ·ΈλΌν”Ό(μ„œμ²΄) μž‘κ°€λ‹€.\n β€˜μ‹œλ―Όλͺ¨μž„’은 14일 μ˜€ν›„ μ„œμšΈ μ’…λ‘œκ΅¬μ˜ ν•œ μ„œμ μ—μ„œ κΈ°μžκ°„λ‹΄νšŒλ₯Ό μ—΄κ³  이 같은 μž…μž₯κ³Ό ν•¨κ»˜ ν›ˆλ―Όμ •μŒ ν•΄λ‘€ κΈ€μžκΌ΄λ‘œ μ‹œλ²” μ œμž‘ν•œ λͺ¨ν˜• ν˜„νŒ(1/2 크기 μΆ•μ†ŒνŒ)도 κ³΅κ°œν•  μ˜ˆμ •μ΄λ‹€.\n κ°• κ³΅λ™λŒ€ν‘œλŠ” 13일 κΈ°μžμ™€ ν†΅ν™”μ—μ„œ β€œμƒˆ ν˜„νŒ μ œμž‘ κ³Όμ •μ—μ„œ ν•œκΈ€λ‘œ λ§Œλ“€μžλŠ” μ˜κ²¬μ€ λ¬΅μ‚΄λλ‹€β€λ©΄μ„œ β€œμ§€λ‚œν•΄ 8μ›” 이후 λ¬Έν™”μž¬μ²­μ— κ±°λ“­ μž…μž₯을 μ „ν–ˆμ§€λ§Œ λ°˜μ˜λ˜μ§€ μ•Šμ•„ μ‹œλ―Όμš΄λ™μ— λ‚˜μ„œκΈ°λ‘œ ν–ˆλ‹€β€κ³  λ§ν–ˆλ‹€.\n 일단 λ¬Έν™”μ˜ˆμˆ μΈ μ£ΌμΆ•μœΌλ‘œ κΎΈλ Έμ§€λ§Œ μ‘°λ§Œκ°„ ν•œκΈ€ν˜‘νšŒ λ“± ν•œκΈ€ 관련단체듀과 μ—°λŒ€ν•œλ‹€λŠ” 방침이닀.\n 이듀이 λ°°ν¬ν•œ μ‚¬μ „μžλ£Œμ—” ^ν•œμžν˜„νŒ μ„€μΉ˜λŠ” μ€‘κ΅­μ˜ μ†κ΅­μž„μ„ ν‘œμ‹œν•˜λŠ” κ²ƒμœΌλ‘œ λŒ€ν•œλ―Όκ΅­ 정체성에 도움이 λ˜μ§€ μ•Šκ³  ^광화문은 21μ„ΈκΈ°μ˜ 쀑건이지 볡원이 μ•„λ‹ˆλ―€λ‘œ λ‹ΉλŒ€μ˜ μ‹œλŒ€μ •μ‹ μΈ ν•œκΈ€λ‘œ ν˜„νŒμ„ μ¨μ•Όν•˜λ©° ^ν•œκΈ€ν˜„νŒμ€ λ―Έλž˜μ— 남겨쀄 우리 μœ μ‚°μ„ μž¬μ°½μ‘°ν•œλ‹€λŠ” μ˜λ―ΈλΌλŠ” μ£Όμž₯이 λ‹΄κ²Όλ‹€.\n ν˜„μž¬ κ΄‘ν™”λ¬Έ ν˜„νŒμ— λŒ€ν•΄μ„  β€œκ³ μ’…μ΄ 경볡ꢁ을 쀑건할 λ•Œ λ‹Ήμ‹œ ν›ˆλ ¨λŒ€μž₯이던 μž„νƒœμ˜μ΄ μ“΄ κ΄‘ν™”λ¬Έ ν˜„νŒμ˜ 글씨λ₯Ό 쑰그만 μ‚¬μ§„μ—μ„œ μŠ€μΊλ‹ν•˜κ³  이λ₯Ό 닀듬어 이λͺ…λ°•μ •λΆ€ λ•Œ μ„€μΉ˜λœ κ²ƒβ€μ΄λΌλ©΄μ„œ 볡원 κΈ°μ€€μœΌλ‘œμ„œμ˜ 정당성을 κΉŽμ•„λ‚΄λ Έλ‹€.\n β€˜μ‹œλ―Όλͺ¨μž„’에 μ°Έμ—¬ν•œ μŠΉνš¨μƒ λŒ€ν‘œλ„ κ°œμΈμ˜κ²¬μ„ μ „μ œλ‘œ β€œν˜„νŒμ„ κΌ­ ν•œκ°€μ§€λ§Œ 고집할 ν•„μš”λ„ μ—†λ‹€.\n 맀년 ꡐ체할 μˆ˜λ„ 있고, κ΄‘μž₯μ—μ„œ λ³΄μ΄λŠ” μ •λ©΄μ—” ν•œκΈ€ν˜„νŒ, λ°˜λŒ€νŽΈμ—” ν•œμžν˜„νŒμ„ λ‹€λŠ” 아이디어도 κ°€λŠ₯ν•œ 것 μ•„λ‹ˆλƒβ€κ³  λ§ν–ˆλ‹€.\n κ·ΈλŸ¬λ©΄μ„œ β€œλ¬Έν™”μž¬ 전문가듀은 보수적일 μˆ˜λ°–μ— μ—†μ§€λ§Œ ν˜„νŒμ΄λž€ 게 μš”μ¦˜ λ§λ‘œλŠ” β€˜κ°„νŒβ€™μΈλ° μƒˆ μ‹œλŒ€μ— 맞게 λ°”κΏ” λ‹€λŠ” 게 λ°”λžŒμ§ν•˜λ‹€β€κ³  μ£Όμž₯ν–ˆλ‹€.\n"
25
+ inputs = tokenizer(input_text, return_tensors="pt", padding="max_length", truncation=True, max_length=1026)
26
+
27
+ # Generate Summary Text Ids
28
+ summary_text_ids = model.generate(
29
+ input_ids=inputs['input_ids'],
30
+ attention_mask=inputs['attention_mask'],
31
+ bos_token_id=model.config.bos_token_id,
32
+ eos_token_id=model.config.eos_token_id,
33
+ length_penalty=1.0,
34
+ max_length=300,
35
+ min_length=12,
36
+ num_beams=6,
37
+ repetition_penalty=1.5,
38
+ no_repeat_ngram_size=15,
39
+ )
40
+
41
+ # Decoding Text Ids
42
+ print(tokenizer.decode(summary_text_ids[0], skip_special_tokens=True))
43
+
44
+ ```