File size: 2,404 Bytes
b158cd5
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7ec223f
b158cd5
 
7ec223f
b158cd5
7ec223f
b158cd5
 
 
 
 
 
7ec223f
 
b158cd5
 
 
 
7ec223f
 
b158cd5
 
 
 
 
 
7ec223f
 
b158cd5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
**μ‹€ν—˜ κ°œμš”**

λ³Έ μ‹€ν—˜μ€ ν•œκ΅­μ–΄ μ˜ν™” 리뷰 데이터셋(NSMC)을 μ‚¬μš©ν•˜μ—¬ meta-llama/Llama-2-7b-chat-hf λͺ¨λΈμ„ λ―Έμ„Έ νŠœλ‹ν•˜κ³ , ν•œκ΅­ μ˜ν™” 리뷰의 긍정 λ˜λŠ” 뢀정을 λΆ„λ₯˜ν•˜λŠ” λͺ¨λΈμ„ ν•™μŠ΅ν•˜μ˜€μŠ΅λ‹ˆλ‹€. μ‹€ν—˜μ€ Hugging Face의 PEFT와 SFTTrainerλ₯Ό μ‚¬μš©ν•˜μ—¬ μˆ˜ν–‰ν–ˆμœΌλ©°, ν‰κ°€λŠ” 정확도 및 혼돈 행렬을 ν¬ν•¨ν•œ λ‹€μ–‘ν•œ μ§€ν‘œλ₯Ό 톡해 μ΄λ£¨μ–΄μ‘ŒμŠ΅λ‹ˆλ‹€.

**μ‹€ν—˜ ν™˜κ²½ μ„€μ •**

λͺ¨λΈ: meta-llama/Llama-2-7b-chat-hf  
ν•™μŠ΅ 데이터: NSMC (넀이버 μ˜ν™” 리뷰 데이터셋)  
ν•˜μ΄νΌνŒŒλΌλ―Έν„° 및 μ„€μ •  
λ―Έλ‹ˆλ°°μΉ˜ 크기: 1  
μ‹œν€€μŠ€ 길이: 384  
ν•™μŠ΅λ₯ : 1e-4  
에폭 수: 1  

**정확도 ν–₯상을 μœ„ν•œ λ…Έλ ₯**

1. ν›ˆλ ¨ 데이터 ν™•μž₯
ν›ˆλ ¨ λ°μ΄ν„°μ˜ 개수λ₯Ό 2000κ°œλΆ€ν„° μ‹œμž‘ν–ˆκ³  2000κ°œμ”© ν™•μž₯ν•˜μ—¬ ν•™μŠ΅μ‹œμΌ°μŠ΅λ‹ˆλ‹€.

2. ν”„λ‘¬ν”„νŠΈ ν…œν”Œλ¦Ώ λ³€κ²½
λ‹€μ–‘ν•œ ν”„λ‘¬ν”„νŠΈ ν…œν”Œλ¦Ώμ„ μ‹œλ„ν•˜μ—¬ μ–΄λ–€ ν˜•μ‹μ΄ λͺ¨λΈμ˜ μ„±λŠ₯을 ν–₯μƒμ‹œν‚€λŠ”μ§€ ν‰κ°€ν–ˆμŠ΅λ‹ˆλ‹€.

3. ν›ˆλ ¨ 총 μŠ€ν… 수 λ³€κ²½
ν›ˆλ ¨ μŠ€ν…μ΄ λ†’μ„μˆ˜λ‘ 더 λ§Žμ€ 데이터λ₯Ό μ²˜λ¦¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€. ν•˜μ§€λ§Œ λ„ˆλ¬΄ λ†’κ±°λ‚˜ ν›ˆλ ¨ λ°μ΄ν„°μ˜ κ°œμˆ˜κ°€ μΆ©λΆ„ν•˜μ§€ μ•Šλ‹€λ©΄ μ˜€λ²„ν”ΌνŒ…λ  수 있기 λ•Œλ¬Έμ— ν›ˆλ ¨ 데이터 κ°œμ— λ”°λ₯Έ ν›ˆλ ¨ 총 μŠ€νƒ­ 수λ₯Ό μ μ ˆν•˜κ²Œ μ„€μ •ν•΄μ•Ό ν•©λ‹ˆλ‹€. λ”°λΌμ„œ 데이터 양에 따라 μ μ ˆν•˜κ²Œ ν›ˆλ ¨ 총 μŠ€νƒ­ 수λ₯Ό λ³€κ²½ν•˜λ©΄μ„œ λͺ¨λΈμ˜ μ„±λŠ₯을 ν–₯μƒμ‹œν‚€κΈ° μœ„ν•΄ λ…Έλ ₯ν–ˆμŠ΅λ‹ˆλ‹€.

4. λ“œλ‘­μ•„μ›ƒ κ°’ λ³€κ²½
μ˜€λ²„ν”ΌνŒ…μ„ λ˜μ§€ μ•Šλ„λ‘ λ“œλ‘­μ•„μ›ƒμ˜ 값을 0.05μ—μ„œ 0.15둜 λ³€κ²½ν–ˆμŠ΅λ‹ˆλ‹€.

정확도가 0.9 이상이 λ˜λ„λ‘ μœ„μ˜ 4가지 방법을 μ‘°ν•©ν•˜μ—¬ λ§Žμ€ μ‹€ν—˜μ„ ν•΄λ΄€μ§€λ§Œ 정확도 κ°’μ˜ μ΅œλŒ€λŠ” 0.874μ˜€μŠ΅λ‹ˆλ‹€. 

**λΆ„λ₯˜ κ²°κ³Ό**

Confusion Matrix
|  | TP | TN |
|----------|----------|----------|
| PP | 445 | 63 |
| PN | 63 | 429 |

Classification Report
|  | precision | recall | f1-score | support |
|----------|----------|----------|----------|----------|
| Negative | 0.87 | 0.87 | 0.87 | 492 |
| Positive | 0.88 | 0.88 | 0.88 | 508 |
| accuracy |  |  | 0.87 | 1000 |
| macro avg | 0.87 | 0.87 | 0.87 | 1000 |
| weighted avg | 0.87 | 0.87 | 0.87 | 1000 |

**κ²°κ³Ό 뢄석**

μ •ν™•λ„λŠ” 0.874둜 λͺ¨λΈμ΄ 1000개 ν…ŒμŠ€νŠΈ 데이터 쀑 874κ°œμ— λŒ€ν•΄ μ •ν™•ν•œ μ˜ˆμΈ‘μ„ μˆ˜ν–‰ν–ˆλ‹€.
TP : 445, TN : 429, FP : 63, FN : 63의 κ²°κ³Όκ°€ λ‚˜μ™”λ‹€.