**실험 개요** 본 실험은 한국어 영화 리뷰 데이터셋(NSMC)을 사용하여 meta-llama/Llama-2-7b-chat-hf 모델을 미세 튜닝하고, 한국 영화 리뷰의 긍정 또는 부정을 분류하는 모델을 학습하였습니다. 실험은 Hugging Face의 PEFT와 SFTTrainer를 사용하여 수행했으며, 평가는 정확도 및 혼돈 행렬을 포함한 다양한 지표를 통해 이루어졌습니다. **실험 환경 설정** 모델: meta-llama/Llama-2-7b-chat-hf 학습 데이터: NSMC (네이버 영화 리뷰 데이터셋) 하이퍼파라미터 및 설정 미니배치 크기: 1 시퀀스 길이: 384 학습률: 1e-4 에폭 수: 1 **정확도 향상을 위한 노력** 1. 훈련 데이터 확장 훈련 데이터의 개수를 2000개부터 시작했고 2000개씩 확장하여 학습시켰습니다. 2. 프롬프트 템플릿 변경 다양한 프롬프트 템플릿을 시도하여 어떤 형식이 모델의 성능을 향상시키는지 평가했습니다. 3. 훈련 총 스텝 수 변경 훈련 스텝이 높을 수록 더 많은 데이터를 처리할 수 있습니다. 하지만 너무 높거나 훈련 데이터 양이 충분하지 않다면 오버피팅될 수 있기 때문에 훈련 데이터 양에 따른 훈련 총 스탭 수를 적절하게 설정해야 합니다. 따라서 데이터 양에 따라 적절하게 훈련 총 스탭 수를 변경하면서 모델의 성능을 향상시키기 위해 노력했습니다. 4. 드롭아웃 값 변경 오버피팅을 되지 않도록 드롭아웃의 값을 0.05에서 0.1로 변경했습니다. 정확도가 0.9 이상이 되도록 위의 4가지 방법을 조합하여 많이 실험해봤지만 정확도 값의 최대는 0.88이었습니다. **분류 결과** Confusion Matrix | | TP | TN | |----------|----------|----------| | PP | 439 | 62 | | PN | 69 | 430 | Classification Report | | precision | recall | f1-score | support | |----------|----------|----------|----------|----------| | Negative | 0.86 | 0.87 | 0.87 | 492 | | Positive | 0.88 | 0.86 | 0.87 | 508 | | accuracy | | | 0.87 | 1000 | | macro avg | 0.87 | 0.87 | 0.87 | 1000 | | weighted avg | 0.87 | 0.87 | 0.87 | 1000 | **결과 분석** 정확도는 0.869로 모델이 1000개 테스트 데이터 중 869개에 대해 정확한 예측을 수행했다. TP : 439, TN : 430, FP : 62, FN : 69의 결과가 나왔다. FP와 FN의 값을 봤을 때, 미세튜닝된 모델은 비슷하게 잘못 예측했다.