모델 Post-Training 방법에 대해 자세하게 설명해 주실 수 있을까요?

#4
by CocoRoF - opened

안녕하세요.

"DeepSeek-llama3.3-Bllossom은 자체적으로 제작한 다양한 reasoning 데이터를 활용하여 post-training 과정을 진행하였습니다. 이 과정에서는 대규모 모델이 보유한 우수한 reasoning 능력과 한국어 처리 능력을 DeepSeek-R1-distill-Llama-70B 모델에 효과적으로 distillation하는 방법을 적용하였습니다."

해당 부분에 대해 궁금한 것이 있습니다.
어떤 방식의 Training을 통해 이를 달성하셨는지 궁금합니다.
혹시 가능하다면 해당 부분에 대해 자세하게 설명해 주실 수 있을까요?

UNIVA and KAIST-MLP lab org
edited 2 days ago

해당 부분은 추후 논문을 통해서 공개할 예정입니다.

내용 확인하였습니다. 감사합니다.

CocoRoF changed discussion status to closed

Sign up or log in to comment