모델 Post-Training 방법에 대해 자세하게 설명해 주실 수 있을까요?
#4
by
CocoRoF
- opened
안녕하세요.
"DeepSeek-llama3.3-Bllossom은 자체적으로 제작한 다양한 reasoning 데이터를 활용하여 post-training 과정을 진행하였습니다. 이 과정에서는 대규모 모델이 보유한 우수한 reasoning 능력과 한국어 처리 능력을 DeepSeek-R1-distill-Llama-70B 모델에 효과적으로 distillation하는 방법을 적용하였습니다."
해당 부분에 대해 궁금한 것이 있습니다.
어떤 방식의 Training을 통해 이를 달성하셨는지 궁금합니다.
혹시 가능하다면 해당 부분에 대해 자세하게 설명해 주실 수 있을까요?
해당 부분은 추후 논문을 통해서 공개할 예정입니다.
내용 확인하였습니다. 감사합니다.
CocoRoF
changed discussion status to
closed