Text Generation
Transformers
PyTorch
Chinese
English
llama
text-generation-inference

关于模型中文语言表现

#6
by reedhs - opened

感谢作者的工作!
想请教一下,目前我看到您的instruction fintuning 语料主要都是英文语料,但是中文输出效果尚可,因此有一个疑问:之前使用 LLama vicuna-7b 时常会出现中文问、模型英文回答的情况,感觉原因是英文的finetune过多导致(当然和llama本身也有关系),不知道这种现象在本模型使用中是否常出现?或者说您采用了什么办法来减少或避免此问题?谢谢!

  • 本模型会出现问中文回答英文的问题,在一些特点问题上比较频繁。
  • ShareGPT中有一定比例的中文数据,baichuan-7b也在更多中文语料上训练,可能有助于缓解这个问题。
  • 避免此问题可以在更多中文问中文答的数据上微调。

Sign up or log in to comment