ValueFX9507
/

Tifa-Deepsex-14b-CoT

Reinforcement Learning

incremental-pretraining

Inference Endpoints

Not-For-All-Audiences

Model card Files Files and versions Community

ValueFX9507 commited on 10 days ago

Commit

fba349d

·

verified ·

1 Parent(s): 4d48dd2

Update README.md

Files changed (1) hide show

README.md +7 -0

README.md CHANGED Viewed

@@ -29,6 +29,13 @@ license: apache-2.0
 ## 目标
 针对原版Deepseek-R1-14B在长文本生成连贯性不足和角色扮演能力薄弱的核心缺陷（主要由于训练数据中小说类语料占比过低），本模型通过多阶段优化提升其角色扮演能力。
 ## 模型亮点
 🔥 **四阶段进化架构**：
 1. **增量预训练**：注入0.4T Token 小说，使用16k上下文训练，增强文本连贯性（70%爱情动作小说）

 ## 目标
 针对原版Deepseek-R1-14B在长文本生成连贯性不足和角色扮演能力薄弱的核心缺陷（主要由于训练数据中小说类语料占比过低），本模型通过多阶段优化提升其角色扮演能力。
+## 实现
+🔥 **经过训练后**：
+1. **显著提高上下文关联**：减少答非所问情况。
+2. **消除中英混杂**：原始模型蒸馏数据大多数英文为主，经过微调后基本消除中英混杂现象。
+3. **特定词汇增加**：进行“具有深度”的角色扮演对话时，显著增加了相关词汇量，解决原始权重预训练数据不足问题。
+4. **更少拒绝**：减少了拒绝现象，但因为是企业训练，安全性还是稍作保留。
 ## 模型亮点
 🔥 **四阶段进化架构**：
 1. **增量预训练**：注入0.4T Token 小说，使用16k上下文训练，增强文本连贯性（70%爱情动作小说）