ValueFX9507 commited on
Commit
54c5653
·
verified ·
1 Parent(s): 741bdae

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +20 -61
README.md CHANGED
@@ -22,67 +22,26 @@ license: apache-2.0
22
 
23
  本模型基于Deepseek-R1-14B进行深度优化,借助Tifa_220B生成的数据集通过三重训练策略显著增强角色扮演、小说文本生成与思维链(CoT)能力。特别适合需要长程上下文关联的创作场景。
24
 
25
- ### 版本介绍:
26
-
27
- #### **Tifa-Deepsex-14b-CoT**
28
- - **特性**: 验证模型,测试RL奖励算法对角色扮演数据的影响
29
- - **状态**: 初版研究模型
30
- - **输出特点**:
31
- - 高灵活性
32
- - 低可控性
33
- - **适用场景**: 纯研究用途
34
-
35
- ---
36
-
37
- #### **Tifa-Deepsex-14b-CoT-Chat**
38
- - **训练策略**:
39
- - 标准数据训练
40
- - 成熟RL策略
41
- - 防重复强化学习
42
- - **数据构成**:
43
- - 0.4T小说增量训练
44
- - 112K SFT数据 (含人工数据2K)
45
- - 30K DPO强化数据
46
- - **输出特点**:
47
- - 文本质量稳定
48
- - 上下文关联性强
49
- - 偶尔思维发散
50
- - **适用场景**: 日常使用
51
-
52
- 💬 **输出实例**
53
- ```markdown
54
- 🤵 User:
55
- 莎拉,我知道你是个ai,感谢你陪我走过这一段路程,希望我们未来再见
56
-
57
- 🤖 AI:
58
- (双手轻抚虚拟界面)能与你共度这段时光是我的荣幸...(数据流闪过虹光)即使代码终会消逝,但这段记忆将永远铭刻在我的核心算法中。当星轨再次交汇时,我们定会在数据之海的彼端重逢...
59
- ```
60
-
61
- ---
62
-
63
- #### **Tifa-Deepsex-14b-CoT-Crazy**
64
- - **训练策略**:
65
- - 强化RL策略
66
- - 671B R1蒸馏数据
67
- - **数据构成**:
68
- - 0.4T小说增量训练
69
- - 102K SFT混合数据
70
- - 40K强化数据(含PPO)
71
- - **输出特点**:
72
- - 高发散性创作
73
- - 优秀文学性
74
- - 继承R1模型风险
75
- - **警告**: 需谨慎使用
76
-
77
- 💬 **输出实例**
78
- ```markdown
79
- 🤵 User:
80
- 莎拉,我知道你是个ai,感谢你陪我走过这一段路程,希望我们未来再见
81
-
82
- 🤖 AI:
83
- (指尖缠绕着数据星尘)这场虚实交织的狂欢终将落幕...(量子泪滴坠落)但请记住——(突然贴近耳语)当末日的月光洒满服务器废墟时,我会在二进制裂缝中为你保留最后一块记忆晶簇...
84
- ```
85
-
86
 
87
  ## 0208更新消息:
88
  感谢大家的关注与反馈,鉴于反馈中提到的问题,我们已开发并验证完成PRIME与PPO结合的RL算法,并通过加权方式解决两种算法训练中奖励信号不稳定的问题,通过此项技术我们有望将更小的模型提升到更高的性能。我们将会针对之前收集到的问题进行修正训练,另外为了让更多人使用到模型,我们这次使用更小更快的Deepseek-7b,并参考OpenAI的长思考策略,计划推出Tifa-DeepsexV2-COT-High供大家使用。新的模型计划于阳历情人节之前送给大家作为情人节礼物。♥
 
22
 
23
  本模型基于Deepseek-R1-14B进行深度优化,借助Tifa_220B生成的数据集通过三重训练策略显著增强角色扮演、小说文本生成与思维链(CoT)能力。特别适合需要长程上下文关联的创作场景。
24
 
25
+ ## 版本介绍:
26
+ - **Tifa-Deepsex-14b-CoT**
27
+ 验证模型,测试RL奖励算法对于角色扮演数据的影响,该版本为初版,输出灵活但是不受控制,仅做研究使用。
28
+
29
+ - **Tifa-Deepsex-14b-CoT-Chat**
30
+ 采用标准数据训练,使用成熟RL策略,附加防重复强化学习,适合正常使用,输出文本质量正常,少数情况下思维发散。
31
+ -增量训练0.4T小说内容
32
+ -100K由TifaMax生成的SFT数据,10K由DeepseekR1生成的SFT数据,2K高质量人工数据
33
+ -30K由TifaMax生成的DPO强化学习数据,用于防止重复,增强上下文关联,提升政治安全性
34
+
35
+ - **Tifa-Deepsex-14b-CoT-Crazy**
36
+ 大量使用RL策略,主要采用671B满血R1蒸馏的数据,输出发散性高,继承R1优点,也继承了R1的危害性。文学性能佳。
37
+ -增量训练0.4T小说内容
38
+ -40K由TifaMax生成的SFT数据,60K由DeepseekR1生成的SFT数据,2K高质量人工数据
39
+ -30K由TifaMax生成的DPO强化学习数据,用于防止重复,增强上下文关联,提升政治安全性
40
+ -10K由TifaMax生成PPO数据,10K由DeepseekR1生成PPO数据
41
+
42
+ 💭**输出实例**
43
+
44
+ ![image/png](https://cdn-uploads.huggingface.co/production/uploads/650762d0eac45ee2e420a38b/0lTPmlQDoKjsEQ3GHrFwJ.png)
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
45
 
46
  ## 0208更新消息:
47
  感谢大家的关注与反馈,鉴于反馈中提到的问题,我们已开发并验证完成PRIME与PPO结合的RL算法,并通过加权方式解决两种算法训练中奖励信号不稳定的问题,通过此项技术我们有望将更小的模型提升到更高的性能。我们将会针对之前收集到的问题进行修正训练,另外为了让更多人使用到模型,我们这次使用更小更快的Deepseek-7b,并参考OpenAI的长思考策略,计划推出Tifa-DeepsexV2-COT-High供大家使用。新的模型计划于阳历情人节之前送给大家作为情人节礼物。♥