|
--- |
|
base_model: |
|
- deepseek-ai/deepseek-r1-14b |
|
language: |
|
- zh |
|
- en |
|
library_name: transformers |
|
tags: |
|
- incremental-pretraining |
|
- sft |
|
- reinforcement-learning |
|
- roleplay |
|
- cot |
|
- sex |
|
license: apache-2.0 |
|
--- |
|
# Tifa-Deepsex-14b-CoT-Chat-Q4_K_M-gguf |
|
# Tifa-Deepsex-14b-CoT-Chat-Q4_K_M-gguf |
|
# Tifa-Deepsex-14b-CoT-Chat-Q4_K_M-gguf |
|
|
|
- **HF Model**: [ValueFX9507/Tifa-Deepsex-14b-CoT](https://huggingface.co./ValueFX9507/Tifa-Deepsex-14b-CoT) |
|
- **GGUF**: [Q8](https://huggingface.co./ValueFX9507/Tifa-Deepsex-14b-CoT-GGUF-Q8) | [Q4](https://huggingface.co./ValueFX9507/Tifa-Deepsex-14b-CoT-GGUF-Q4)(更多量化版本持续更新中) |
|
- **Demo APK**: [点击下载](http://app.visionsic.com/download/projectchat.apk) |
|
|
|
本模型基于Deepseek-R1-14B进行深度优化,借助Tifa_220B生成的数据集通过三重训练策略显著增强角色扮演、小说文本生成与思维链(CoT)能力。特别适合需要长程上下文关联的创作场景。 |
|
|
|
## 版本介绍: |
|
- **Tifa-Deepsex-14b-CoT** |
|
|
|
- 验证模型,测试RL奖励算法对于角色扮演数据的影响,该版本为初版,输出灵活但是不受控制,仅做研究使用。 |
|
|
|
- **Tifa-Deepsex-14b-CoT-Chat** |
|
|
|
- 采用标准数据训练,使用成熟RL策略,附加防重复强化学习,适合正常使用,输出文本质量正常,少数情况下思维发散。 |
|
|
|
-增量训练0.4T小说内容 |
|
|
|
-100K由TifaMax生成的SFT数据,10K由DeepseekR1生成的SFT数据,2K高质量人工数据 |
|
|
|
-30K由TifaMax生成的DPO强化学习数据,用于防止重复,增强上下文关联,提升政治安全性 |
|
|
|
- **Tifa-Deepsex-14b-CoT-Crazy** |
|
|
|
- 大量使用RL策略,主要采用671B满血R1蒸馏的数据,输出发散性高,继承R1优点,也继承了R1的危害性。文学性能佳。 |
|
|
|
-增量训练0.4T小说内容 |
|
|
|
-40K由TifaMax生成的SFT数据,60K由DeepseekR1生成的SFT数据,2K高质量人工数据 |
|
|
|
-30K由TifaMax生成的DPO强化学习数据,用于防止重复,增强上下文关联,提升政治安全性 |
|
|
|
-10K由TifaMax生成PPO数据,10K由DeepseekR1生成PPO数据 |
|
|