Tifa-Deepseek-14b-CoT

本模型基于Deepseek-R1-14B进行深度优化,通过三重训练策略显著增强角色扮演、小说文本生成与思维链(CoT)能力。特别适合需要长程上下文关联的创作场景。

示例(因COT模型特点,上下文不连贯时可以使用Demo软件中的故事模式)

2.jpg

目标

针对原版Deepseek-R1-14B在长文本生成连贯性不足和角色扮演能力薄弱的核心缺陷(主要由于训练数据中小说类语料占比过低),本模型通过多阶段优化提升其角色扮演能力。

实现

🔥 经过训练后

  1. 显著提高上下文关联:减少答非所问情况。
  2. 消除中英混杂:原始模型蒸馏数据大多数英文为主,经过微调后基本消除中英混杂现象。
  3. 特定词汇增加:进行“具有深度”的角色扮演对话时,显著增加了相关词汇量,解决原始权重预训练数据不足问题。
  4. 更少拒绝:减少了拒绝现象,但因为是企业训练,安全性还是稍作保留。

模型亮点

🔥 四阶段进化架构

  1. 增量预训练:注入0.4T Token 小说,使用16k上下文训练,增强文本连贯性(70%爱情动作小说)
  2. Tifa-SFT:融合全球Top4角色扮演模型Tifa的10万条高质量数据
  3. CoT恢复训练:采用Deepseek-32B/685B数据重建推理能力
  4. RL强化:保留发散性思维标签的同时优化生成质量

💡 工程创新

  • 16k超长上下文训练
  • 随机截断训练增强鲁棒性
  • 8×H20 GPU全量微调

模型详情

属性 规格
基础架构 Deepseek-R1-14B
最大上下文 128k
训练数据 0.4T小说 + 10万条SFT + Deepseek混合数据
训练设备 8×H20 GPU集群
量化支持 GGUF(全系列量化计划中)

使用场景

推荐场景

  • 角色扮演对话
  • 需要发散性思维的创意写作
  • 复杂逻辑的思维链(CoT)推理
  • 基于上下文的深度角色交互

局限场景

  • 数学计算与代码生成
  • 短文本即时问答
  • 需要严格事实性的场景

注意事项

⚠️ 本模型使用数据包含小说版权内容及Tifa模型衍生数据,请遵守:

  1. 明面上禁止商用(商用别提我名字)
  2. 角色扮演数据需遵循Tifa使用协议
  3. 生成内容需符合当地法律法规

💡 使用建议

最佳实践

# 启用角色扮演模式
prompt = """<system>进入Tifa角色引擎...</system>
<user>你现在是流浪武士楚夜,正站在长安城屋顶上</user>
<think>
需要体现人物孤傲的气质
加入武侠特有的环境描写
保持对话的冷峻风格
</think>
<楚夜>"""

参数推荐

generation_config = {
    "temperature": 0.8,
    "top_p": 0.8,
    "repetition_penalty": 1.17,
    "max_new_tokens": 1536,
    "do_sample": True
}

致谢

  • Deepseek系列模型提供的强大基座
  • Tifa角色扮演模型的创新架构
  • HuggingFace社区的量化工具支持

license: apache-2.0

Downloads last month
0
GGUF
Model size
14.8B params
Architecture
qwen2

16-bit

Video Preview
loading