Poro7
/

Tifa-Deepsex-14b-CoT-Chat-Q4_K_M-gguf

Reinforcement Learning

incremental-pretraining

Inference Endpoints

Model card Files Files and versions Community

Tifa-Deepsex-14b-CoT-Chat-Q4_K_M-gguf / README.md

Poro7's picture

Update README.md

bcf2364 verified 26 days ago

|

history blame contribute delete

2.13 kB

	---
	base_model:
	- deepseek-ai/deepseek-r1-14b
	language:
	- zh
	- en
	library_name: transformers
	tags:
	- incremental-pretraining
	- sft
	- reinforcement-learning
	- roleplay
	- cot
	- sex
	license: apache-2.0
	---
	# Tifa-Deepsex-14b-CoT-Chat-Q4_K_M-gguf
	# Tifa-Deepsex-14b-CoT-Chat-Q4_K_M-gguf
	# Tifa-Deepsex-14b-CoT-Chat-Q4_K_M-gguf

	- HF Model: [ValueFX9507/Tifa-Deepsex-14b-CoT](https://huggingface.co./ValueFX9507/Tifa-Deepsex-14b-CoT)
	- GGUF: [Q8](https://huggingface.co./ValueFX9507/Tifa-Deepsex-14b-CoT-GGUF-Q8) \| [Q4](https://huggingface.co./ValueFX9507/Tifa-Deepsex-14b-CoT-GGUF-Q4)（更多量化版本持续更新中）
	- Demo APK: [点击下载](http://app.visionsic.com/download/projectchat.apk)

	本模型基于Deepseek-R1-14B进行深度优化，借助Tifa_220B生成的数据集通过三重训练策略显著增强角色扮演、小说文本生成与思维链（CoT）能力。特别适合需要长程上下文关联的创作场景。

	## 版本介绍：
	- Tifa-Deepsex-14b-CoT

	- 验证模型，测试RL奖励算法对于角色扮演数据的影响，该版本为初版，输出灵活但是不受控制，仅做研究使用。

	- Tifa-Deepsex-14b-CoT-Chat

	- 采用标准数据训练，使用成熟RL策略，附加防重复强化学习，适合正常使用，输出文本质量正常，少数情况下思维发散。

	-增量训练0.4T小说内容

	-100K由TifaMax生成的SFT数据，10K由DeepseekR1生成的SFT数据，2K高质量人工数据

	-30K由TifaMax生成的DPO强化学习数据，用于防止重复，增强上下文关联，提升政治安全性

	- Tifa-Deepsex-14b-CoT-Crazy

	- 大量使用RL策略，主要采用671B满血R1蒸馏的数据，输出发散性高，继承R1优点，也继承了R1的危害性。文学性能佳。

	-增量训练0.4T小说内容

	-40K由TifaMax生成的SFT数据，60K由DeepseekR1生成的SFT数据，2K高质量人工数据

	-30K由TifaMax生成的DPO强化学习数据，用于防止重复，增强上下文关联，提升政治安全性

	-10K由TifaMax生成PPO数据，10K由DeepseekR1生成PPO数据