sakuraumi
/

Sakura-13B-Galgame

@@ -21,39 +21,56 @@ pipeline_tag: text-generation
 # 介绍
-基于LLaMA2-13B，OpenBuddy(v0.1-v0.4)，Baichuan2-13B(v0.5,v0.8)和Qwen-14B(v0.7)构建，在Galgame中日文本数据上进行微调，旨在提供性能接近GPT3.5且完全离线的Galgame/轻小说翻译大语言模型. 新建了[TG交流群](https://t.me/+QMDKZyO9GV1kNDA1)，欢迎交流讨论。
-### [部署教程](https://sakura.srpr.moe)
-# 如果使用模型翻译并发布，请在最显眼的位置标注机翻！！！！！开发者对于滥用本模型造成的一切后果不负任何责任。
-### 网站：[轻小说机翻机器人](https://books.fishhawk.top/)已接入Sakura模型(v0.8-4bit)，站内有大量模型翻译结果可供参考。
-轻小说机翻机器人网站是一个自动生成轻小说机翻并分享的网站。你可以浏览日文网络小说，或者上传Epub/Txt文件，并生成机翻。
 ### 模型下载：
-|   版本  | 全量模型 | 8-bit量化 | 4-bit量化 | 3-bit量化 |
-|:-------:|:-------:|:-------:|:-------:|:-------:|
-| 20230827-v0.1 | 🤗 [Sakura-13B-Galgame-v0.1](https://huggingface.co/sakuraumi/Sakura-13B-Galgame/tree/main/sakura_13b_model_v0.1) | - | - | - |
-| 20230908-v0.4 | 🤗 [Sakura-13B-Galgame-v0.4](https://huggingface.co/sakuraumi/Sakura-13B-Galgame/tree/main/sakura_13b_model_v0.4) | - | - | - |
-| 20230917-v0.5 | 🤗 [Sakura-13B-Galgame-v0.5](https://huggingface.co/sakuraumi/Sakura-13B-Galgame) | 🤗 [Sakura-13B-Galgame-v0.5-8bits](https://huggingface.co/sakuraumi/Sakura-13B-Galgame/tree/main/sakura_13b_model_v0.5_8bits) | 🤗 [Sakura-13B-Galgame-v0.5-4bits](https://huggingface.co/sakuraumi/Sakura-13B-Galgame/tree/main/sakura_13b_model_v0.5_4bits_autogptq_40k) | - |
-| 20231011-v0.7 | 🤗 [Kisara-14B-LNovel](https://huggingface.co/sakuraumi/Sakura-14B-LNovel) | - | - | - |
-| 20231026-v0.8 | 🤗 [Sakura-13B-LNovel-v0.8](https://huggingface.co/SakuraLLM/Sakura-13B-LNovel-v0.8) | 🤗 [Sakura-13B-LNovel-v0.8-8bit](https://huggingface.co/SakuraLLM/Sakura-13B-LNovel-v0.8-8bit) | 🤗 [Sakura-13B-LNovel-v0.8-4bit](https://huggingface.co/SakuraLLM/Sakura-13B-LNovel-v0.8-4bit) | 🤗 [Sakura-13B-LNovel-v0.8-3bit](https://huggingface.co/SakuraLLM/Sakura-13B-LNovel-v0.8-3bit) |
-目前仍为实验版本，翻译质量整体接近GPT-3.5，但更贴近轻小说/Galgame的文风. 个人使用推荐GPT4.
 # 显存需求
-使用v0.8版本进行测试，模型生成参数与仓库中`generation_config.json`一致，显存占用数据取自`nvidia-smi`
-|  模型量化类型  | 载入显存 | 推理显存(ctx约600) | 推理显存(ctx约1800) |
-|:-------:|:-------:|:-------:|:-------:|
-| 全量 | 超出游戏显卡显存范围 | - | - |
-| 8bit | 17G | 21.1G | 23.4G |
-| 4bit | 11.3G | 14.9G | 17.4G |
-| 3bit | 9.7G | 13.7G | 15.5G |
-# 快速开始
 ## Docker部署
@@ -140,6 +157,8 @@ python translate_novel.py \
 # 日志
 `20231026`：上传第五版模型`sakura-13b-2epoch-3.8M-1025-v0.8`，改善数据集质量与格式，修复之前版本模型无法正确解析\n的问题，使用Baichuan2-13B-Chat模型进行微调。
 `20231011`：上传第四版模型`sakura-14b-2epoch-4.4M-1003-v0.7`，改用QWen-14B-Chat模型进行微调，增加数据集。

 # 介绍
+基于OpenBuddy(v0.1-v0.4), Qwen-14B(v0.7,v0.9)和Baichuan2-13B(v0.5,v0.8)构建，在通用日文语料与轻小说/Galgame等领域的中日语料上进行微调，旨在提供性能接近GPT3.5且完全离线的Galgame/轻小说翻译大语言模型. 新建了[TG交流群](https://t.me/+QMDKZyO9GV1kNDA1)，欢迎交流讨论。
+**如果使用模型翻译并发布，请在最显眼的位置标注机翻！！！！！开发者对于滥用本模型造成的一切后果不负任何责任。**
+### 快速开始
+ - [python部署教程](https://sakura.srpr.moe)
+ - [llama.cpp一键包教程](https://books.fishhawk.top/forum/656d60530286f15e3384fcf8)
+### News
+1. 预览版v0.9.0pre1模型发布。
+2. **网站：[轻小说机翻机器人](https://books.fishhawk.top/)已接入Sakura模型(v0.8-4bit)，站内有大量模型翻译结果可供参考。你也可以自行部署模型并使用该网站生成机翻，目前已经支持v0.8与v0.9模型，且提供了llama.cpp一键包。**
+   轻小说机翻机器人网站是一个自动生成轻小说机翻并分享的网站。你可以浏览日文网络小说，或者上传Epub/Txt文件，并生成机翻。
 ### 模型下载：
+|   版本  | 全量模型 | 8-bit量化 | 4-bit量化 | 3-bit量化 | GGUF | AWQ
+|:-------:|:-------:|:-------:|:-------:|:-------:|:-------:|:-------:|
+| 20231026-v0.8 | 🤗 [Sakura-13B-LNovel-v0.8](https://huggingface.co/SakuraLLM/Sakura-13B-LNovel-v0.8) | 🤗 [Sakura-13B-LNovel-v0_8-8bit](https://huggingface.co/SakuraLLM/Sakura-13B-LNovel-v0_8-8bit) | 🤗 [Sakura-13B-LNovel-v0_8-4bit](https://huggingface.co/SakuraLLM/Sakura-13B-LNovel-v0_8-4bit) | 🤗 [Sakura-13B-LNovel-v0_8-3bit](https://huggingface.co/SakuraLLM/Sakura-13B-LNovel-v0_8-3bit) | 🤗 [Sakura-13B-LNovel-v0_8-GGUF](https://huggingface.co/SakuraLLM/Sakura-13B-LNovel-v0.8-GGUF) | 🤗 [Sakura-13B-LNovel-v0_8-AWQ](https://huggingface.co/SakuraLLM/Sakura-13B-LNovel-v0_8-AWQ) |
+| 20231125-v0.9.0pre1 | 🤗 [Sakura-13B-LNovel-v0.9.0pre1](https://huggingface.co/SakuraLLM/Sakura-13B-LNovel-v0.9.0pre1) | - | - | - | 🤗 [Sakura-13B-LNovel-v0.9.0pre1-GGUF](https://huggingface.co/SakuraLLM/Sakura-13B-LNovel-v0.9.0pre1-GGUF) | - |
+目前仍为实验版本，翻译质量在文风与流畅度上强于GPT-3.5，但词汇量逊于GPT-3.5. 个人使用推荐GPT4.
 # 显存需求
+下面的表格显示了使用不同量化和不同格式的模型时显存占用的大小。如果你的显卡显存不满足上述需求，可以尝试同时使用CPU与GPU进行推理。
+- llama.cpp GGUF模型（使用v0.9.0pre1模型进行测试，v0.8模型��其类似）
+|  模型量化类型  | 模型大小 | 推荐显存大小 |
+|:-------:|:-------:|:-------:|
+| fp16 | 26.3G | 超出游戏显卡显存范围 |
+| Q8_0 | 14G | 24G |
+| Q6_K | 11.4G | 20G |
+| Q5_K_M | 10.1G | 16G |
+| Q4_K_M | 8.8G | 16G |
+| Q3_K_M | 7.2G | 16G |
+| Q2_K | 6.1G | 12G |
+- transformers autogptq模型（使用v0.8版本进行测试）
+|  模型量化类型 | 推理显存(ctx约600) | 推理显存(ctx约1800) |
+|:-------:|:-------:|:-------:|
+| 全量 | 超出游戏显卡显存范围  | 超出游戏显卡显存范围  |
+| 8bit | 21.1G | 23.4G |
+| 4bit | 14.9G | 17.4G |
+| 3bit | 13.7G | 15.5G |
+# 使用
 ## Docker部署
 # 日志
+`20231125`: 上传第六版模型预览，改善数据集质量与格式，使用Qwen-14B-Chat模型进行继续预训练+微调，增加数据集。
 `20231026`：上传第五版模型`sakura-13b-2epoch-3.8M-1025-v0.8`，改善数据集质量与格式，修复之前版本模型无法正确解析\n的问题，使用Baichuan2-13B-Chat模型进行微调。
 `20231011`：上传第四版模型`sakura-14b-2epoch-4.4M-1003-v0.7`，改用QWen-14B-Chat模型进行微调，增加数据集。