|
--- |
|
license: apache-2.0 |
|
--- |
|
# RWKV-x060-7B-Rosebleu Model Card |
|
|
|
## モデル概要 |
|
- **モデル名**: RWKV-x060-7B-Rosebleu |
|
- **アーキテクチャ**: RWKV x060 "Finch" |
|
- **ベースモデル**: RWKV x060-7B JPN |
|
- **モデル構造**: 32 Layer, 4096 Dimension |
|
- **パラメータ数**: 7.6B (76億) |
|
- **ファインチューニング手法**: LoRA(r=16), Emb frozen, Head LoRA(r=16) NF4量子化 |
|
- **LoRAマージ手法**:非量子化モデルに対し、LoRAをマージ |
|
- **学習コンテキストサイズ**: 可変ウインドウ最大131k(平均40k) |
|
|
|
## 特徴 |
|
- RWKV-LM-RLHF Infctx モードによる拡大学習コンテキスト |
|
- SFTLossとKLLossのハイブリッド学習による過学習抑制を目指しています。 |
|
- キャラクターごとの会話履歴を考慮した学習 |
|
- ロールプレイチャット学習を重点的に行ったモデルになります。 |
|
|
|
## データセット |
|
- 使用データセット: open_contents_datasetsの(c)Rosebleu様のデータセット |
|
- データ処理: キャラクターごとの会話並び替えと会話履歴ごとの1Pair生成 |
|
- Topk100のLogitsデータセットを作成(70GBほど) |
|
- 処理後のトータルデータセット数300000Pair |
|
|
|
## 使用方法 |
|
- システムプロンプトにキャラクター情報を入力することでキャラクターになりきり可能? |
|
- システムプロンプトなしの場合は素モデルに近い挙動をします |
|
- 推奨推論パラメータはTemperature=1.0 top-p=0.5です |
|
|
|
## 技術的詳細 |
|
- 自己蒸留LogitsをLossに加えることでSFTLossとKLLossのバランスを調整 |
|
- ハイパーパラメータによるSFTデータセットの学習度と元のモデル維持度のトレードオフ制御 |
|
- LR 2e-5 to 1e-6, top-k=100 temperature=2.0 alpha=0.85 |
|
- Train Epoch 2 |
|
|
|
## 制限事項と注意点 |
|
- 実験的なモデルであり、性能や挙動が安定しない可能性があります。 |
|
- キャラクターのなりきり精度は入力されるシステムプロンプトに依存します。 |
|
|
|
## ライセンスと謝辞 |
|
- データセット:(c)Rosebleu様 |
|
- https://gitlab.com/open_contents_datasets/Rosebleu |
|
- ライセンスはデータセットと同じです。 |