metadata
license: apache-2.0
RWKV-x060-7B-Rosebleu Model Card
モデル概要
- モデル名: RWKV-x060-7B-Rosebleu
- アーキテクチャ: RWKV x060 "Finch"
- ベースモデル: RWKV x060-7B JPN
- モデル構造: 32 Layer, 4096 Dimension
- パラメータ数: 7.6B (76億)
- ファインチューニング手法: LoRA(r=16), Emb frozen, Head LoRA(r=16) NF4量子化
- LoRAマージ手法:非量子化モデルに対し、LoRAをマージ
- 学習コンテキストサイズ: 可変ウインドウ最大131k(平均40k)
特徴
- RWKV-LM-RLHF Infctx モードによる拡大学習コンテキスト
- SFTLossとKLLossのハイブリッド学習による過学習抑制を目指しています。
- キャラクターごとの会話履歴を考慮した学習
- ロールプレイチャット学習を重点的に行ったモデルになります。
データセット
- 使用データセット: open_contents_datasetsの(c)Rosebleu様のデータセット
- データ処理: キャラクターごとの会話並び替えと会話履歴ごとの1Pair生成
- Topk100のLogitsデータセットを作成(70GBほど)
- 処理後のトータルデータセット数300000Pair
使用方法
- システムプロンプトにキャラクター情報を入力することでキャラクターになりきり可能?
- システムプロンプトなしの場合は素モデルに近い挙動をします
- 推奨推論パラメータはTemperature=1.0 top-p=0.5です
技術的詳細
- 自己蒸留LogitsをLossに加えることでSFTLossとKLLossのバランスを調整
- ハイパーパラメータによるSFTデータセットの学習度と元のモデル維持度のトレードオフ制御
- LR 2e-5 to 1e-6, top-k=100 temperature=2.0 alpha=0.85
- Train Epoch 2
制限事項と注意点
- 実験的なモデルであり、性能や挙動が安定しない可能性があります。
- キャラクターのなりきり精度は入力されるシステムプロンプトに依存します。
ライセンスと謝辞
- データセット:(c)Rosebleu様
- https://gitlab.com/open_contents_datasets/Rosebleu
- ライセンスはデータセットと同じです。