OpenMOSE's picture
Update README.md
414d1dc verified
metadata
license: apache-2.0

RWKV-x060-7B-Rosebleu Model Card

モデル概要

  • モデル名: RWKV-x060-7B-Rosebleu
  • アーキテクチャ: RWKV x060 "Finch"
  • ベースモデル: RWKV x060-7B JPN
  • モデル構造: 32 Layer, 4096 Dimension
  • パラメータ数: 7.6B (76億)
  • ファインチューニング手法: LoRA(r=16), Emb frozen, Head LoRA(r=16) NF4量子化
  • LoRAマージ手法:非量子化モデルに対し、LoRAをマージ
  • 学習コンテキストサイズ: 可変ウインドウ最大131k(平均40k)

特徴

  • RWKV-LM-RLHF Infctx モードによる拡大学習コンテキスト
  • SFTLossとKLLossのハイブリッド学習による過学習抑制を目指しています。
  • キャラクターごとの会話履歴を考慮した学習
  • ロールプレイチャット学習を重点的に行ったモデルになります。

データセット

  • 使用データセット: open_contents_datasetsの(c)Rosebleu様のデータセット
  • データ処理: キャラクターごとの会話並び替えと会話履歴ごとの1Pair生成
  • Topk100のLogitsデータセットを作成(70GBほど)
  • 処理後のトータルデータセット数300000Pair

使用方法

  • システムプロンプトにキャラクター情報を入力することでキャラクターになりきり可能?
  • システムプロンプトなしの場合は素モデルに近い挙動をします
  • 推奨推論パラメータはTemperature=1.0 top-p=0.5です

技術的詳細

  • 自己蒸留LogitsをLossに加えることでSFTLossとKLLossのバランスを調整
  • ハイパーパラメータによるSFTデータセットの学習度と元のモデル維持度のトレードオフ制御
  • LR 2e-5 to 1e-6, top-k=100 temperature=2.0 alpha=0.85
  • Train Epoch 2

制限事項と注意点

  • 実験的なモデルであり、性能や挙動が安定しない可能性があります。
  • キャラクターのなりきり精度は入力されるシステムプロンプトに依存します。

ライセンスと謝辞