OpenMOSE
/

RWKV-x060-JPN-RolePlay

Model card Files Files and versions Community

RWKV-x060-JPN-RolePlay / README.md

OpenMOSE's picture

Update README.md

414d1dc verified about 2 months ago

|

history blame contribute delete

2.23 kB

metadata

license: apache-2.0

RWKV-x060-7B-Rosebleu Model Card

モデル概要

モデル名: RWKV-x060-7B-Rosebleu
アーキテクチャ: RWKV x060 "Finch"
ベースモデル: RWKV x060-7B JPN
モデル構造: 32 Layer, 4096 Dimension
パラメータ数: 7.6B (76億)
ファインチューニング手法: LoRA(r=16), Emb frozen, Head LoRA(r=16) NF4量子化
LoRAマージ手法:非量子化モデルに対し、LoRAをマージ
学習コンテキストサイズ: 可変ウインドウ最大131k（平均40ｋ）

特徴

RWKV-LM-RLHF Infctx モードによる拡大学習コンテキスト
SFTLossとKLLossのハイブリッド学習による過学習抑制を目指しています。
キャラクターごとの会話履歴を考慮した学習
ロールプレイチャット学習を重点的に行ったモデルになります。

データセット

使用データセット: open_contents_datasetsの(c)Rosebleu様のデータセット
データ処理: キャラクターごとの会話並び替えと会話履歴ごとの1Pair生成
Topk100のLogitsデータセットを作成（70GBほど）
処理後のトータルデータセット数300000Pair

使用方法

システムプロンプトにキャラクター情報を入力することでキャラクターになりきり可能？
システムプロンプトなしの場合は素モデルに近い挙動をします
推奨推論パラメータはTemperature=1.0 top-p=0.5です

技術的詳細

自己蒸留LogitsをLossに加えることでSFTLossとKLLossのバランスを調整
ハイパーパラメータによるSFTデータセットの学習度と元のモデル維持度のトレードオフ制御
LR 2e-5 to 1e-6, top-k=100 temperature=2.0 alpha=0.85
Train Epoch 2

制限事項と注意点

実験的なモデルであり、性能や挙動が安定しない可能性があります。
キャラクターのなりきり精度は入力されるシステムプロンプトに依存します。

ライセンスと謝辞

データセット:(c)Rosebleu様
https://gitlab.com/open_contents_datasets/Rosebleu
ライセンスはデータセットと同じです。