OpenMOSE
/

RWKV-x060-Jpn-6B

Model card Files Files and versions Community

RWKV-x060-Jpn-6B / README.md

OpenMOSE's picture

Update README.md

41d9eee verified 2 months ago

|

history blame contribute delete

1.42 kB

metadata

license: apache-2.0

RWKV x060 6B JPN モデルカード

モデル概要

モデル名: RWKV x060 6B JPN
アーキテクチャ: RWKV（Receptance Weighted Key Value）
元モデル: x060 7B JPN
言語: 日本語

モデル仕様

パラメータ数: 約6B（60億）
レイヤー数: 25層（元モデルの32層から7層プルーニング）
次元数: 4096次元

蒸留プロセス

蒸留データセット: 30,000ペアの蒸留データ
学習方法: 元モデルのLogitsからTop-k=100のみを採用
学習Epoch: 2
トレーニング手法: 可変LoRA（Low-Rank Adaptation）

モデル構造詳細

Embedding層: 凍結
出力層（Head）: 凍結
Layer 0: フルパラメータ学習
Layer 1-24: LoRA（Rank=128）による学習

特徴

x060 7B JPNからの蒸留モデルであり、元のモデルの性能を維持しつつ、サイズを縮小
プルーニングとLORAを組み合わせた効率的な学習手法を採用
日本語タスクに特化した調整

使用上の注意

日本語タスクに最適化されているため、他言語での性能は保証されません
モデルの出力は人間の監督下で使用し、適切に検証することをお勧めします

ライセンス

[Apache2.0]

引用

[RWKV x060 7B JPN]

連絡先

[OpenMOSE]