Update README.md
Browse files
README.md
CHANGED
@@ -15,6 +15,7 @@ pipeline_tag: fill-mask
|
|
15 |
- 総学習トークン数:約300B Tokens
|
16 |
- パラメータ数:150M
|
17 |
- 埋め込み抜きパラメータ数:110M
|
|
|
18 |
|
19 |
## How to Use
|
20 |
|
@@ -62,13 +63,15 @@ for result in results:
|
|
62 |
- マスキングレートは30%
|
63 |
- 1024のコンテキスト長で約150B Tokens
|
64 |
- 8192のコンテキスト長で約150B Tokens
|
65 |
-
- トークナイザーはtohoku-nlp/bert-base-japanese-v3
|
66 |
-
- 語彙数は50,368
|
67 |
- データセット
|
68 |
-
|
69 |
-
|
|
|
|
|
70 |
## Evaluation
|
71 |
|
72 |
-
|
73 |
|
74 |
総合学習トークン数的に既存のモデルよりも劣ることが予想されます。
|
|
|
15 |
- 総学習トークン数:約300B Tokens
|
16 |
- パラメータ数:150M
|
17 |
- 埋め込み抜きパラメータ数:110M
|
18 |
+
- fineweb2 日本語データを利用
|
19 |
|
20 |
## How to Use
|
21 |
|
|
|
63 |
- マスキングレートは30%
|
64 |
- 1024のコンテキスト長で約150B Tokens
|
65 |
- 8192のコンテキスト長で約150B Tokens
|
66 |
+
- トークナイザーはtohoku-nlp/bert-base-japanese-v3をベース
|
67 |
+
- 語彙数は50,368
|
68 |
- データセット
|
69 |
+
- fineweb2の日本語データのみを利用
|
70 |
+
- 計算資源
|
71 |
+
- ABCIから提供いただいた計算資源のうち1ノード(H200 x 8)を利用し、2日間の間で学習
|
72 |
+
|
73 |
## Evaluation
|
74 |
|
75 |
+
ちゃんとした評価はできていません😭
|
76 |
|
77 |
総合学習トークン数的に既存のモデルよりも劣ることが予想されます。
|