makiart commited on
Commit
71b765c
·
verified ·
1 Parent(s): 31a17fc

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +75 -0
README.md ADDED
@@ -0,0 +1,75 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: mit
3
+ datasets:
4
+ - HuggingFaceFW/fineweb-2
5
+ language:
6
+ - ja
7
+ pipeline_tag: fill-mask
8
+ ---
9
+ # makiart/jp-modernbert-large-preview
10
+
11
+ このモデルは[ABCI 生成AIハッカソン](https://abci.ai/event/2024/12/23/ja_abci_3.0_genai_hackathon.html)にて提供された計算資源によって[Algomatic](https://algomatic.jp/)チームが作成したモデルです。
12
+
13
+ - コンテキスト長:8192
14
+ - 語彙数:50,368
15
+ - 総学習トークン数:約100B Tokens(Baseから重み継承後)
16
+ - パラメータ数:396M
17
+ - 埋め込み抜きパラメータ数:343M
18
+ - fineweb2 日本語データを利用
19
+
20
+ ## How to Use
21
+
22
+ ```bash
23
+ pip install -U transformers>=4.48.0
24
+ ```
25
+
26
+ トークナイザーにBertJapaneseTokenizerを利用しているため、下記を追加でインストールする必要があります。
27
+
28
+ ```bash
29
+ pip install fugashi unidic_lite
30
+ ```
31
+
32
+ GPUがFlashAttentionに対応しているのであれば下記のインストールをすると効率よく推論できます。
33
+
34
+ ```bash
35
+ pip install flash-attn --no-build-isolation
36
+ ```
37
+
38
+ ## Example Usage
39
+
40
+ ```python
41
+ import torch
42
+ from transformers import AutoModelForMaskedLM, AutoTokenizer, pipeline
43
+
44
+ model = AutoModelForMaskedLM.from_pretrained("makiart/jp-ModernBERT-large-preview", torch_dtype=torch.bfloat16)
45
+ tokenizer = AutoTokenizer.from_pretrained("makiart/jp-ModernBERT-large-preview")
46
+ fill_mask = pipeline("fill-mask", model=model, tokenizer=tokenizer)
47
+
48
+ results = fill_mask("我々の大方の苦悩は、あり得べき別の[MASK]を夢想することから始まる。")
49
+
50
+ for result in results:
51
+ print(result)
52
+
53
+ # {'score': 0.16015625, 'token': 12489, 'token_str': 'こと', 'sequence': '我々 の 大方 の 苦悩 は 、 あり 得 べき 別 の こと を 夢想 する こと から 始まる 。'}
54
+ # {'score': 0.09716796875, 'token': 12518, 'token_str': 'もの', 'sequence': '我々 の 大方 の 苦悩 は 、 あり 得 べき 別 の もの を 夢想 する こと から 始まる 。'}
55
+ # {'score': 0.043212890625, 'token': 12575, 'token_str': '世界', 'sequence': '我々 の 大方 の 苦悩 は 、 あり 得 べき 別 の 世界 を 夢想 する こと から 始まる 。'}
56
+ # {'score': 0.03369140625, 'token': 29991, 'token_str': '事柄', 'sequence': '我々 の 大方 の 苦悩 は 、 あり 得 べき 別 の 事柄 を 夢想 する こと から 始まる 。'}
57
+ # {'score': 0.0296630859375, 'token': 655, 'token_str': '事', 'sequence': '我々 の 大方 の 苦悩 は 、 あり 得 べき 別 の 事 を 夢想 する こと から 始まる 。'}
58
+ ```
59
+
60
+ ## Model Description
61
+
62
+ - baseモデルの重みをtile weights from middleする
63
+ - 8192のコンテキスト長で約100B Tokens
64
+ - トークナイザーはtohoku-nlp/bert-base-japanese-v3をベースとしています
65
+ - 語彙数は50,368です
66
+ - データセット
67
+ - fineweb2の日本語データのみを利用
68
+ - 計算資源
69
+ - ABCIから提供いただいた計算資源のうち1ノード(H200 x 8)を利用し、約2日間の間で学習
70
+
71
+ ## Evaluation
72
+
73
+ ちゃんとした評価はできていません😭
74
+
75
+ 総合学習トークン数的に既存のモデルよりも劣ることが予想されます。