makiart commited on
Commit
2ed9035
·
verified ·
1 Parent(s): 78a1a2f

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +72 -0
README.md ADDED
@@ -0,0 +1,72 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: mit
3
+ datasets:
4
+ - HuggingFaceFW/fineweb
5
+ - HuggingFaceFW/fineweb-2
6
+ language:
7
+ - ja
8
+ pipeline_tag: fill-mask
9
+ ---
10
+ # makiart/multilingual-ModernBert-large-preview
11
+
12
+ このモデルは[ABCI 生成AIハッカソン](https://abci.ai/event/2024/12/23/ja_abci_3.0_genai_hackathon.html)にて提供された計算資源によって[Algomatic](https://algomatic.jp/)チームが作成したモデルです。
13
+
14
+ - コンテキスト長:8192
15
+ - 語彙数:151,680
16
+ - 総学習トークン数:約60B Tokens(Baseから重み継承後)
17
+ - パラメータ数:500M
18
+ - 埋め込み抜きパラメータ数:343M
19
+ - fineweb, fineweb2を利用
20
+
21
+ ## How to Use
22
+
23
+ ```bash
24
+ pip install -U transformers>=4.48.0
25
+ ```
26
+
27
+ GPUがFlashAttentionに対応しているのであれば下記のインストールをすると効率よく推論できます。
28
+
29
+ ```bash
30
+ pip install flash-attn --no-build-isolation
31
+ ```
32
+
33
+ ## Example Usage
34
+
35
+ ```python
36
+ import torch
37
+ from transformers import AutoModelForMaskedLM, AutoTokenizer, pipeline
38
+
39
+ model = AutoModelForMaskedLM.from_pretrained("makiart/multilingual-ModernBert-large", torch_dtype=torch.bfloat16)
40
+ tokenizer = AutoTokenizer.from_pretrained("makiart/multilingual-ModernBert-large")
41
+ fill_mask = pipeline("fill-mask", model=model, tokenizer=tokenizer)
42
+
43
+ results = fill_mask("たとえ[MASK]の中であっても鍋から的確に意中の具をつまみだせる技術")
44
+
45
+ for result in results:
46
+ print(result)
47
+
48
+ # {'score': 0.5078125, 'token': 45629, 'token_str': '家', 'sequence': 'たとえ家の中であっても鍋から的確に意中の具をつまみだせる技術'}
49
+ # {'score': 0.11279296875, 'token': 116990, 'token_str': '鍋', 'sequence': 'たとえ鍋の中であっても鍋から的確に意中の具をつまみだせる技術'}
50
+ # {'score': 0.060546875, 'token': 105010, 'token_str': '厨房', 'sequence': 'たとえ厨房の中であっても鍋から的確に意中の具をつまみだせる技術'}
51
+ # {'score': 0.02685546875, 'token': 101064, 'token_str': '家庭', 'sequence': 'たとえ家庭の中であっても鍋から的確に意中の具をつまみだせる技術'}
52
+ # {'score': 0.0184326171875, 'token': 142935, 'token_str': 'キッチン', 'sequence': 'たとえキッチンの中であっても鍋から的確に意中の具をつまみだせる技術'}
53
+ ```
54
+
55
+ ## Model Description
56
+
57
+ - baseモデルの重みをtile weights from middleする
58
+ - 8192のコンテキスト長で約60B Tokens
59
+ - トークナイザーはqwen2.5をベースとしています
60
+ - 語彙数は151,680です
61
+ - コードのテキストにも対応できるようにインデント部分を区別できるようにカスタムされています
62
+ - データセット
63
+ - fineweb, fineweb2を利用
64
+ - データ量の多い言語は削減
65
+ - 計算資源
66
+ - ABCIから提供いただいた計算資源のうち1ノード(H200 x 8)を利用し、約2日間の間で学習
67
+
68
+ ## Evaluation
69
+
70
+ ちゃんとした評価はできていません😭
71
+
72
+ 総合学習トークン数的に既存のモデルよりも劣ることが予想されます。