makiart
/

multilingual-ModernBert-large-preview

Model card Files Files and versions Community

makiart commited on 24 days ago

Commit

2ed9035

·

verified ·

1 Parent(s): 78a1a2f

Create README.md

Files changed (1) hide show

README.md +72 -0

README.md ADDED Viewed

	@@ -0,0 +1,72 @@

+---
+license: mit
+datasets:
+- HuggingFaceFW/fineweb
+- HuggingFaceFW/fineweb-2
+language:
+- ja
+pipeline_tag: fill-mask
+---
+# makiart/multilingual-ModernBert-large-preview
+このモデルは[ABCI 生成AIハッカソン](https://abci.ai/event/2024/12/23/ja_abci_3.0_genai_hackathon.html)にて提供された計算資源によって[Algomatic](https://algomatic.jp/)チームが作成したモデルです。
+- コンテキスト長：8192
+- 語彙数：151,680
+- 総学習トークン数：約60B Tokens（Baseから重み継承後）
+- パラメータ数：500M
+- 埋め込み抜きパラメータ数：343M
+- fineweb, fineweb2を利用
+## How to Use
+```bash
+pip install -U transformers>=4.48.0
+```
+GPUがFlashAttentionに対応しているのであれば下記のインストールをすると効率よく推論できます。
+```bash
+pip install flash-attn --no-build-isolation
+```
+## Example Usage
+```python
+import torch
+from transformers import AutoModelForMaskedLM, AutoTokenizer, pipeline
+model = AutoModelForMaskedLM.from_pretrained("makiart/multilingual-ModernBert-large", torch_dtype=torch.bfloat16)
+tokenizer = AutoTokenizer.from_pretrained("makiart/multilingual-ModernBert-large")
+fill_mask = pipeline("fill-mask", model=model, tokenizer=tokenizer)
+results = fill_mask("たとえ[MASK]の中であっても鍋から的確に意中の具をつまみだせる技術")
+for result in results:
+    print(result)
+# {'score': 0.5078125, 'token': 45629, 'token_str': '家', 'sequence': 'たとえ家の中であっても鍋から的確に意中の具をつまみだせる技術'}
+# {'score': 0.11279296875, 'token': 116990, 'token_str': '鍋', 'sequence': 'たとえ鍋の中であっても鍋から的確に意中の具をつまみだせる技術'}
+# {'score': 0.060546875, 'token': 105010, 'token_str': '厨房', 'sequence': 'たとえ厨房の中であっても鍋から的確に意中の具をつまみだせる技術'}
+# {'score': 0.02685546875, 'token': 101064, 'token_str': '家庭', 'sequence': 'たとえ家庭の中であっても鍋から的確に意中の具をつまみだせる技術'}
+# {'score': 0.0184326171875, 'token': 142935, 'token_str': 'キッチン', 'sequence': 'たとえキッチンの中であっても鍋から的確に意中の具をつまみだせる技術'}
+```
+## Model Description
+- baseモデルの重みをtile weights from middleする
+- 8192のコンテキスト長で約60B Tokens
+- トークナイザーはqwen2.5をベースとしています
+    - 語彙数は151,680です
+    - コードのテキストにも対応できるようにインデント部分を区別できるようにカスタムされています
+- データセット
+    - fineweb, fineweb2を利用
+    - データ量の多い言語は削減
+- 計算資源
+    - ABCIから提供いただいた計算資源のうち1ノード(H200 x 8)を利用し、約2日間の間で学習
+## Evaluation
+ちゃんとした評価はできていません😭
+総合学習トークン数的に既存のモデルよりも劣ることが予想されます。