Chottokun
/

modernBERT_japanese_30m_ner_wikipedia

Model card Files Files and versions Community

Chottokun commited on about 20 hours ago

Commit

562e22e

·

verified ·

1 Parent(s): e56390b

Create README.md

Files changed (1) hide show

README.md +33 -0

README.md ADDED Viewed

	@@ -0,0 +1,33 @@

+---
+datasets:
+- stockmark/ner-wikipedia-dataset
+language:
+- ja
+base_model:
+- sbintuitions/modernbert-ja-30m
+---
+# modernBERTでNERにチャレンジ
+## ラベルのマッピング
+```python
+label_list = ["O", "B-人名", "I-人名", "B-法人名", "I-法人名", "B-政治的組織名", "I-政治的組織名",
+              "B-その他の組織名", "I-その他の組織名", "B-地名", "I-地名", "B-施設名", "I-施設名",
+              "B-製品名", "I-製品名", "B-イベント名", "I-イベント名"]
+```
+## tokenizer
+以下を参考にしてください。
+```python
+model_name = "sbintuitions/modernbert-ja-130m"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+tokenizer.backend_tokenizer.pre_tokenizer = Sequence([Split(Regex("[ぁ-ん]"),"isolated"), tokenizer.backend_tokenizer.pre_tokenizer])
+model = AutoModelForTokenClassification.from_pretrained(model_name, num_labels=17)
+```
+## 関連記事
+https://bwgift.hatenadiary.jp/entry/2025/02/20/220323
+## 利用したデータセット、モデルとライセンス
+- stockmark/ner-wikipedia-dataset（CC-BY-SA-3.0)
+- ModernBERT-Ja-30M(MIT)