--- datasets: - stockmark/ner-wikipedia-dataset language: - ja base_model: - sbintuitions/modernbert-ja-30m --- # modernBERTでNERにチャレンジ ## ラベルのマッピング ```python label_list = ["O", "B-人名", "I-人名", "B-法人名", "I-法人名", "B-政治的組織名", "I-政治的組織名", "B-その他の組織名", "I-その他の組織名", "B-地名", "I-地名", "B-施設名", "I-施設名", "B-製品名", "I-製品名", "B-イベント名", "I-イベント名"] ``` ## tokenizer 以下を参考にしてください。 ```python model_name = "sbintuitions/modernbert-ja-130m" tokenizer = AutoTokenizer.from_pretrained(model_name) tokenizer.backend_tokenizer.pre_tokenizer = Sequence([Split(Regex("[ぁ-ん]"),"isolated"), tokenizer.backend_tokenizer.pre_tokenizer]) model = AutoModelForTokenClassification.from_pretrained(model_name, num_labels=17) ``` ## 関連記事 https://bwgift.hatenadiary.jp/entry/2025/02/20/220323 ## 利用したデータセット、モデルとライセンス - stockmark/ner-wikipedia-dataset(CC-BY-SA-3.0) - ModernBERT-Ja-30M(MIT)