hotchpotch
commited on
Update README.md
Browse files
README.md
CHANGED
@@ -306,7 +306,7 @@ StaticEmbedding は非常にシンプルで、文章をトークナイズしたI
|
|
306 |
|
307 |
StaticEmbedding を学習するためには、HuggingFace のトークナイザライブラリの tokenizer.json 形式で処理可能なトークナイザを使うと簡単そうだったので、 [hotchpotch/xlm-roberta-japanese-tokenizer](https://huggingface.co/hotchpotch/xlm-roberta-japanese-tokenizer) というトークナイザを作成しました。語彙数は 32,768 です。
|
308 |
|
309 |
-
このトークナイザは、wikipedia
|
310 |
|
311 |
## ハイパーパラメータ
|
312 |
|
|
|
306 |
|
307 |
StaticEmbedding を学習するためには、HuggingFace のトークナイザライブラリの tokenizer.json 形式で処理可能なトークナイザを使うと簡単そうだったので、 [hotchpotch/xlm-roberta-japanese-tokenizer](https://huggingface.co/hotchpotch/xlm-roberta-japanese-tokenizer) というトークナイザを作成しました。語彙数は 32,768 です。
|
308 |
|
309 |
+
このトークナイザは、wikipedia 日本語~~、wikipedia 英語(サンプリング)、cc-100(日本語, サンプリング)~~(訂正:作成コードを確認したところ、wikipedia日本語のみを利用していました)のデータを unidic で分割し、sentencepiece unigram で学習したものです。XLM-Roberta 形式の日本語トークナイザとしても機能します。今回はこのトークナイザを利用しました。
|
310 |
|
311 |
## ハイパーパラメータ
|
312 |
|