hotchpotch commited on
Commit
3243691
·
verified ·
1 Parent(s): df8b442

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +1 -1
README.md CHANGED
@@ -306,7 +306,7 @@ StaticEmbedding は非常にシンプルで、文章をトークナイズしたI
306
 
307
  StaticEmbedding を学習するためには、HuggingFace のトークナイザライブラリの tokenizer.json 形式で処理可能なトークナイザを使うと簡単そうだったので、 [hotchpotch/xlm-roberta-japanese-tokenizer](https://huggingface.co/hotchpotch/xlm-roberta-japanese-tokenizer) というトークナイザを作成しました。語彙数は 32,768 です。
308
 
309
- このトークナイザは、wikipedia 日本語、wikipedia 英語(サンプリング)、cc-100(日本語, サンプリング)のデータを unidic で分割し、sentencepiece unigram で学習したものです。XLM-Roberta 形式の日本語トークナイザとしても機能します。今回はこのトークナイザを利用しました。
310
 
311
  ## ハイパーパラメータ
312
 
 
306
 
307
  StaticEmbedding を学習するためには、HuggingFace のトークナイザライブラリの tokenizer.json 形式で処理可能なトークナイザを使うと簡単そうだったので、 [hotchpotch/xlm-roberta-japanese-tokenizer](https://huggingface.co/hotchpotch/xlm-roberta-japanese-tokenizer) というトークナイザを作成しました。語彙数は 32,768 です。
308
 
309
+ このトークナイザは、wikipedia 日本語~~、wikipedia 英語(サンプリング)、cc-100(日本語, サンプリング)~~(訂正:作成コードを確認したところ、wikipedia日本語のみを利用していました)のデータを unidic で分割し、sentencepiece unigram で学習したものです。XLM-Roberta 形式の日本語トークナイザとしても機能します。今回はこのトークナイザを利用しました。
310
 
311
  ## ハイパーパラメータ
312