hotchpotch
/

static-embedding-japanese

Sentence Similarity

sentence-transformers

loss:MatryoshkaLoss

loss:MultipleNegativesRankingLoss

Inference Endpoints

Model card Files Files and versions Community

hotchpotch commited on 2 days ago

Commit

3243691

·

verified ·

1 Parent(s): df8b442

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -306,7 +306,7 @@ StaticEmbedding は非常にシンプルで、文章をトークナイズしたI
 StaticEmbedding を学習するためには、HuggingFace のトークナイザライブラリの tokenizer.json 形式で処理可能なトークナイザを使うと簡単そうだったので、 [hotchpotch/xlm-roberta-japanese-tokenizer](https://huggingface.co/hotchpotch/xlm-roberta-japanese-tokenizer) というトークナイザを作成しました。語彙数は 32,768 です。
-このトークナイザは、wikipedia 日本語、wikipedia 英語(サンプリング)、cc-100(日本語, サンプリング)のデータを unidic で分割し、sentencepiece unigram で学習したものです。XLM-Roberta 形式の日本語トークナイザとしても機能します。今回はこのトークナイザを利用しました。
 ## ハイパーパラメータ

 StaticEmbedding を学習するためには、HuggingFace のトークナイザライブラリの tokenizer.json 形式で処理可能なトークナイザを使うと簡単そうだったので、 [hotchpotch/xlm-roberta-japanese-tokenizer](https://huggingface.co/hotchpotch/xlm-roberta-japanese-tokenizer) というトークナイザを作成しました。語彙数は 32,768 です。
+このトークナイザは、wikipedia 日本語~~、wikipedia 英語(サンプリング)、cc-100(日本語, サンプリング)~~(訂正:作成コードを確認したところ、wikipedia日本語のみを利用していました)のデータを unidic で分割し、sentencepiece unigram で学習したものです。XLM-Roberta 形式の日本語トークナイザとしても機能します。今回はこのトークナイザを利用しました。
 ## ハイパーパラメータ