hotchpotch
commited on
Update README.md
Browse files
README.md
CHANGED
@@ -215,7 +215,9 @@ CPUでの推論速度が速い文ベクトル作成モデルは、ローカルCP
|
|
215 |
|
216 |
StaticEmbedding は非常にシンプルで、文章をトークナイズしたIDで単語の埋め込みベクトルが格納されているEmbeddingBagテーブルからN次元(今回は1024次元)のベクトルを取得し、その平均を取るだけです。
|
217 |
|
218 |
-
これまで、単語埋め込みベクトルといえば、word2vec や GloVe のように Skip-gram や CBOW を用いて単語の周辺を学習してきました。しかし、StaticEmbedding
|
|
|
|
|
219 |
|
220 |
## 学習データセット
|
221 |
|
|
|
215 |
|
216 |
StaticEmbedding は非常にシンプルで、文章をトークナイズしたIDで単語の埋め込みベクトルが格納されているEmbeddingBagテーブルからN次元(今回は1024次元)のベクトルを取得し、その平均を取るだけです。
|
217 |
|
218 |
+
これまで、単語埋め込みベクトルといえば、word2vec や GloVe のように Skip-gram や CBOW を用いて単語の周辺を学習してきました。しかし、StaticEmbedding では文章全体を用いて学習しています。また、対照学習を使って大量の様々な文章を巨大バッチで学習しており、良い単語の埋め込み表現の学習に成功しています。
|
219 |
+
|
220 |
+
対照学習は、基本的に正例以外全てを負例として学習するため、例えばバッチサイズ2048なら1の正例に対して2047の負例を2048通り、つまり2048x2047で約400万の比較を学習します。そのため、元の単語空間に対して適切な重みを更新しながら、学習を進めることができるのです。
|
221 |
|
222 |
## 学習データセット
|
223 |
|