Update README.md
Browse files
README.md
CHANGED
@@ -28,9 +28,9 @@ M3E 是 Moka Massive Mixed Embedding 的缩写
|
|
28 |
| | 参数数量 | 维度 | 中文 | 英文 | s2s | s2p | s2c | 开源 | 兼容性 | s2s Acc | s2p ndcg@10 |
|
29 |
| --------- | -------- | -------- | -------- | -------- | -------- | -------- | -------- | ---- | ---------- | ------------ | -------- |
|
30 |
| m3e-small | 24M | 512 | 是 | 否 | 是 | 否 | 否 | 是 | 优 | 0.5834 | 0.7262 |
|
31 |
-
| m3e-base | 110M | 768 | 是 | 是 | 是 | 是 | 否 | 是 | 优 | 0.6157 | 0.8004 |
|
32 |
| text2vec | 110M | 768 | 是 | 否 | 是 | 否 | 否 | 是 | 良 | 0.5755 | 0.6346 |
|
33 |
-
| openai | 未知 | 1576 | 是 | 是 | 是 | 是 | 是 | 否 | 优 | 0.5956 | 0.7786 |
|
34 |
|
35 |
说明:
|
36 |
- s2s, 即 sentence to sentence ,代表了同质文本之间的嵌入能力,适用任务:文本相似度,重复问题检测,文本分类等
|
@@ -39,6 +39,11 @@ M3E 是 Moka Massive Mixed Embedding 的缩写
|
|
39 |
- 兼容性,代表了模型在开源社区中各种项目被支持的程度,由于 m3e 是基于 sentence-transformers 的,所以和 openai 在社区的支持度上相当
|
40 |
- ACC & ndcg@10,详情见下方的评测
|
41 |
|
|
|
|
|
|
|
|
|
|
|
42 |
## 使用方式
|
43 |
|
44 |
您需要先安装 sentence-transformers
|
@@ -105,7 +110,7 @@ M3E 使用 in-batch 负采样的对比学习的方式在句对数据集进行训
|
|
105 |
| TYQSentiment | 0.6099 | 0.6596 | 0.7188 | 0.68 |
|
106 |
| StockComSentiment | 0.4307 | 0.4291 | 0.4363 | 0.4819 |
|
107 |
| IFlyTek | 0.414 | 0.4263 | 0.4409 | 0.4486 |
|
108 |
-
| Average | 0.5755 | 0.5834 | 0.6157 | 0.5956 |
|
109 |
|
110 |
### 检索排序
|
111 |
|
@@ -116,12 +121,12 @@ M3E 使用 in-batch 负采样的对比学习的方式在句对数据集进行训
|
|
116 |
|
117 |
| | text2vec | openai-ada-002 | m3e-small | m3e-base |
|
118 |
| ------- | -------- | -------------- | --------- | -------- |
|
119 |
-
| map@1 | 0.4684 | 0.6133 | 0.5574 | 0.626 |
|
120 |
-
| map@10 | 0.5877 | 0.7423 | 0.6878 | 0.7656 |
|
121 |
-
| mrr@1 | 0.5345 | 0.6931 | 0.6324 | 0.7047 |
|
122 |
-
| mrr@10 | 0.6217 | 0.7668 | 0.712 | 0.7841 |
|
123 |
-
| ndcg@1 | 0.5207 | 0.6764 | 0.6159 | 0.6881 |
|
124 |
-
| ndcg@10 | 0.6346 | 0.7786 | 0.7262 | 0.8004 |
|
125 |
|
126 |
#### T2Ranking
|
127 |
|
@@ -130,9 +135,12 @@ M3E 使用 in-batch 负采样的对比学习的方式在句对数据集进行训
|
|
130 |
|
131 |
| | text2vec | m3e-small | m3e-base |
|
132 |
| ------- | -------- | --------- | -------- |
|
133 |
-
| t2r-1w | 0.6346 | 0.72621 | 0.8004 |
|
134 |
-
| t2r-10w | 0.44644 | 0.5251 | 0.6263 |
|
135 |
-
| t2r-50w | 0.33482 | 0.38626 | 0.47364 |
|
|
|
|
|
|
|
136 |
|
137 |
## M3E数据集
|
138 |
|
|
|
28 |
| | 参数数量 | 维度 | 中文 | 英文 | s2s | s2p | s2c | 开源 | 兼容性 | s2s Acc | s2p ndcg@10 |
|
29 |
| --------- | -------- | -------- | -------- | -------- | -------- | -------- | -------- | ---- | ---------- | ------------ | -------- |
|
30 |
| m3e-small | 24M | 512 | 是 | 否 | 是 | 否 | 否 | 是 | 优 | 0.5834 | 0.7262 |
|
31 |
+
| m3e-base | 110M | 768 | 是 | 是 | 是 | 是 | 否 | 是 | 优 | **0.6157** | **0.8004** |
|
32 |
| text2vec | 110M | 768 | 是 | 否 | 是 | 否 | 否 | 是 | 良 | 0.5755 | 0.6346 |
|
33 |
+
| openai-ada-002 | 未知 | 1576 | 是 | 是 | 是 | 是 | 是 | 否 | 优 | 0.5956 | 0.7786 |
|
34 |
|
35 |
说明:
|
36 |
- s2s, 即 sentence to sentence ,代表了同质文本之间的嵌入能力,适用任务:文本相似度,重复问题检测,文本分类等
|
|
|
39 |
- 兼容性,代表了模型在开源社区中各种项目被支持的程度,由于 m3e 是基于 sentence-transformers 的,所以和 openai 在社区的支持度上相当
|
40 |
- ACC & ndcg@10,详情见下方的评测
|
41 |
|
42 |
+
Tips:
|
43 |
+
- 使用场景主要是中文,少量英文的情况,建议使用 m3e 系列的模型
|
44 |
+
- 多语言使用场景,并且不介意数据隐私的话,我建议使用 oada-002
|
45 |
+
- 代码检索场景,推荐使用 ada-002
|
46 |
+
|
47 |
## 使用方式
|
48 |
|
49 |
您需要先安装 sentence-transformers
|
|
|
110 |
| TYQSentiment | 0.6099 | 0.6596 | 0.7188 | 0.68 |
|
111 |
| StockComSentiment | 0.4307 | 0.4291 | 0.4363 | 0.4819 |
|
112 |
| IFlyTek | 0.414 | 0.4263 | 0.4409 | 0.4486 |
|
113 |
+
| Average | 0.5755 | 0.5834 | **0.6157** | 0.5956 |
|
114 |
|
115 |
### 检索排序
|
116 |
|
|
|
121 |
|
122 |
| | text2vec | openai-ada-002 | m3e-small | m3e-base |
|
123 |
| ------- | -------- | -------------- | --------- | -------- |
|
124 |
+
| map@1 | 0.4684 | 0.6133 | 0.5574 | **0.626** |
|
125 |
+
| map@10 | 0.5877 | 0.7423 | 0.6878 | **0.7656** |
|
126 |
+
| mrr@1 | 0.5345 | 0.6931 | 0.6324 | **0.7047** |
|
127 |
+
| mrr@10 | 0.6217 | 0.7668 | 0.712 | **0.7841** |
|
128 |
+
| ndcg@1 | 0.5207 | 0.6764 | 0.6159 | **0.6881** |
|
129 |
+
| ndcg@10 | 0.6346 | 0.7786 | 0.7262 | **0.8004** |
|
130 |
|
131 |
#### T2Ranking
|
132 |
|
|
|
135 |
|
136 |
| | text2vec | m3e-small | m3e-base |
|
137 |
| ------- | -------- | --------- | -------- |
|
138 |
+
| t2r-1w | 0.6346 | 0.72621 | **0.8004** |
|
139 |
+
| t2r-10w | 0.44644 | 0.5251 | **0.6263** |
|
140 |
+
| t2r-50w | 0.33482 | 0.38626 | **0.47364** |
|
141 |
+
|
142 |
+
说明:
|
143 |
+
- 检索排序对于 text2vec 并不公平,因为 text2vec 在训练的时候没有使用过检索相关的数据集,所以没有办法很好的完成检索任务也是正常的。
|
144 |
|
145 |
## M3E数据集
|
146 |
|