wangyuxin
commited on
Commit
·
8fab55c
1
Parent(s):
5a20c5e
add 模型对比
Browse files
README.md
CHANGED
@@ -3,8 +3,8 @@ language:
|
|
3 |
- zh
|
4 |
- en
|
5 |
tags:
|
6 |
-
- embedding
|
7 |
-
- text-embedding
|
8 |
---
|
9 |
|
10 |
# M3E Models
|
@@ -22,6 +22,22 @@ M3E 是 Moka Massive Mixed Embedding 的缩写
|
|
22 |
- 2023.06.08,添加检索任务的评测结果,在 T2Ranking 1W 中文数据集上,m3e-base 在 ndcg@10 上达到了 0.8004,超过了 openai-ada-002 的 0.7786
|
23 |
- 2023.06.07,添加文本分类任务的评测结果,在 6 种文本分类数据集上,m3e-base 在 accuracy 上达到了 0.6157,超过了 openai-ada-002 的 0.5956
|
24 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
25 |
## 使用方式
|
26 |
|
27 |
您需要先安装 sentence-transformers
|
|
|
3 |
- zh
|
4 |
- en
|
5 |
tags:
|
6 |
+
- embedding
|
7 |
+
- text-embedding
|
8 |
---
|
9 |
|
10 |
# M3E Models
|
|
|
22 |
- 2023.06.08,添加检索任务的评测结果,在 T2Ranking 1W 中文数据集上,m3e-base 在 ndcg@10 上达到了 0.8004,超过了 openai-ada-002 的 0.7786
|
23 |
- 2023.06.07,添加文本分类任务的评测结果,在 6 种文本分类数据集上,m3e-base 在 accuracy 上达到了 0.6157,超过了 openai-ada-002 的 0.5956
|
24 |
|
25 |
+
## 模型对比
|
26 |
+
|
27 |
+
| | 参数数量 | 维度 | 中文 | 英文 | s2s | s2p | s2c | 开源 | 兼容性 | s2s Acc | s2p ndcg@10 |
|
28 |
+
| --------- | -------- | -------- | -------- | -------- | -------- | -------- | -------- | ---- | ---------- | ------------ | -------- |
|
29 |
+
| m3e-small | 24M | 512 | 是 | 否 | 是 | 否 | 否 | 是 | 优 | 0.5755 | 0.7262 |
|
30 |
+
| m3e-base | 110M | 768 | 是 | 是 | 是 | 否 | 否 | 是 | 优 | 0.5834 | 0.8004 |
|
31 |
+
| text2vec | 110M | 768 | 是 | 否 | 是 | 否 | 否 | 是 | 良 | 0.6157 | 0.6346 |
|
32 |
+
| openai | 未知 | 1576 | 是 | 是 | 是 | 否 | 是 | 否 | 优 | 0.5956 | 0.7786 |
|
33 |
+
|
34 |
+
说明:
|
35 |
+
- s2s, 即 sentence to sentence ,代表了同质文本之间的嵌入能力,适用任务:文本相似度,重复问题检测,文本分类等
|
36 |
+
- s2p, 即 sentence to passage ,代表了异质文本之间的嵌入能力,适用任务:文本检索,GPT 记忆模块等
|
37 |
+
- s2c, 即 sentence to code ,代表了自然语言和程序语言之间的嵌入能力,适用任务:代码检索
|
38 |
+
- 兼容性,代表了模型在开源社区中各种项目被支持的程度,由于 m3e 是基于 sentence-transformers 的,所以和 openai 在社区的支持度上相当
|
39 |
+
- ACC & ndcg@10,详情见下方的评测
|
40 |
+
|
41 |
## 使用方式
|
42 |
|
43 |
您需要先安装 sentence-transformers
|