Update README.md
Browse files
README.md
CHANGED
@@ -162,7 +162,14 @@ wiki_cate_schema_zh = {
|
|
162 |
|
163 |
# 5.转换脚本
|
164 |
|
165 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
166 |
|
167 |
```bash
|
168 |
python kg2instruction/convert.py \
|
@@ -177,6 +184,8 @@ python kg2instruction/convert.py \
|
|
177 |
--random_sort # 是否对指令中的schema列表进行随机排序
|
178 |
```
|
179 |
|
|
|
|
|
180 |
|
181 |
`schema_path`指定schema文件(json文件)路径, schema文件共包含3行json字符串, 以固定的格式组织schema信息。这里以NER任务为例, 每行的含义如下:
|
182 |
|
@@ -215,8 +224,14 @@ python kg2instruction/convert.py \
|
|
215 |
</details>
|
216 |
|
217 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
218 |
|
219 |
-
[convert_test.py](https://github.com/zjunlp/DeepKE/blob/main/example/llm/InstructKGC/kg2instruction/convert_test.py) 不要求数据具有标签(`entity`、`relation`、`event`)字段, 只需要具有 `input` 字段, 以及提供 `schema_path`, 适合用来处理测试数据。
|
220 |
|
221 |
```bash
|
222 |
python kg2instruction/convert_test.py \
|
@@ -228,6 +243,7 @@ python kg2instruction/convert_test.py \
|
|
228 |
--sample 0
|
229 |
```
|
230 |
|
|
|
231 |
|
232 |
以下是一个实体识别(NER)任务数据转换的示例:
|
233 |
|
|
|
162 |
|
163 |
# 5.转换脚本
|
164 |
|
165 |
+
|
166 |
+
**训练数据转换**
|
167 |
+
|
168 |
+
在对模型进行数据输入之前,需要将**数据格式化**以包含`instruction`和`input`字段。为此,我们提供了一个脚本 [kg2instruction/convert.py](https://github.com/zjunlp/DeepKE/blob/main/example/llm/InstructKGC/kg2instruction/convert.py),它可以将数据批量转换成模型可以直接使用的格式。
|
169 |
+
|
170 |
+
> 在使用 [kg2instruction/convert.py](https://github.com/zjunlp/DeepKE/blob/main/example/llm/InstructKGC/kg2instruction/convert.py) 脚本之前,请确保参考了 [data](https://github.com/zjunlp/DeepKE/blob/main/example/llm/InstructKGC/data) 目录。该目录详细说明了每种任务所需的数据格式要求。请参考 sample.json 以了解转换前数据的格式,schema.json 则展示了 schema 的组织结构,而 processed.json 则描述了转换后的数据格式。
|
171 |
+
|
172 |
+
|
173 |
|
174 |
```bash
|
175 |
python kg2instruction/convert.py \
|
|
|
184 |
--random_sort # 是否对指令中的schema列表进行随机排序
|
185 |
```
|
186 |
|
187 |
+
**负采样**: 假设数据集 A 包含标签 [a,b,c,d,e,f],对于某个给定的样本 s,它可能仅涉及标签 a 和 b。我们的目标是随机从候选关系列表中引入一些原本与 s 无关的关系,比如 c 和 d。然而,值得注意的是,在输出中,c 和 d 的标签要么不被输出,要么输出为`NAN`。
|
188 |
+
|
189 |
|
190 |
`schema_path`指定schema文件(json文件)路径, schema文件共包含3行json字符串, 以固定的格式组织schema信息。这里以NER任务为例, 每行的含义如下:
|
191 |
|
|
|
224 |
</details>
|
225 |
|
226 |
|
227 |
+
更详细的schema文件信息可在[data](./data)目录下各个任务目录的`schema.json`文件中查看。
|
228 |
+
|
229 |
+
|
230 |
+
|
231 |
+
**测试数据转换**
|
232 |
+
|
233 |
+
对于**测试数据**,可以使用 [kg2instruction/convert_test.py](https://github.com/zjunlp/DeepKE/blob/main/example/llm/InstructKGC/kg2instruction/convert_test.py) 脚本,它不要求数据包含标签(`entity`、`relation`、`event`)字段,**只需**提供`input`字段和相应的`schema_path`。
|
234 |
|
|
|
235 |
|
236 |
```bash
|
237 |
python kg2instruction/convert_test.py \
|
|
|
243 |
--sample 0
|
244 |
```
|
245 |
|
246 |
+
**数据转换实例**
|
247 |
|
248 |
以下是一个实体识别(NER)任务数据转换的示例:
|
249 |
|