Nhut commited on
Commit
cbbf4b8
1 Parent(s): d595cf7

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +81 -81
README.md CHANGED
@@ -103,46 +103,46 @@ ENCODER = {
103
  "ghể": "gể",
104
  "ghễ": "gễ",
105
  "ghệ": "gệ",
106
- "ngh": "\\x80",
107
- "uyê": "\\x96",
108
- "uyề": "\\x97",
109
- "uyế": "\\x98",
110
- "uyể": "\\x99",
111
- "uyễ": "\\x9a",
112
- "uyệ": "\\x9b",
113
- "ng": "\\x81",
114
- "ch": "\\x82",
115
- "gh": "\\x83",
116
- "nh": "\\x84",
117
- "gi": "\\x85",
118
- "ph": "\\x86",
119
- "kh": "\\x87",
120
- "th": "\\x88",
121
- "tr": "\\x89",
122
- "uy": "\\x8a",
123
- "uỳ": "\\x8b",
124
- "uý": "\\x8c",
125
- "uỷ": "\\x8d",
126
- "uỹ": "\\x8e",
127
- "uỵ": "\\x8f",
128
- "iê": "\\x90",
129
- "iề": "\\x91",
130
- "iế": "\\x92",
131
- "iể": "\\x93",
132
- "iễ": "\\x94",
133
- "iệ": "\\x95",
134
- "uô": "\\x9c",
135
- "uồ": "\\x9d",
136
- "uố": "\\x9e",
137
- "uổ": "\\x9f",
138
- "uỗ": "\\xa0",
139
- "uộ": "\\xa1",
140
- "ươ": "\\xa2",
141
- "ườ": "\\xa3",
142
- "ướ": "\\xa4",
143
- "ưở": "\\xa5",
144
- "ưỡ": "\\xa6",
145
- "ượ": "\\xa7",
146
  }
147
 
148
  def decode_string(x):
@@ -172,7 +172,7 @@ with torch.no_grad():
172
 
173
  predicted_ids = torch.argmax(logits, dim=-1)
174
 
175
- print("Prediction:", decode_string(processor.batch_decode(predicted_ids)))
176
  print("Reference:", test_dataset["sentence"][:2])
177
  ```
178
 
@@ -250,46 +250,46 @@ ENCODER = {
250
  "ghể": "gể",
251
  "ghễ": "gễ",
252
  "ghệ": "gệ",
253
- "ngh": "\\x80",
254
- "uyê": "\\x96",
255
- "uyề": "\\x97",
256
- "uyế": "\\x98",
257
- "uyể": "\\x99",
258
- "uyễ": "\\x9a",
259
- "uyệ": "\\x9b",
260
- "ng": "\\x81",
261
- "ch": "\\x82",
262
- "gh": "\\x83",
263
- "nh": "\\x84",
264
- "gi": "\\x85",
265
- "ph": "\\x86",
266
- "kh": "\\x87",
267
- "th": "\\x88",
268
- "tr": "\\x89",
269
- "uy": "\\x8a",
270
- "uỳ": "\\x8b",
271
- "uý": "\\x8c",
272
- "uỷ": "\\x8d",
273
- "uỹ": "\\x8e",
274
- "uỵ": "\\x8f",
275
- "iê": "\\x90",
276
- "iề": "\\x91",
277
- "iế": "\\x92",
278
- "iể": "\\x93",
279
- "iễ": "\\x94",
280
- "iệ": "\\x95",
281
- "uô": "\\x9c",
282
- "uồ": "\\x9d",
283
- "uố": "\\x9e",
284
- "uổ": "\\x9f",
285
- "uỗ": "\\xa0",
286
- "uộ": "\\xa1",
287
- "ươ": "\\xa2",
288
- "ườ": "\\xa3",
289
- "ướ": "\\xa4",
290
- "ưở": "\\xa5",
291
- "ưỡ": "\\xa6",
292
- "ượ": "\\xa7",
293
  }
294
 
295
  def decode_string(x):
 
103
  "ghể": "gể",
104
  "ghễ": "gễ",
105
  "ghệ": "gệ",
106
+ "ngh": "\x80",
107
+ "uyê": "\x96",
108
+ "uyề": "\x97",
109
+ "uyế": "\x98",
110
+ "uyể": "\x99",
111
+ "uyễ": "\x9a",
112
+ "uyệ": "\x9b",
113
+ "ng": "\x81",
114
+ "ch": "\x82",
115
+ "gh": "\x83",
116
+ "nh": "\x84",
117
+ "gi": "\x85",
118
+ "ph": "\x86",
119
+ "kh": "\x87",
120
+ "th": "\x88",
121
+ "tr": "\x89",
122
+ "uy": "\x8a",
123
+ "uỳ": "\x8b",
124
+ "uý": "\x8c",
125
+ "uỷ": "\x8d",
126
+ "uỹ": "\x8e",
127
+ "uỵ": "\x8f",
128
+ "iê": "\x90",
129
+ "iề": "\x91",
130
+ "iế": "\x92",
131
+ "iể": "\x93",
132
+ "iễ": "\x94",
133
+ "iệ": "\x95",
134
+ "uô": "\x9c",
135
+ "uồ": "\x9d",
136
+ "uố": "\x9e",
137
+ "uổ": "\x9f",
138
+ "uỗ": "\xa0",
139
+ "uộ": "\xa1",
140
+ "ươ": "\xa2",
141
+ "ườ": "\xa3",
142
+ "ướ": "\xa4",
143
+ "ưở": "\xa5",
144
+ "ưỡ": "\xa6",
145
+ "ượ": "\xa7",
146
  }
147
 
148
  def decode_string(x):
 
172
 
173
  predicted_ids = torch.argmax(logits, dim=-1)
174
 
175
+ print("Prediction:", [decode_string(x) for x in processor.batch_decode(predicted_ids)])
176
  print("Reference:", test_dataset["sentence"][:2])
177
  ```
178
 
 
250
  "ghể": "gể",
251
  "ghễ": "gễ",
252
  "ghệ": "gệ",
253
+ "ngh": "\x80",
254
+ "uyê": "\x96",
255
+ "uyề": "\x97",
256
+ "uyế": "\x98",
257
+ "uyể": "\x99",
258
+ "uyễ": "\x9a",
259
+ "uyệ": "\x9b",
260
+ "ng": "\x81",
261
+ "ch": "\x82",
262
+ "gh": "\x83",
263
+ "nh": "\x84",
264
+ "gi": "\x85",
265
+ "ph": "\x86",
266
+ "kh": "\x87",
267
+ "th": "\x88",
268
+ "tr": "\x89",
269
+ "uy": "\x8a",
270
+ "uỳ": "\x8b",
271
+ "uý": "\x8c",
272
+ "uỷ": "\x8d",
273
+ "uỹ": "\x8e",
274
+ "uỵ": "\x8f",
275
+ "iê": "\x90",
276
+ "iề": "\x91",
277
+ "iế": "\x92",
278
+ "iể": "\x93",
279
+ "iễ": "\x94",
280
+ "iệ": "\x95",
281
+ "uô": "\x9c",
282
+ "uồ": "\x9d",
283
+ "uố": "\x9e",
284
+ "uổ": "\x9f",
285
+ "uỗ": "\xa0",
286
+ "uộ": "\xa1",
287
+ "ươ": "\xa2",
288
+ "ườ": "\xa3",
289
+ "ướ": "\xa4",
290
+ "ưở": "\xa5",
291
+ "ưỡ": "\xa6",
292
+ "ượ": "\xa7",
293
  }
294
 
295
  def decode_string(x):