Nhut
/

wav2vec2-large-xlsr-vietnamese

@@ -103,46 +103,46 @@ ENCODER = {
     "ghể": "gể",
     "ghễ": "gễ",
     "ghệ": "gệ",
-    "ngh": "\\x80",
-    "uyê": "\\x96",
-    "uyề": "\\x97",
-    "uyế": "\\x98",
-    "uyể": "\\x99",
-    "uyễ": "\\x9a",
-    "uyệ": "\\x9b",
-    "ng": "\\x81",
-    "ch": "\\x82",
-    "gh": "\\x83",
-    "nh": "\\x84",
-    "gi": "\\x85",
-    "ph": "\\x86",
-    "kh": "\\x87",
-    "th": "\\x88",
-    "tr": "\\x89",
-    "uy": "\\x8a",
-    "uỳ": "\\x8b",
-    "uý": "\\x8c",
-    "uỷ": "\\x8d",
-    "uỹ": "\\x8e",
-    "uỵ": "\\x8f",
-    "iê": "\\x90",
-    "iề": "\\x91",
-    "iế": "\\x92",
-    "iể": "\\x93",
-    "iễ": "\\x94",
-    "iệ": "\\x95",
-    "uô": "\\x9c",
-    "uồ": "\\x9d",
-    "uố": "\\x9e",
-    "uổ": "\\x9f",
-    "uỗ": "\\xa0",
-    "uộ": "\\xa1",
-    "ươ": "\\xa2",
-    "ườ": "\\xa3",
-    "ướ": "\\xa4",
-    "ưở": "\\xa5",
-    "ưỡ": "\\xa6",
-    "ượ": "\\xa7",
 }
 def decode_string(x):
@@ -172,7 +172,7 @@ with torch.no_grad():
 predicted_ids = torch.argmax(logits, dim=-1)
-print("Prediction:", decode_string(processor.batch_decode(predicted_ids)))
 print("Reference:", test_dataset["sentence"][:2])
 ```
@@ -250,46 +250,46 @@ ENCODER = {
     "ghể": "gể",
     "ghễ": "gễ",
     "ghệ": "gệ",
-    "ngh": "\\x80",
-    "uyê": "\\x96",
-    "uyề": "\\x97",
-    "uyế": "\\x98",
-    "uyể": "\\x99",
-    "uyễ": "\\x9a",
-    "uyệ": "\\x9b",
-    "ng": "\\x81",
-    "ch": "\\x82",
-    "gh": "\\x83",
-    "nh": "\\x84",
-    "gi": "\\x85",
-    "ph": "\\x86",
-    "kh": "\\x87",
-    "th": "\\x88",
-    "tr": "\\x89",
-    "uy": "\\x8a",
-    "uỳ": "\\x8b",
-    "uý": "\\x8c",
-    "uỷ": "\\x8d",
-    "uỹ": "\\x8e",
-    "uỵ": "\\x8f",
-    "iê": "\\x90",
-    "iề": "\\x91",
-    "iế": "\\x92",
-    "iể": "\\x93",
-    "iễ": "\\x94",
-    "iệ": "\\x95",
-    "uô": "\\x9c",
-    "uồ": "\\x9d",
-    "uố": "\\x9e",
-    "uổ": "\\x9f",
-    "uỗ": "\\xa0",
-    "uộ": "\\xa1",
-    "ươ": "\\xa2",
-    "ườ": "\\xa3",
-    "ướ": "\\xa4",
-    "ưở": "\\xa5",
-    "ưỡ": "\\xa6",
-    "ượ": "\\xa7",
 }
 def decode_string(x):

     "ghể": "gể",
     "ghễ": "gễ",
     "ghệ": "gệ",
+    "ngh": "\x80",
+    "uyê": "\x96",
+    "uyề": "\x97",
+    "uyế": "\x98",
+    "uyể": "\x99",
+    "uyễ": "\x9a",
+    "uyệ": "\x9b",
+    "ng": "\x81",
+    "ch": "\x82",
+    "gh": "\x83",
+    "nh": "\x84",
+    "gi": "\x85",
+    "ph": "\x86",
+    "kh": "\x87",
+    "th": "\x88",
+    "tr": "\x89",
+    "uy": "\x8a",
+    "uỳ": "\x8b",
+    "uý": "\x8c",
+    "uỷ": "\x8d",
+    "uỹ": "\x8e",
+    "uỵ": "\x8f",
+    "iê": "\x90",
+    "iề": "\x91",
+    "iế": "\x92",
+    "iể": "\x93",
+    "iễ": "\x94",
+    "iệ": "\x95",
+    "uô": "\x9c",
+    "uồ": "\x9d",
+    "uố": "\x9e",
+    "uổ": "\x9f",
+    "uỗ": "\xa0",
+    "uộ": "\xa1",
+    "ươ": "\xa2",
+    "ườ": "\xa3",
+    "ướ": "\xa4",
+    "ưở": "\xa5",
+    "ưỡ": "\xa6",
+    "ượ": "\xa7",
 }
 def decode_string(x):
 predicted_ids = torch.argmax(logits, dim=-1)
+print("Prediction:", [decode_string(x) for x in processor.batch_decode(predicted_ids)])
 print("Reference:", test_dataset["sentence"][:2])
 ```
     "ghể": "gể",
     "ghễ": "gễ",
     "ghệ": "gệ",
+    "ngh": "\x80",
+    "uyê": "\x96",
+    "uyề": "\x97",
+    "uyế": "\x98",
+    "uyể": "\x99",
+    "uyễ": "\x9a",
+    "uyệ": "\x9b",
+    "ng": "\x81",
+    "ch": "\x82",
+    "gh": "\x83",
+    "nh": "\x84",
+    "gi": "\x85",
+    "ph": "\x86",
+    "kh": "\x87",
+    "th": "\x88",
+    "tr": "\x89",
+    "uy": "\x8a",
+    "uỳ": "\x8b",
+    "uý": "\x8c",
+    "uỷ": "\x8d",
+    "uỹ": "\x8e",
+    "uỵ": "\x8f",
+    "iê": "\x90",
+    "iề": "\x91",
+    "iế": "\x92",
+    "iể": "\x93",
+    "iễ": "\x94",
+    "iệ": "\x95",
+    "uô": "\x9c",
+    "uồ": "\x9d",
+    "uố": "\x9e",
+    "uổ": "\x9f",
+    "uỗ": "\xa0",
+    "uộ": "\xa1",
+    "ươ": "\xa2",
+    "ườ": "\xa3",
+    "ướ": "\xa4",
+    "ưở": "\xa5",
+    "ưỡ": "\xa6",
+    "ượ": "\xa7",
 }
 def decode_string(x):