Bauyrjan
/

wav2vec2-kazakh

Automatic Speech Recognition

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

Bauyrjan commited on Nov 20, 2022

Commit

ae63903

•

1 Parent(s): 55eb5a5

Upload utils.py

Files changed (1) hide show

utils.py +42 -0

utils.py ADDED Viewed

	@@ -0,0 +1,42 @@

+import datasets
+import torchaudio
+import re
+def get_test_dataset(data_path='ISSAI_KSC_335RS_v1.1'):
+    def read_sentence(idx):
+        with open(f"{data_path}/Transcriptions/{idx}.txt", 'r') as f:
+            text = ' '.join(f.readlines())
+        return text
+    def read_text(batch):
+        batch["sentence"] = read_sentence(batch['uttID'])
+        return batch
+    chars_to_ignore = ["f", "m"]
+    chars_to_ignore_regex = f'[{"".join(chars_to_ignore)}]'
+    def process_text(batch):
+        batch["text"] = re.sub(chars_to_ignore_regex, "", batch["sentence"]).lower() + " "
+        batch['text'] = batch['text'].replace('a', 'а').replace('ə', 'ә').replace('ɵ', 'ө')
+        return batch
+    def load_audio(batch):
+        path = f"{data_path}/Audios_flac/{batch['uttID']}.flac"
+        speech_array, sr = torchaudio.load(path)
+        batch["speech"] = speech_array
+        batch["sampling_rate"] = sr
+        return batch
+    test_dataset = datasets.load_dataset(
+        'csv',
+        data_files=f"{data_path}/Meta/test.csv",
+        delimiter=' ',
+        split='train'
+    )
+    test_dataset = test_dataset.map(read_text)
+    test_dataset = test_dataset.map(process_text)
+    test_dataset = test_dataset.map(load_audio, num_proc=1)
+    return test_dataset