NbAiLab
/

wav2vec2-large-voxrex-npsc-nst

@@ -6,8 +6,8 @@ from typing import Dict
 import torch
 from datasets import Audio, Dataset, load_dataset, load_metric
-from transformers import AutoFeatureExtractor, pipeline, Wav2Vec2Processor, Wav2Vec2ProcessorWithLM, Wav2Vec2FeatureExtractor
-from pyctcdecode import BeamSearchDecoderCTC
 def log_results(result: Dataset, args: Dict[str, str]):
@@ -16,7 +16,7 @@ def log_results(result: Dataset, args: Dict[str, str]):
     log_outputs = args.log_outputs
     lm = "withLM" if args.use_lm else "noLM"
     model_id = args.model_id.replace("/", "_").replace(".", "")
-    dataset_id = "_".join(args.dataset.split("/") + [model_id, args.config, args.split, lm])
     # load metric
     wer = load_metric("wer")
@@ -112,11 +112,27 @@ def main(args):
         args.device = 0 if torch.cuda.is_available() else -1
     # asr = pipeline("automatic-speech-recognition", model=args.model_id, device=args.device)
-    feature_extractor_dict, _ = Wav2Vec2FeatureExtractor.get_feature_extractor_dict(args.model_id)
-    feature_extractor_dict["processor_class"] = "Wav2Vec2Processor" if not args.use_lm else "Wav2Vec2ProcessorWithLM"
-    feature_extractor = Wav2Vec2FeatureExtractor.from_dict(feature_extractor_dict)
-    asr = pipeline("automatic-speech-recognition", model=args.model_id, feature_extractor=feature_extractor, device=args.device, decoder=BeamSearchDecoderCTC.load_from_dir("./"))
     # map function to decode audio
     def map_to_pred(batch):

 import torch
 from datasets import Audio, Dataset, load_dataset, load_metric
+from transformers import AutoFeatureExtractor, AutoModelForCTC, pipeline, Wav2Vec2Processor, Wav2Vec2ProcessorWithLM, Wav2Vec2FeatureExtractor
+# from pyctcdecode import BeamSearchDecoderCTC
 def log_results(result: Dataset, args: Dict[str, str]):
     log_outputs = args.log_outputs
     lm = "withLM" if args.use_lm else "noLM"
     model_id = args.model_id.replace("/", "_").replace(".", "")
+    dataset_id = "_".join([model_id] + args.dataset.split("/") + [args.config, args.split, lm])
     # load metric
     wer = load_metric("wer")
         args.device = 0 if torch.cuda.is_available() else -1
     # asr = pipeline("automatic-speech-recognition", model=args.model_id, device=args.device)
+    model_instance = AutoModelForCTC.from_pretrained(args.model_id)
+    if args.use_lm:
+        processor = Wav2Vec2ProcessorWithLM.from_pretrained(args.model_id)
+        decoder = processor.decoder
+    else:
+        processor = Wav2Vec2Processor.from_pretrained(args.model_id)
+        decoder = None
+    asr = pipeline(
+        "automatic-speech-recognition",
+        model=model_instance,
+        tokenizer=processor.tokenizer,
+        feature_extractor=processor.feature_extractor,
+        decoder=decoder,
+        device=args.device
+    )
+    # feature_extractor_dict, _ = Wav2Vec2FeatureExtractor.get_feature_extractor_dict(args.model_id)
+    # feature_extractor_dict["processor_class"] = "Wav2Vec2Processor" if not args.use_lm else "Wav2Vec2ProcessorWithLM"
+    # feature_extractor = Wav2Vec2FeatureExtractor.from_dict(feature_extractor_dict)
+    # asr = pipeline("automatic-speech-recognition", model=args.model_id, feature_extractor=feature_extractor, device=args.device, decoder=BeamSearchDecoderCTC.load_from_dir("./"))
     # map function to decode audio
     def map_to_pred(batch):