patrickvonplaten
/

wav2vec2-large-xlsr-53-spanish-with-lm

Automatic Speech Recognition

xlsr-fine-tuning-week

Inference Endpoints

Model card Files Files and versions Community

patrickvonplaten commited on Dec 3, 2021

Commit

9901e0b

·

1 Parent(s): 8558f54

Update README.md

Files changed (1) hide show

README.md +4 -1

README.md CHANGED Viewed

@@ -28,6 +28,7 @@ The only change from the existing ASR pipeline will be:
 ```diff
 import torch
 -from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 +from transformers import Wav2Vec2ForCTC, Wav2Vec2ProcessorWithLM
 from datasets import load_dataset
@@ -36,11 +37,13 @@ ds = load_dataset("common_voice", "es", split="test", streaming=True)
 sample = next(iter(ds))
 model = Wav2Vec2ForCTC.from_pretrained("patrickvonplaten/wav2vec2-large-xlsr-53-spanish-with-lm")
 -processor = Wav2Vec2Processor.from_pretrained("patrickvonplaten/wav2vec2-large-xlsr-53-spanish-with-lm")
 +processor = Wav2Vec2ProcessorWithLM.from_pretrained("patrickvonplaten/wav2vec2-large-xlsr-53-spanish-with-lm")
-input_values = processor(sample["audio"]["array"], return_tensors="pt").input_values
 with torch.no_grad():
     logits = model(input_values).logits

 ```diff
 import torch
+import torchaudio.functional as F
 -from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 +from transformers import Wav2Vec2ForCTC, Wav2Vec2ProcessorWithLM
 from datasets import load_dataset
 sample = next(iter(ds))
+resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).n
 model = Wav2Vec2ForCTC.from_pretrained("patrickvonplaten/wav2vec2-large-xlsr-53-spanish-with-lm")
 -processor = Wav2Vec2Processor.from_pretrained("patrickvonplaten/wav2vec2-large-xlsr-53-spanish-with-lm")
 +processor = Wav2Vec2ProcessorWithLM.from_pretrained("patrickvonplaten/wav2vec2-large-xlsr-53-spanish-with-lm")
+input_values = processor(resampled_audio, return_tensors="pt").input_values
 with torch.no_grad():
     logits = model(input_values).logits