Spaces:

NorHsangPha
/

Shan-ASR-Demo

Sleeping

App Files Files Community

NorHsangPha commited on Jul 21

Commit

772adb0

•

1 Parent(s): b39be5b

Initial: initial commit

Browse files

Files changed (7) hide show

.gitattributes +2 -0
.gitignore +1 -0
app.py +52 -0
asr.py +74 -0
requirements.txt +5 -0
upload/sample1.wav +3 -0
upload/sample2.wav +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+upload/sample2.wav filter=lfs diff=lfs merge=lfs -text
+upload/sample1.wav filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ __pycache__

app.py ADDED Viewed

	@@ -0,0 +1,52 @@

+import gradio as gr
+from asr import transcribe, ASR_EXAMPLES
+mms_select_source_trans = gr.Radio(
+    ["Record from Mic", "Upload audio"],
+    label="Audio input",
+    value="Record from Mic",
+)
+mms_mic_source_trans = gr.Audio(
+    sources=["microphone"], type="filepath", label="Use mic"
+)
+mms_upload_source_trans = gr.Audio(
+    sources=["upload"], type="filepath", label="Upload file", visible=False
+)
+mms_transcribe = gr.Interface(
+    fn=transcribe,
+    inputs=[
+        gr.Dropdown(
+            [
+                "original",
+                "finetune",
+            ],
+            label="Model",
+            value="finetune",
+        ),
+        mms_select_source_trans,
+        mms_mic_source_trans,
+        mms_upload_source_trans,
+    ],
+    outputs="text",
+    examples=ASR_EXAMPLES,
+    title="Auto Speech Recognition Demo",
+    description=(
+        "Transcribe audio from a microphone or input file in your desired language."
+    ),
+    allow_flagging="never",
+)
+with gr.Blocks() as demo:
+    mms_transcribe.render()
+    mms_select_source_trans.change(
+        lambda x: [
+            gr.update(visible=True if x == "Record from Mic" else False),
+            gr.update(visible=True if x == "Upload audio" else False),
+        ],
+        inputs=[mms_select_source_trans],
+        outputs=[mms_mic_source_trans, mms_upload_source_trans],
+        queue=False,
+    )
+demo.launch()

asr.py ADDED Viewed

	@@ -0,0 +1,74 @@

+import os
+import librosa
+from transformers import Wav2Vec2ForCTC, AutoProcessor
+import torch
+ASR_SAMPLING_RATE = 16_000
+def transcribe(model_name: str, audio_source=None, microphone=None, file_upload=None):
+    if type(microphone) is dict:
+        microphone = microphone["name"]
+    audio_fp = (
+        file_upload if "upload" in str(audio_source or "").lower() else microphone
+    )
+    if audio_fp is None:
+        return "ERROR: You have to either use the microphone or upload an audio file"
+    audio_samples = librosa.load(audio_fp, sr=ASR_SAMPLING_RATE, mono=True)[0]
+    model_id = {
+        "original": "facebook/mms-1b-all",
+        "finetune": "NorHsangPha/wav2vec2-large-mms-1b-shan",
+    }[model_name]
+    auth_token = os.environ.get("TOKEN_READ_SECRET") or True
+    if model_name == "original":
+        model = Wav2Vec2ForCTC.from_pretrained(model_id)
+        processor = AutoProcessor.from_pretrained(model_id)
+        processor.tokenizer.set_target_lang("shn")
+        model.load_adapter("shn")
+    elif model_name == "finetune":
+        model = Wav2Vec2ForCTC.from_pretrained(
+            model_id, target_lang="shn", ignore_mismatched_sizes=True, token=auth_token
+        )
+        processor = AutoProcessor.from_pretrained(model_id, token=auth_token)
+    else:
+        return "ERROR: Wrong model name, or model not available please restart."
+    if torch.cuda.is_available():
+        device = torch.device("cuda")
+    elif (
+        hasattr(torch.backends, "mps")
+        and torch.backends.mps.is_available()
+        and torch.backends.mps.is_built()
+    ):
+        device = torch.device("mps")
+    else:
+        device = torch.device("cpu")
+    model.to(device)
+    inputs = processor(
+        audio_samples, sampling_rate=ASR_SAMPLING_RATE, return_tensors="pt"
+    )
+    inputs = inputs.to(device)
+    with torch.no_grad():
+        outputs = model(**inputs).logits
+    ids = torch.argmax(outputs, dim=-1)[0]
+    transcription = processor.decode(ids)
+    return transcription
+ASR_EXAMPLES = [
+    ["finetune", "Upload audio", None, "upload/sample1.wav"],
+    ["finetune", "Upload audio", None, "upload/sample2.wav"],
+    ["original", "Upload audio", None, "upload/sample1.wav"],
+    ["original", "Upload audio", None, "upload/sample2.wav"],
+]

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+gradio
+librosa
+transformers
+torch
+torchaudio

upload/sample1.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:00ba47c1cebd97baa03b7dd33716dd5049cf0328780447bb37fc3a0f74fe19da
+size 2218566

upload/sample2.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0dc22f6c9a97bf3cfb5025b3b68b1dc3814822ad4acfb04d7d914f9a86eadeb0
+size 260808