Spaces:

Liusuthu
/

Portable-Depression-Detecting-System

Runtime error

App Files Files Community

Liusuthu commited on Feb 25, 2024

Commit

20ce06a

verified ·

1 Parent(s): f076f86

Update app.py

Browse files

Files changed (1) hide show

app.py +74 -0

app.py CHANGED Viewed

@@ -73,6 +73,47 @@ def classify_continuous(audio):
         return text_results, out_prob.squeeze(0).numpy(), text_lab[-1], Audio
 #########################################视频部分###################################
 def clear_dynamic_info():
     return (
@@ -205,8 +246,41 @@ with gr.Blocks() as video_all:
         inputs=[input_video],
         outputs=[score1,score2,result3],
     )
 with gr.Blocks() as app:
     with gr.Tab("语音"):

         return text_results, out_prob.squeeze(0).numpy(), text_lab[-1], Audio
+def speech_score(audio):
+    print(type(audio))
+    print(audio)
+    sample_rate, signal = audio  # 这是语音的输入
+    signal = signal.astype(np.float32)
+    signal /= np.max(np.abs(signal))
+    sf.write("data/a.wav", signal, sample_rate)
+    signal, sample_rate = torchaudio.load("data/a.wav")
+    signal1 = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(
+        signal
+    )
+    torchaudio.save("data/out.wav", signal1, 16000, encoding="PCM_S", bits_per_sample=16)
+    Audio = "data/out.wav"
+    speech, sample_rate = AudioReader.read_wav_file(Audio)
+    if signal == "none":
+        return "none", "none", "haha"
+    else:
+        segments = vad.segments_offline(speech)
+        text_results = ""
+        for part in segments:
+            _result = ASR_model.infer_offline(
+                speech[part[0] * 16 : part[1] * 16], hot_words="任意热词 空格分开"
+            )
+            text_results += punc.punctuate(_result)[0]
+        out_prob, score, index, text_lab = classifier.classify_batch(signal1)
+        print(type(out_prob.squeeze(0).numpy()))
+        print(out_prob.squeeze(0).numpy())
+        print(type(text_lab[-1]))
+        print(text_lab[-1])
+        #return text_results, out_prob.squeeze(0).numpy(), text_lab[-1], Audio
+        prob=out_prob.squeeze(0).numpy()
+        print(prob)
+        score2=10*prob2[0]-10*prob[1]
+        print("score2",score2)
+        print(text_lab[-1])
+        text_emo=text_api(text_results)
+        print(text_emo)
+        return score2,text_emo
 #########################################视频部分###################################
 def clear_dynamic_info():
     return (
         inputs=[input_video],
         outputs=[score1,score2,result3],
     )
+###################################################################
+def clear_2():
+    return (
+        gr.Audio(value=None),
+        gr.Textbox(""),
+        gr.Textbox(""),
+    )
+with gr.Blocks() as speech_all:
+    with gr.Row():
+        with gr.Column(scale=2):
+            input_audio=gr.Audio()
+            with gr.Row():
+                clear_audio = gr.Button(
+                    value="Clear", interactive=True, scale=1
+                )
+                submit_audio = gr.Button(
+                    value="Score", interactive=True, scale=1, elem_classes="submit"
+                )
+        with gr.Column(scale=2):
+            score2=gr.Textbox(interactive=False)
+            text_emo=gr.Textbox(interactive=False)
+    clear_audio.click(
+        fn=clear2,
+        outputs=[input_audio,score2,text_emo]
+    )
+    submit_audio.click(
+        fn=speech_score,
+        inputs=[input_audio],
+        outputs=[score2,text_emo],
+    )
 with gr.Blocks() as app:
     with gr.Tab("语音"):