litagin commited on
Commit
5331478
1 Parent(s): a0b4d2a

Update docs

Browse files
Files changed (2) hide show
  1. README.md +2 -2
  2. app.py +8 -6
README.md CHANGED
@@ -1,6 +1,6 @@
1
  ---
2
- title: Galgame Whisper Wip Demo
3
- emoji: 🏃
4
  colorFrom: blue
5
  colorTo: pink
6
  sdk: gradio
 
1
  ---
2
+ title: Galgame Whisper (WIP) Demo
3
+ emoji: 🥰🎤📝
4
  colorFrom: blue
5
  colorTo: pink
6
  sdk: gradio
app.py CHANGED
@@ -46,7 +46,9 @@ logger.success("Pipelines initialized!")
46
 
47
  @spaces.GPU
48
  def transcribe_common(audio: str, model: str) -> tuple[str, float]:
49
- logger.info(f"Transcribing {Path(audio).name} with {model}")
 
 
50
  # Read and resample audio to 16kHz
51
  y, sr = librosa.load(audio, mono=True, sr=16000)
52
  # Get duration of audio
@@ -57,8 +59,7 @@ def transcribe_common(audio: str, model: str) -> tuple[str, float]:
57
  start_time = time.time()
58
  result = pipe_dict[model](y, generate_kwargs=generate_kwargs)["text"]
59
  end_time = time.time()
60
- logger.success(f"Transcribed {audio} with {model} in {end_time - start_time:.2f}s")
61
- logger.success(f"Result:\n{result}")
62
  return result, end_time - start_time
63
 
64
 
@@ -94,11 +95,12 @@ def transcribe_galgame_whisper(audio) -> tuple[str, float]:
94
  initial_md = """
95
  # Galgame-Whisper (WIP) Demo
96
 
 
97
  - https://huggingface.co/litagin/galgame-whisper-wip
 
98
  - 日本語のみ対応
 
99
  - 比較できるように他モデルもついでに試せる
100
- - 現在0.1エポックくらい
101
- - 音声は15秒まで
102
 
103
  pipeに渡しているkwargsは以下の通り:
104
  ```python
@@ -106,7 +108,7 @@ generate_kwargs = {
106
  "language": "Japanese",
107
  "do_sample": False,
108
  "num_beams": 1,
109
- "no_repeat_ngram_size": 3,
110
  }
111
  ```
112
  """
 
46
 
47
  @spaces.GPU
48
  def transcribe_common(audio: str, model: str) -> tuple[str, float]:
49
+ filename = Path(audio).name
50
+ logger.info(f"Model: {model}")
51
+ logger.info(f"Audio: {filename}")
52
  # Read and resample audio to 16kHz
53
  y, sr = librosa.load(audio, mono=True, sr=16000)
54
  # Get duration of audio
 
59
  start_time = time.time()
60
  result = pipe_dict[model](y, generate_kwargs=generate_kwargs)["text"]
61
  end_time = time.time()
62
+ logger.success(f"Finished in {end_time - start_time:.2f}s\n{result}")
 
63
  return result, end_time - start_time
64
 
65
 
 
95
  initial_md = """
96
  # Galgame-Whisper (WIP) Demo
97
 
98
+ - 音声認識モデル [kotoba-whisper-v2.0](https://huggingface.co/kotoba-tech/kotoba-whisper-v2.0) をファインチューンした**未完成のモデル**のお試し
99
  - https://huggingface.co/litagin/galgame-whisper-wip
100
+ - 現在0.1エポックくらい
101
  - 日本語のみ対応
102
+ - デモでは音声は15秒まで
103
  - 比較できるように他モデルもついでに試せる
 
 
104
 
105
  pipeに渡しているkwargsは以下の通り:
106
  ```python
 
108
  "language": "Japanese",
109
  "do_sample": False,
110
  "num_beams": 1,
111
+ "no_repeat_ngram_size": 3, # 3回以上の繰り返しを防ぐ
112
  }
113
  ```
114
  """