YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co./docs/hub/model-cards#model-card-metadata)

English Version 🇬🇧


Model Performance Overview

Metrics:

  • PESQ@200: Perceptual Evaluation of Speech Quality (higher = better).
  • STOI@200: Short-Time Objective Intelligibility (closer to 1 = better).
  • SI-SDR@200: Scale-Invariant Signal-to-Distortion Ratio (higher = better).
  • SIM-O@200: Similarity to ground truth (higher = better).
Model PESQ@200 STOI@200 SI-SDR@200 SIM-O@200
Original (LibriSpeech) 4.15 0.997 27.45 ±1.09
Parler TTS Mini v1 1.29 ±0.49 0.15 ±0.12 25.0 ±2.9 0.88 ±0.03
Fish Speech 1.5 1.26 ±0.38 0.17 ±0.12 25.0 ±3.2 0.91 ±0.02
**Salt-ASR Wav-Uni 1-12k ** 1.27 ±0.40 0.18 ±0.09 20.3 ±3.69 0.88 ±0.02

Our Solution

  • Method: Extends a pre-trained LLM with audio tokens and fine-tunes on TTS and ASR tasks.
  • Training:
    • SpeechTokenizer (semantic + audio tokens) outperformed Encodec (loss explosions resolved with TF32 precision).
    • Training time: 150 A100 GPU hours.
  • Advantages: Unified LM loss for dual tasks, minimal training overhead.

Resources


Русская Версия 🇷🇺


Сравнение моделей

Метрики:

  • PESQ@200: Качество речи (чем выше, тем лучше).
  • STOI@200: Разборчивость речи (ближе к 1 = лучше).
  • SI-SDR@200: Соотношение сигнал-шум (выше = лучше).
  • SIM-O@200: Сходство с эталоном (выше = лучше).
Модель PESQ@200 STOI@200 SI-SDR@200 SIM-O@200
Original (LibriSpeech) 4.15 0.997 27.45 ±1.09
Parler TTS Mini v1 1.25 ±0.49 0.15 ±0.12 25.0 ±2.9 0.88 ±0.03
Fish Speech 1.5 1.26 ±0.38 0.17 ±0.12 25.0 ±3.2 0.91 ±0.02
**Salt-ASR Wav-Uni 1-12k ** 1.27 ±0.40 0.18 ±0.09 20.3 ±3.69 0.88 ±0.02

Наше решение

  • Метод: Расширение словаря LLM аудиотокенами + дообучение на TTS и ASR.
  • Обучение:
    • SpeechTokenizer (семитические + аудиотокены) показал лучшие результаты, чем Encodec.
    • Время обучения: 150 часов на A100.
  • Преимущества: Единая функция потерь для двух задач, минимальные затраты.

Ресурсы


Примечание: Модель поддерживает генерацию коротких фраз на английском, немецком и французском.

Downloads last month
210
Safetensors
Model size
3.23B params
Tensor type
FP16
·
Inference API
Unable to determine this model's library. Check the docs .

Model tree for Vikhrmodels/salt-asr_wav-uni_1_tts_wav-uni_1-12k

Quantizations
3 models