Vikhrmodels
/

salt-asr_wav-uni_1_tts_wav-uni_1-12k

Model card Files Files and versions Community

YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co./docs/hub/model-cards#model-card-metadata)

English Version 🇬🇧

Model Performance Overview

Metrics:

PESQ@200: Perceptual Evaluation of Speech Quality (higher = better).
STOI@200: Short-Time Objective Intelligibility (closer to 1 = better).
SI-SDR@200: Scale-Invariant Signal-to-Distortion Ratio (higher = better).
SIM-O@200: Similarity to ground truth (higher = better).

Model	PESQ@200	STOI@200	SI-SDR@200	SIM-O@200
Original (LibriSpeech)	4.15	0.997	27.45 ±1.09	—
Parler TTS Mini v1	1.29 ±0.49	0.15 ±0.12	25.0 ±2.9	0.88 ±0.03
Fish Speech 1.5	1.26 ±0.38	0.17 ±0.12	25.0 ±3.2	0.91 ±0.02
Salt-ASR Wav-Uni 1-12k	1.27 ±0.40	0.18 ±0.09	20.3 ±3.69	0.88 ±0.02

Our Solution

Method: Extends a pre-trained LLM with audio tokens and fine-tunes on TTS and ASR tasks.
Training:
- SpeechTokenizer (semantic + audio tokens) outperformed Encodec (loss explosions resolved with TF32 precision).
- Training time: 150 A100 GPU hours.
Advantages: Unified LM loss for dual tasks, minimal training overhead.

Resources

Code: GitHub Repo
Inference Demo: Google Colab
Reference Papers: Vitta, Valle

Русская Версия 🇷🇺

Сравнение моделей

Метрики:

PESQ@200: Качество речи (чем выше, тем лучше).
STOI@200: Разборчивость речи (ближе к 1 = лучше).
SI-SDR@200: Соотношение сигнал-шум (выше = лучше).
SIM-O@200: Сходство с эталоном (выше = лучше).

Модель	PESQ@200	STOI@200	SI-SDR@200	SIM-O@200
Original (LibriSpeech)	4.15	0.997	27.45 ±1.09	—
Parler TTS Mini v1	1.25 ±0.49	0.15 ±0.12	25.0 ±2.9	0.88 ±0.03
Fish Speech 1.5	1.26 ±0.38	0.17 ±0.12	25.0 ±3.2	0.91 ±0.02
Salt-ASR Wav-Uni 1-12k	1.27 ±0.40	0.18 ±0.09	20.3 ±3.69	0.88 ±0.02

Наше решение

Метод: Расширение словаря LLM аудиотокенами + дообучение на TTS и ASR.
Обучение:
- SpeechTokenizer (семитические + аудиотокены) показал лучшие результаты, чем Encodec.
- Время обучения: 150 часов на A100.
Преимущества: Единая функция потерь для двух задач, минимальные затраты.

Ресурсы

Код: GitHub
Демо: Google Colab

Примечание: Модель поддерживает генерацию коротких фраз на английском, немецком и французском.

Downloads last month: 50

Safetensors

Model size

3.23B params

Tensor type

FP16

·

Inference Providers NEW

This model is not currently available via any of the supported Inference Providers.

The model cannot be deployed to the HF Inference API: The model has no library tag.

Model tree for Vikhrmodels/salt-asr_wav-uni_1_tts_wav-uni_1-12k

Quantizations