В приложение Speech Central добавили поддержку продвинутых open-source голосов Qwen3

В приложении Speech Central была расширена поддержка голосов для преобразования текста в речь за счёт добавления TTS-движков с открытым исходным кодом. Благодаря чему пользователи программы на iPhone, Android и Mac теперь могут использовать самые современные разработки в области синтеза речи.Ключевое требование для работы таких голосов — совместимость TTS-сервера с API от OpenAI. В этом случае Speech Central подключается к нему по тому же сценарию, который поддерживается OpenAI.

В материале будут рассмотрены голоса Qwen3-TTS: их особенности, почему они хорошо подходят для чтения больших материалов, а также способ их подключения к Speech Central через канал передачи данных OpenAI.

Чем интересны голоса Qwen3-TTS

Многие решения в области синтеза речи с открытым исходным кодом подходят для чтения коротких отрывков информации, однако при воспроизведении более долгих фрагментов проявляются проблемы стабильности темпа, последовательности произношения и странной изменчивости интонации между абзацами. Qwen3-TTS разработан с учетом подобных ошибок, что делает его подходящим в использовании с приложениями для чтения контента.

Основные характеристики:

Повышенная стабильность при воспроизведении длинных текстов (темп и межфразовая связность).
Поддержка потоковой генерации в целях непрерывного воспроизведения.
Поддержка множества языков (в зависимости от модели и голосового пакета).
Клонирование и создание голоса (зависит от настроек).
Возможность развёртывания через API, совместимый с OpenAI, с помощью оболочки или шлюза. Для пользователей Speech Central важно, что нативная поддержка Qwen в программе не требуется. Достаточно наличие сервера, предоставляющего совместимый TTS API от OpenAI и правильно сопоставляющего голоса.

Как работает слой совместимости OpenAI

Speech Central взаимодействует с каналами передачи данных TTS от OpenAI через стандартную схему запросов и ответов (например, /v1/audio/speech). Qwen3-TTS представляет собой семейство моделей и обычно требует дополнительного серверного пространства для работы с веб-API.

Распространённые варианты реализации:

Оболочки на базе FastAPI, эмулирующие маршруты OpenAI TTS.
Развертывание через vLLM (если доступно).
Шлюзы, переводящие запросы OpenAI в логические цепочки, характерные для Qwen3. После запуска подобной оболочки Speech Central использует её аналогично сервису OpenAI.

Аспекты развертывания и как Qwen3 работает на практике

Для работы Qwen3-TTS в реальном времени сервер должен генерировать аудио быстрее, чем происходит воспроизведение. При недостаточной производительности во время ожидания системой новых аудио фрагментов возможны паузы.

Рекомендуемые сценарии использования:

Наилучший вариант — сервер с GPU (локальный или облачный).
Допустимый, но менее стабильный — мощный настольный компьютер. При данном раскладе нужно будет работать с облегчёнными моделями, а также длина читаемого текста должна быть меньшей, чем можно себе позволить.
Для нескольких устройств предпочтителен специально выделенный сервер, а не размещение на смартфоне или ноутбуке. Если вы тестируете голоса на локальном сервере, и у вас возникают задержки, рекомендуется включить режим потоковой передачи данных на сервере, использовать компактную модель или задействовать систему с более производительным GPU.

Подключение Qwen3-TTS к Speech Central

После того, как вы запустили сервер, на котором будет работать Qwen3-TTS, и где есть канал передачи данных OpenAI, сделайте следующее:

Откройте настройки Speech Central.
Перейдите в раздел «Речь», далее «Голоса».
Нажмите кнопку «Меню панели инструментов» и выберете OpenAI.
Укажите URL сервера (например, http://192.168.1.10:8000).
Введите ключ API, если сервер требует аутентификацию. Важно: OpenAI использует определённый набор назначенных имён голосов и не предоставляет API для получения списка голосов с сервера. Поскольку Speech Central работает по такой же модели, совместимая оболочка OpenAI сопоставляет голоса Qwen с одним из стандартных голосовых слотов OpenAI.

На практике это означает, что при выборе, например, голоса «Alloy» в интерфейсе Speech Central сервер может назвать его, скажем, Qwen Voice A. Совместимость названий моделей (или если воспроизведение не начинается).

По умолчанию Speech Central использует актуальное название модели OpenAI TTS (её название может меняться). Некоторые оболочки, совместимые с OpenAI, показывают устаревшие идентификаторы моделей.

Если соединение установлено, но воспроизведение не начинается, рекомендуется:

Указать модель tts-1 в настройках OpenAI.
Проверить серверные логи на предмет отклонённых имён моделей.
Убедиться, что оболочка поддерживает поля запроса, отправляемые Speech Central. Некоторые оболочки полностью игнорируют поле model и выбирают модель или голос локально, что повышает надёжность конфигурации при подключении Speech Central.

Что в итоге

Если вы часто читаете объёмные документы, длинные статьи или другие подобные материалы, то голоса Qwen3 стоит попробовать.

Перевёл Владислав Бондаренко

Источник: speechcentral.net