Документация

Путеводитель — при первом запуске откроется интерактивный 8-шаговый тур по интерфейсу
Загрузка модели — программа автоматически скачает Chatterbox TTS (~2 GB)
Выбор голоса — выберите образец голоса из библиотеки или загрузите свой
Первый синтез — введите текст и нажмите «Озвучить» или Ctrl+Enter

💡 Совет

Путеводитель можно запустить повторно: Помощь → Путеводитель по интерфейсу

4. Обзор интерфейса

Панель редактора — основное текстовое поле для ввода текста
Панель голоса (справа) — выбор и настройка голоса
Панель словаря (слева) — просмотр и редактирование замен
Панель истории (внизу) — история генераций и воспроизведение
Кнопка 🎤 — запись голоса для клонирования или голосовой ввод

🎙️ TTS-движки

Chatterbox TTS (Основной) — MIT License ✅

23 языка включая русский, английский, китайский, японский
Zero-shot клонирование голоса с одного образца
Параметр CFG (0.0-1.0) для точности клонирования
Коммерческое использование полностью разрешено

F5-TTS (Дополнительный) — CC-BY-NC-4.0 ⚠️

Высокое качество для русского и китайского языков
DiT архитектура (Diffusion Transformer)
Только для некоммерческого использования
Доступен через Менеджер моделей

Выбор движка

Сценарий	Рекомендация
YouTube, подкасты, коммерция	Chatterbox (MIT)
Мультиязычный контент	Chatterbox (23 языка)
Максимальное качество RU	F5-TTS (личное использование)
Озвучка игры (indie)	Chatterbox (MIT)

🎤 Клонирование голоса

Подготовка образца

✓ Хороший образец

• 10-30 секунд чистой речи
• Один голос, без музыки и шума
• Естественная интонация
• Формат: WAV, MP3, M4A, FLAC

✗ Плохой образец

• Менее 5 секунд
• Фоновая музыка или шум
• Несколько голосов
• Сильная компрессия / низкое качество

Создание клона

Откройте панель «Голос» справа
Нажмите «Загрузить образец» или перетащите файл
Или запишите голос с микрофона кнопкой 🎤
Настройте параметр CFG (см. ниже)
Введите текст и нажмите «Озвучить»

Параметр CFG (Classifier-Free Guidance)

CFG контролирует, насколько точно синтезированный голос соответствует образцу:

Значение	Скорость	Точность	Когда использовать
0.0	⚡ Быстро	Низкая	Черновики, тесты
0.3-0.5	⚖️ Средне	Хорошая	Обычная работа
0.7-1.0	🐢 Медленно	Высокая	Финальный продакшн

🎙️ Голосовой ввод (Whisper)

ConeTTS использует локальную модель Whisper для распознавания речи. Ваш голос не отправляется в интернет — всё обрабатывается на вашем компьютере.

Как использовать

Нажмите кнопку 🎤 в правом нижнем углу редактора
Говорите в микрофон
Нажмите кнопку ещё раз для остановки
Распознанный текст появится в редакторе

Настройки Whisper

Откройте Настройки → TTS → Голосовой ввод (Whisper):

Язык распознавания: auto / ru / en / по системе
Модель: tiny (быстро) → large (точно)
Compute type: float16 (GPU) / int8 (CPU)
Live dictation: показывать текст во время записи

💡 Совет

Положите модель Whisper в папку models/whisper/ для офлайн-работы. Поддерживаются форматы openai-whisper (.pt) и faster-whisper (папка с model.bin).

📖 Словари произношения

Умный словарь ConeTTS содержит 18,500+ записей для коррекции произношения аббревиатур, имён собственных, технических терминов и числительных.

Как работает

При синтезе текст автоматически проходит через словарь
Найденные слова заменяются на фонетические варианты
В редакторе замены подсвечиваются в реальном времени

Синтаксис правил

# Формат: слово=замена

API=эй-пи-ай

GitHub=гитхаб

$=долларов

км/ч=километров в час

Импорт / Экспорт

Словари хранятся в папке dictionaries/ в формате .dic. Вы можете редактировать их вручную или через панель «Словарь» в программе.

⌨️ Горячие клавиши

Основные команды

`Ctrl+Enter`	Озвучить текст
`Ctrl+O`	Открыть файл
`Ctrl+S`	Сохранить аудио
`Ctrl+,`	Настройки

Воспроизведение

`Space`	Пауза / Продолжить
`Esc`	Остановить синтез
`←` / `→`	Перемотка ±5 сек

📄 Форматы файлов

Текстовые форматы (импорт)

TXT — простой текст
FB2 — книги FictionBook
EPUB — электронные книги
PDF — документы (извлечение текста)
DOCX — документы Word
HTML — веб-страницы
MD — Markdown
RTF — Rich Text Format

Аудио форматы (экспорт)

WAV — без сжатия (для монтажа)
MP3 — сжатый (для YouTube)
FLAC — lossless (для архива)

📁 Drag & Drop

Перетащите файл прямо в окно программы для быстрого открытия. Работает с текстовыми файлами и аудио-образцами голоса.

📴 Офлайн режим

ConeTTS работает полностью офлайн после загрузки моделей. Ваши тексты и голоса никуда не отправляются — всё обрабатывается локально.

Расположение моделей

Папка	Содержимое
models/chatterbox/	Основной TTS-движок (~2 GB)
models/f5_tts/	Русские модели F5-TTS
models/whisper/	Модели распознавания речи
models/vocoder/	Вокодер для синтеза

Поддерживаемые языки (Chatterbox)

🇷🇺 Русский🇬🇧 English🇨🇳 中文🇯🇵 日本語🇰🇷 한국어🇪🇸 Español🇫🇷 Français🇩🇪 Deutsch🇮🇹 Italiano🇵🇹 Português🇸🇦 العربية🇮🇱 עברית🇮🇳 हिंदी🇹🇷 Türkçe🇵🇱 Polski🇳🇱 Nederlands🇬🇷 Ελληνικά🇩🇰 Dansk🇳🇴 Norsk🇸🇪 Svenska🇫🇮 Suomi🇲🇾 Malay🇰🇪 Swahili

⚙️ Настройки

Параметры синтеза Chatterbox

Скорость (0.5x — 2.0x) — темп речи
Качество / CFG (0.0 — 1.0) — точность клонирования
Экспрессия — эмоциональность голоса

GPU ускорение

🎮 CUDA (NVIDIA)

• Требуется 6+ GB VRAM
• Синтез в 5-10x быстрее
• RTX 3060+ рекомендуется

💻 CPU режим

• Работает на любом ПК
• Синтез медленнее
• 8+ GB RAM рекомендуется

Темы оформления

Авто — следует системной теме
Тёмная — щадит глаза при работе ночью
Светлая — классический вид
Mica эффекты — полупрозрачность (Windows 11)

Не нашли ответ?

Загляните в FAQ или свяжитесь с нашей поддержкой

Читать FAQ Написать в поддержку