Документация
Полное руководство по использованию ConeTTS
Начало работы
TTS-движки
Клонирование голоса
Словари произношения
Голосовой ввод
Горячие клавиши
Форматы файлов
Офлайн режим
🚀 Быстрый старт
1. Системные требования
| Компонент | Минимум | Рекомендуется |
|---|---|---|
| ОС | Windows 10 | Windows 11 (Mica эффекты) |
| RAM | 4 GB | 8+ GB |
| Диск | 2 GB | 10+ GB (для моделей) |
| GPU | — | NVIDIA RTX 3060+ (6 GB VRAM) |
2. Способы установки
🎯 Установщик (рекомендуется)
- Скачайте ConeTTS_Setup.exe
- Запустите установщик
- Выберите папку и компоненты
- Готово!
📦 Портативная версия
- Скачайте ConeTTS_Portable.zip
- Распакуйте в любую папку
- Запустите ConeTTS.exe
3. Первый запуск
- Путеводитель — при первом запуске откроется интерактивный 8-шаговый тур по интерфейсу
- Загрузка модели — программа автоматически скачает Chatterbox TTS (~2 GB)
- Выбор голоса — выберите образец голоса из библиотеки или загрузите свой
- Первый синтез — введите текст и нажмите «Озвучить» или Ctrl+Enter
💡 Совет
Путеводитель можно запустить повторно: Помощь → Путеводитель по интерфейсу
4. Обзор интерфейса
- Панель редактора — основное текстовое поле для ввода текста
- Панель голоса (справа) — выбор и настройка голоса
- Панель словаря (слева) — просмотр и редактирование замен
- Панель истории (внизу) — история генераций и воспроизведение
- Кнопка 🎤 — запись голоса для клонирования или голосовой ввод
🎙️ TTS-движки
Chatterbox TTS (Основной) — MIT License ✅
- 23 языка включая русский, английский, китайский, японский
- Zero-shot клонирование голоса с одного образца
- Параметр CFG (0.0-1.0) для точности клонирования
- Коммерческое использование полностью разрешено
F5-TTS (Дополнительный) — CC-BY-NC-4.0 ⚠️
- Высокое качество для русского и китайского языков
- DiT архитектура (Diffusion Transformer)
- Только для некоммерческого использования
- Доступен через Менеджер моделей
Выбор движка
| Сценарий | Рекомендация |
|---|---|
| YouTube, подкасты, коммерция | Chatterbox (MIT) |
| Мультиязычный контент | Chatterbox (23 языка) |
| Максимальное качество RU | F5-TTS (личное использование) |
| Озвучка игры (indie) | Chatterbox (MIT) |
🎤 Клонирование голоса
Подготовка образца
✓ Хороший образец
- • 10-30 секунд чистой речи
- • Один голос, без музыки и шума
- • Естественная интонация
- • Формат: WAV, MP3, M4A, FLAC
✗ Плохой образец
- • Менее 5 секунд
- • Фоновая музыка или шум
- • Несколько голосов
- • Сильная компрессия / низкое качество
Создание клона
- Откройте панель «Голос» справа
- Нажмите «Загрузить образец» или перетащите файл
- Или запишите голос с микрофона кнопкой 🎤
- Настройте параметр CFG (см. ниже)
- Введите текст и нажмите «Озвучить»
Параметр CFG (Classifier-Free Guidance)
CFG контролирует, насколько точно синтезированный голос соответствует образцу:
| Значение | Скорость | Точность | Когда использовать |
|---|---|---|---|
| 0.0 | ⚡ Быстро | Низкая | Черновики, тесты |
| 0.3-0.5 | ⚖️ Средне | Хорошая | Обычная работа |
| 0.7-1.0 | 🐢 Медленно | Высокая | Финальный продакшн |
🎙️ Голосовой ввод (Whisper)
ConeTTS использует локальную модель Whisper для распознавания речи. Ваш голос не отправляется в интернет — всё обрабатывается на вашем компьютере.
Как использовать
- Нажмите кнопку 🎤 в правом нижнем углу редактора
- Говорите в микрофон
- Нажмите кнопку ещё раз для остановки
- Распознанный текст появится в редакторе
Настройки Whisper
Откройте Настройки → TTS → Голосовой ввод (Whisper):
- Язык распознавания: auto / ru / en / по системе
- Модель: tiny (быстро) → large (точно)
- Compute type: float16 (GPU) / int8 (CPU)
- Live dictation: показывать текст во время записи
💡 Совет
Положите модель Whisper в папку models/whisper/ для офлайн-работы. Поддерживаются форматы openai-whisper (.pt) и faster-whisper (папка с model.bin).
📖 Словари произношения
Умный словарь ConeTTS содержит 18,500+ записей для коррекции произношения аббревиатур, имён собственных, технических терминов и числительных.
Как работает
- При синтезе текст автоматически проходит через словарь
- Найденные слова заменяются на фонетические варианты
- В редакторе замены подсвечиваются в реальном времени
Синтаксис правил
Импорт / Экспорт
Словари хранятся в папке dictionaries/ в формате .dic. Вы можете редактировать их вручную или через панель «Словарь» в программе.
⌨️ Горячие клавиши
Основные команды
| Ctrl+Enter | Озвучить текст |
| Ctrl+O | Открыть файл |
| Ctrl+S | Сохранить аудио |
| Ctrl+, | Настройки |
Воспроизведение
| Space | Пауза / Продолжить |
| Esc | Остановить синтез |
| ← / → | Перемотка ±5 сек |
📄 Форматы файлов
Текстовые форматы (импорт)
- TXT — простой текст
- FB2 — книги FictionBook
- EPUB — электронные книги
- PDF — документы (извлечение текста)
- DOCX — документы Word
- HTML — веб-страницы
- MD — Markdown
- RTF — Rich Text Format
Аудио форматы (экспорт)
- WAV — без сжатия (для монтажа)
- MP3 — сжатый (для YouTube)
- FLAC — lossless (для архива)
📁 Drag & Drop
Перетащите файл прямо в окно программы для быстрого открытия. Работает с текстовыми файлами и аудио-образцами голоса.
📴 Офлайн режим
ConeTTS работает полностью офлайн после загрузки моделей. Ваши тексты и голоса никуда не отправляются — всё обрабатывается локально.
Расположение моделей
| Папка | Содержимое |
|---|---|
| models/chatterbox/ | Основной TTS-движок (~2 GB) |
| models/f5_tts/ | Русские модели F5-TTS |
| models/whisper/ | Модели распознавания речи |
| models/vocoder/ | Вокодер для синтеза |
Поддерживаемые языки (Chatterbox)
⚙️ Настройки
Параметры синтеза Chatterbox
- Скорость (0.5x — 2.0x) — темп речи
- Качество / CFG (0.0 — 1.0) — точность клонирования
- Экспрессия — эмоциональность голоса
GPU ускорение
🎮 CUDA (NVIDIA)
- • Требуется 6+ GB VRAM
- • Синтез в 5-10x быстрее
- • RTX 3060+ рекомендуется
💻 CPU режим
- • Работает на любом ПК
- • Синтез медленнее
- • 8+ GB RAM рекомендуется
Темы оформления
- Авто — следует системной теме
- Тёмная — щадит глаза при работе ночью
- Светлая — классический вид
- Mica эффекты — полупрозрачность (Windows 11)