Вернуться на главную

Документация

Полное руководство по использованию ConeTTS

🚀 Быстрый старт

1. Системные требования

КомпонентМинимумРекомендуется
ОСWindows 10Windows 11 (Mica эффекты)
RAM4 GB8+ GB
Диск2 GB10+ GB (для моделей)
GPUNVIDIA RTX 3060+ (6 GB VRAM)

2. Способы установки

🎯 Установщик (рекомендуется)

  1. Скачайте ConeTTS_Setup.exe
  2. Запустите установщик
  3. Выберите папку и компоненты
  4. Готово!

📦 Портативная версия

  1. Скачайте ConeTTS_Portable.zip
  2. Распакуйте в любую папку
  3. Запустите ConeTTS.exe

3. Первый запуск

  1. Путеводитель — при первом запуске откроется интерактивный 8-шаговый тур по интерфейсу
  2. Загрузка модели — программа автоматически скачает Chatterbox TTS (~2 GB)
  3. Выбор голоса — выберите образец голоса из библиотеки или загрузите свой
  4. Первый синтез — введите текст и нажмите «Озвучить» или Ctrl+Enter

💡 Совет

Путеводитель можно запустить повторно: Помощь → Путеводитель по интерфейсу

4. Обзор интерфейса

  • Панель редактора — основное текстовое поле для ввода текста
  • Панель голоса (справа) — выбор и настройка голоса
  • Панель словаря (слева) — просмотр и редактирование замен
  • Панель истории (внизу) — история генераций и воспроизведение
  • Кнопка 🎤 — запись голоса для клонирования или голосовой ввод

🎙️ TTS-движки

Chatterbox TTS (Основной) — MIT License ✅

  • 23 языка включая русский, английский, китайский, японский
  • Zero-shot клонирование голоса с одного образца
  • Параметр CFG (0.0-1.0) для точности клонирования
  • Коммерческое использование полностью разрешено

F5-TTS (Дополнительный) — CC-BY-NC-4.0 ⚠️

  • Высокое качество для русского и китайского языков
  • DiT архитектура (Diffusion Transformer)
  • Только для некоммерческого использования
  • Доступен через Менеджер моделей

Выбор движка

СценарийРекомендация
YouTube, подкасты, коммерцияChatterbox (MIT)
Мультиязычный контентChatterbox (23 языка)
Максимальное качество RUF5-TTS (личное использование)
Озвучка игры (indie)Chatterbox (MIT)

🎤 Клонирование голоса

Подготовка образца

✓ Хороший образец

  • • 10-30 секунд чистой речи
  • • Один голос, без музыки и шума
  • • Естественная интонация
  • • Формат: WAV, MP3, M4A, FLAC

✗ Плохой образец

  • • Менее 5 секунд
  • • Фоновая музыка или шум
  • • Несколько голосов
  • • Сильная компрессия / низкое качество

Создание клона

  1. Откройте панель «Голос» справа
  2. Нажмите «Загрузить образец» или перетащите файл
  3. Или запишите голос с микрофона кнопкой 🎤
  4. Настройте параметр CFG (см. ниже)
  5. Введите текст и нажмите «Озвучить»

Параметр CFG (Classifier-Free Guidance)

CFG контролирует, насколько точно синтезированный голос соответствует образцу:

ЗначениеСкоростьТочностьКогда использовать
0.0⚡ БыстроНизкаяЧерновики, тесты
0.3-0.5⚖️ СреднеХорошаяОбычная работа
0.7-1.0🐢 МедленноВысокаяФинальный продакшн

🎙️ Голосовой ввод (Whisper)

ConeTTS использует локальную модель Whisper для распознавания речи. Ваш голос не отправляется в интернет — всё обрабатывается на вашем компьютере.

Как использовать

  1. Нажмите кнопку 🎤 в правом нижнем углу редактора
  2. Говорите в микрофон
  3. Нажмите кнопку ещё раз для остановки
  4. Распознанный текст появится в редакторе

Настройки Whisper

Откройте Настройки → TTS → Голосовой ввод (Whisper):

  • Язык распознавания: auto / ru / en / по системе
  • Модель: tiny (быстро) → large (точно)
  • Compute type: float16 (GPU) / int8 (CPU)
  • Live dictation: показывать текст во время записи

💡 Совет

Положите модель Whisper в папку models/whisper/ для офлайн-работы. Поддерживаются форматы openai-whisper (.pt) и faster-whisper (папка с model.bin).

📖 Словари произношения

Умный словарь ConeTTS содержит 18,500+ записей для коррекции произношения аббревиатур, имён собственных, технических терминов и числительных.

Как работает

  1. При синтезе текст автоматически проходит через словарь
  2. Найденные слова заменяются на фонетические варианты
  3. В редакторе замены подсвечиваются в реальном времени

Синтаксис правил

# Формат: слово=замена
API=эй-пи-ай
GitHub=гитхаб
$=долларов
км/ч=километров в час

Импорт / Экспорт

Словари хранятся в папке dictionaries/ в формате .dic. Вы можете редактировать их вручную или через панель «Словарь» в программе.

⌨️ Горячие клавиши

Основные команды

Ctrl+EnterОзвучить текст
Ctrl+OОткрыть файл
Ctrl+SСохранить аудио
Ctrl+,Настройки

Воспроизведение

SpaceПауза / Продолжить
EscОстановить синтез
/ Перемотка ±5 сек

📄 Форматы файлов

Текстовые форматы (импорт)

  • TXT — простой текст
  • FB2 — книги FictionBook
  • EPUB — электронные книги
  • PDF — документы (извлечение текста)
  • DOCX — документы Word
  • HTML — веб-страницы
  • MD — Markdown
  • RTF — Rich Text Format

Аудио форматы (экспорт)

  • WAV — без сжатия (для монтажа)
  • MP3 — сжатый (для YouTube)
  • FLAC — lossless (для архива)

📁 Drag & Drop

Перетащите файл прямо в окно программы для быстрого открытия. Работает с текстовыми файлами и аудио-образцами голоса.

📴 Офлайн режим

ConeTTS работает полностью офлайн после загрузки моделей. Ваши тексты и голоса никуда не отправляются — всё обрабатывается локально.

Расположение моделей

ПапкаСодержимое
models/chatterbox/Основной TTS-движок (~2 GB)
models/f5_tts/Русские модели F5-TTS
models/whisper/Модели распознавания речи
models/vocoder/Вокодер для синтеза

Поддерживаемые языки (Chatterbox)

🇷🇺 Русский🇬🇧 English🇨🇳 中文🇯🇵 日本語🇰🇷 한국어🇪🇸 Español🇫🇷 Français🇩🇪 Deutsch🇮🇹 Italiano🇵🇹 Português🇸🇦 العربية🇮🇱 עברית🇮🇳 हिंदी🇹🇷 Türkçe🇵🇱 Polski🇳🇱 Nederlands🇬🇷 Ελληνικά🇩🇰 Dansk🇳🇴 Norsk🇸🇪 Svenska🇫🇮 Suomi🇲🇾 Malay🇰🇪 Swahili

⚙️ Настройки

Параметры синтеза Chatterbox

  • Скорость (0.5x — 2.0x) — темп речи
  • Качество / CFG (0.0 — 1.0) — точность клонирования
  • Экспрессия — эмоциональность голоса

GPU ускорение

🎮 CUDA (NVIDIA)

  • • Требуется 6+ GB VRAM
  • • Синтез в 5-10x быстрее
  • • RTX 3060+ рекомендуется

💻 CPU режим

  • • Работает на любом ПК
  • • Синтез медленнее
  • • 8+ GB RAM рекомендуется

Темы оформления

  • Авто — следует системной теме
  • Тёмная — щадит глаза при работе ночью
  • Светлая — классический вид
  • Mica эффекты — полупрозрачность (Windows 11)

Не нашли ответ?

Загляните в FAQ или свяжитесь с нашей поддержкой