Вернуться на главную

Часто задаваемые вопросы

Здесь вы найдёте ответы на самые популярные вопросы о ConeTTS

Общие вопросы

Что такое ConeTTS?
ConeTTS — это профессиональная офлайн-студия синтеза речи (Text-to-Speech). Программа позволяет преобразовывать текст в естественную речь, клонировать голоса и работать полностью без интернета. Основной движок — Chatterbox TTS с лицензией MIT.
Нужен ли интернет для работы?
Нет! ConeTTS работает полностью офлайн после установки. Интернет нужен только для первоначального скачивания программы и моделей.
Какие языки поддерживаются?
Основной движок Chatterbox TTS поддерживает 23 языка: английский, арабский, голландский, греческий, датский, иврит, испанский, итальянский, китайский, корейский, малайский, немецкий, норвежский, польский, португальский, русский, суахили, турецкий, финский, французский, хинди, шведский, японский. Все языки поддерживают zero-shot клонирование голоса.

Технические требования

Какой компьютер нужен для работы?
Минимальные требования: Windows 10/11 (64-bit), 8 GB RAM, 4 GB свободного места. Для комфортной работы рекомендуется 16 GB RAM и видеокарта NVIDIA с 6+ GB VRAM.
Работает ли программа без видеокарты NVIDIA?
Да, программа работает на CPU, но синтез будет значительно медленнее (примерно в 10-20 раз). Для комфортной работы рекомендуется GPU с поддержкой CUDA.
Сколько места занимают модели?
Модель Chatterbox TTS занимает около 2 GB. Дополнительные модели (F5-TTS, Whisper для голосового ввода) могут занять ещё 2-4 GB.

Клонирование голоса

Как клонировать голос?
Загрузите 10-30 секунд чистого аудио с нужным голосом (без фоновой музыки и шума), и ConeTTS создаст цифровую копию для синтеза. Чем качественнее образец, тем лучше результат. Параметр CFG (0.0-1.0) контролирует точность клонирования.
Какой формат аудио нужен для клонирования?
Поддерживаются WAV, MP3, FLAC, OGG форматы. Рекомендуется использовать WAV с частотой дискретизации 24 kHz или выше.
Можно ли клонировать голос без согласия человека?
Мы настоятельно рекомендуем получать согласие перед клонированием чужого голоса. Неправомерное использование технологии клонирования может нарушать законы о защите персональных данных.

TTS-движки

Чем отличаются Chatterbox и F5-TTS?
Chatterbox TTS — основной движок с лицензией MIT (можно использовать коммерчески), поддерживает 23 языка. F5-TTS — дополнительный движок с лицензией CC-BY-NC (только для некоммерческого использования), отличается высоким качеством синтеза для русского и китайского.
Какой движок выбрать?
Для коммерческих проектов используйте Chatterbox (MIT лицензия). Для личных проектов с фокусом на качество русской речи попробуйте F5-TTS. Движок можно переключить в настройках программы.
Что такое параметр Exaggeration?
Exaggeration (экспрессия) — уникальная функция Chatterbox TTS, позволяющая управлять эмоциональностью речи. Значение 0.5 — нейтральное, 0.7+ — драматичная/экспрессивная речь. Увеличение этого параметра ускоряет речь.
Что такое параметр CFG?
CFG (Classifier-Free Guidance) контролирует точность клонирования голоса. Значение 0.5 — стандартное. Если образец голоса говорит быстро, попробуйте уменьшить до 0.3. Для экспрессивной речи используйте CFG ~0.3 с высоким Exaggeration.

Лицензирование

Можно ли использовать созданные аудио коммерчески?
Да! При использовании движка Chatterbox (MIT лицензия) вы можете использовать созданные аудио в коммерческих проектах без ограничений. F5-TTS имеет лицензию CC-BY-NC и разрешён только для некоммерческого использования.
Чем отличаются PRO и Lifetime версии?
PRO — годовая подписка с полным функционалом. Lifetime — единоразовая покупка с вечной лицензией и всеми будущими обновлениями.
Как активировать лицензию?
После покупки вы получите лицензионный ключ на email. Введите его в разделе "Настройки → Лицензия" в программе или на странице активации на сайте.

Не нашли ответ на свой вопрос?

Напишите нам, и мы обязательно поможем!

Написать в поддержку