Часто задаваемые вопросы

Здесь вы найдёте ответы на самые популярные вопросы о ConeTTS

Общие вопросы

Что такое ConeTTS?

ConeTTS — это продуманная офлайн-студия синтеза речи (Text-to-Speech). Программа позволяет преобразовывать текст в естественную речь, клонировать голоса и работать полностью без интернета. Основной движок — Chatterbox TTS с лицензией MIT.

Нужен ли интернет для работы?

Нет! ConeTTS работает полностью офлайн после установки. Интернет нужен только для первоначального скачивания программы и моделей.

Какие языки поддерживаются?

Основной движок Chatterbox TTS поддерживает 23 языка: английский, арабский, голландский, греческий, датский, иврит, испанский, итальянский, китайский, корейский, малайский, немецкий, норвежский, польский, португальский, русский, суахили, турецкий, финский, французский, хинди, шведский, японский. Все языки поддерживают zero-shot клонирование голоса.

Технические требования

Какой компьютер нужен для работы?

Минимальные требования: Windows 10/11 (64-bit), 8 GB RAM, 4 GB свободного места. Для комфортной работы рекомендуется 16 GB RAM и видеокарта NVIDIA с 6+ GB VRAM.

Работает ли программа без видеокарты NVIDIA?

Да, программа работает на CPU, но синтез будет значительно медленнее (примерно в 10-20 раз). Для комфортной работы рекомендуется GPU с поддержкой CUDA.

Сколько места занимают модели?

Модель Chatterbox TTS занимает около 2 GB. Дополнительные модели (F5-TTS, Whisper для голосового ввода) могут занять ещё 2-4 GB.

Клонирование голоса

Как клонировать голос?

Загрузите 10-30 секунд чистого аудио с нужным голосом (без фоновой музыки и шума), и ConeTTS создаст цифровую копию для синтеза. Чем качественнее образец, тем лучше результат. Параметр CFG (0.0-1.0) контролирует точность клонирования.

Какой формат аудио нужен для клонирования?

Поддерживаются WAV, MP3, FLAC, OGG форматы. Рекомендуется использовать WAV с частотой дискретизации 24 kHz или выше.

Можно ли клонировать голос без согласия человека?

Мы настоятельно рекомендуем получать согласие перед клонированием чужого голоса. Неправомерное использование технологии клонирования может нарушать законы о защите персональных данных.

TTS-движки

Чем отличаются Chatterbox и F5-TTS?

Chatterbox TTS — основной движок с лицензией MIT (можно использовать коммерчески), поддерживает 23 языка. F5-TTS — дополнительный движок с лицензией CC-BY-NC (только для некоммерческого использования), отличается высоким качеством синтеза для русского и китайского.

Какой движок выбрать?

Для коммерческих проектов используйте Chatterbox (MIT лицензия). Для личных проектов с фокусом на качество русской речи попробуйте F5-TTS. Движок можно переключить в настройках программы.

Что такое параметр Exaggeration?

Exaggeration (экспрессия) — уникальная функция Chatterbox TTS, позволяющая управлять эмоциональностью речи. Значение 0.5 — нейтральное, 0.7+ — драматичная/экспрессивная речь. Увеличение этого параметра ускоряет речь.

Что такое параметр CFG?

CFG (Classifier-Free Guidance) контролирует точность клонирования голоса. Значение 0.5 — стандартное. Если образец голоса говорит быстро, попробуйте уменьшить до 0.3. Для экспрессивной речи используйте CFG ~0.3 с высоким Exaggeration.

Лицензирование

Можно ли использовать созданные аудио коммерчески?

Да! При использовании движка Chatterbox (MIT лицензия) вы можете использовать созданные аудио в коммерческих проектах без ограничений. F5-TTS имеет лицензию CC-BY-NC и разрешён только для некоммерческого использования.

Чем отличаются PRO и Lifetime версии?

PRO — годовая подписка с полным функционалом. Lifetime — единоразовая покупка с вечной лицензией и всеми будущими обновлениями.

Как активировать лицензию?

После покупки вы получите лицензионный ключ на email. Введите его в разделе "Настройки → Лицензия" в программе или на странице активации на сайте.

Не нашли ответ на свой вопрос?

Напишите нам, и мы обязательно поможем!

Написать в поддержку