Andrey Fedichkin в 21:54, 8 мая 2025

2025-05-08T21:54:23Z

← Предыдущая версия		Версия от 21:54, 8 мая 2025
Строка 24:		Строка 24:

	Словом, в области синтеза речи ещё существует множество интересных задач, которые ждут своих исследователей.		Словом, в области синтеза речи ещё существует множество интересных задач, которые ждут своих исследователей.
			<references />
	<comments />		<comments />

Andrey Fedichkin в 20:41, 8 мая 2025

2025-05-08T20:41:12Z

← Предыдущая версия		Версия от 20:41, 8 мая 2025
Строка 24:		Строка 24:

	Словом, в области синтеза речи ещё существует множество интересных задач, которые ждут своих исследователей.		Словом, в области синтеза речи ещё существует множество интересных задач, которые ждут своих исследователей.
			<comments />

Andrey Fedichkin: Новая страница: « Развитие технологий не стоит на месте, и сегодня исследования в области синтеза речи ведутся в нескольких направлениях. Рассмотрим некоторые из них. Одним из важных требований, предъявляемых к TTS-системам, яв...»

2025-04-06T11:38:16Z

Новая страница: «<span id="направления-новых-исследований"></span> Развитие технологий не стоит на месте, и сегодня исследования в области синтеза речи ведутся в нескольких направлениях. Рассмотрим некоторые из них. Одним из важных требований, предъявляемых к TTS-системам, яв...»

Новая страница

<span id="направления-новых-исследований"></span>

Развитие технологий не стоит на месте, и сегодня исследования в области синтеза речи ведутся в нескольких направлениях. Рассмотрим некоторые из них.

Одним из важных требований, предъявляемых к TTS-системам, является возможность гибкого управления параметрами синтезируемой речи. Вот некоторые из таких параметров.

'''1. Темп речи'''. Для управления темпом речи могут использоваться алгоритмы семейства PSOLA (Pitch Synchronous Overlap and Add, Синхронное пересечение и добавление высот)<ref>Charpentier F., Stella M. (1986). Diphone synthesis using an overlap-add technique for speech waveforms concatenation / ICASSP '86. IEEE International Conference on Acoustics, Speech, and Signal Processing, Vol. 11, pp. 2015—2018 // https://doi.org/10.1109/ICASSP.1986.1168657</ref>, известные с конца 1980-х гг. Они позволяют изменить темп, не меняя тональность звука. Однако при существенном изменении темпа при помощи таких алгоритмов возможно появление слышимых звуковых артефактов, поэтому возможность задания темпа речи напрямую в TTS-модели является предпочтительным инструментом.

'''2. Ударения'''. Если текстовые метки в корпусе, используемом для обучения модели, не содержат в явном виде проставленных ударений, модель научится их ставить на собственное усмотрение. Проблема заключается в том, что в этой части она будет неуправляема. В случае если модель поставит при произнесении ударение в неправильном месте, у вас просто не будет инструмента для исправления этой ошибки. К счастью, эта проблема решается относительно просто — необходимо расставить ударения в тексте и обучить отдельную модель для расстановки ударений в случае их отсутствия.

'''3. Смысловые ударения'''. «Ты пойдёшь завтра со мной в ''кафе''?», «Ты пойдёшь завтра ''со мной'' в кафе?», «Ты пойдёшь ''завтра'' со мной в кафе?», «Ты ''пойдёшь'' завтра со мной в кафе?», «''Ты'' пойдёшь завтра со мной в кафе?» — эти вопросы не только имеют разные оттенки смысла, они различаются при произнесении вслух. Чтобы решить эту проблему, также необходима дополнительная разметка текстов.

'''4. Вопросительные и восклицательные интонации'''. В целом модели неплохо «понимают», как наличие восклицательного или вопросительного знака в конце предложения влияет на интонацию, с которой это предложение произносится. Однако для того, чтобы они выработали такое «понимание», в обучающей выборке должно быть достаточное количество вопросительных и восклицательных предложений. Кроме того, интонация в вопросительном предложении сильно зависит от смыслового ударения.

'''5. Протяжённость слогов и пение.''' Добавив к фонемам их длительность и тон, можно получить модель, способную не только разговаривать, но и петь. Поющие модели — одно из весьма популярных направлений исследований в наши дни. К числу таких моделей относятся, например, XiaoiceSing<ref>Lu P., Wu J., Luan J., Tan X., Zhou L. (2020). XiaoiceSing: A High-Quality and Integrated Singing Voice Synthesis System // https://arxiv.org/abs/2006.06261</ref> и Mellotron<ref>Valle R., Li J., Prenger R., Catanzaro B. (2019). Mellotron: Multispeaker expressive voice synthesis by conditioning on rhythm, pitch and global style tokens // https://arxiv.org/abs/1910.11997</ref>.

'''6. Эмоциональная окраска речи'''. Эта задача также может<ref>Lee Y., Rabiee A., Lee S.-Y. (2017). Emotional End-to-End Neural Speech synthesizer // https://arxiv.org/abs/1711.05447</ref> быть решена при помощи специализированной разметки. Однако, в отличие от упомянутых выше параметров, здесь разметка осложнена тем, что оценка эмоциональной окраски слов довольно субъективна.

Чтобы избавиться от субъективного характера стилистической разметки, были предложены модели, способные в режиме обучения без учителя выучивать для каждой фразы некоторые стилистические векторы. К их числу относятся такие модели, как Tacotron TP‑GST (Text-Predicted Global Style Tokens, Глобальные стилевые токены, предсказанные на основе текста)<ref>Stanton D., Wang Y., Skerry-Ryan RJ. (2018). Predicting expressive speaking style from text in end-to-end speech synthesis // https://arxiv.org/abs/1808.01410</ref> и GMVAE-Tacotron (Gaussian Mixture Variational AutoEncoder, Вариационный автокодировщик на основе гауссовых смесей распределений)<ref>Hsu W.-N., Zhang Y., Weiss R. J., Zen H., Wu Y., Wang Y., Cao Y., Jia Y., Chen Z., Shen J., Nguyen P., Pang R. (2018). Hierarchical generative modeling for controllable speech synthesis / International Conference on Learning Representations (ICLR-2019) // https://arxiv.org/abs/1810.07217</ref>. Используя векторы, выученные моделью для фраз обучающей выборки, в качестве библиотеки стилей, можно добиться неплохой управляемости стилистикой синтеза. При этом отдельная модель может быть использована для того, чтобы построить стилистический вектор фразы на основе семантической информации, то есть, проще говоря, обучить модель, которая будет, исходя из смысла фразы, выбирать для неё правильную интонацию. Ещё один подход — использование моделей, подобных Parrotron. Эта модель управляется не текстовым представлением, вместо этого она получает на вход речь другого человека, чтобы затем произнести ту же самую фразу другим голосом. Меняя интонацию входной речи, можно управлять речью, производимой системой. Подобные модели могут быть очень полезны в ситуациях, когда необходимо компенсировать дефекты речи или нежелательный акцент<ref>Biadsy F., Weiss R. J., Moreno P. J., Kanevsky D., Jia Y. (2019). Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation // https://arxiv.org/abs/1904.04169</ref>. Создатели некоторых моделей пошли ещё дальше. Translatotron получает на вход фразу, сказанную на одном языке, чтобы затем произнести её перевод на другом языке<ref>Jia Y., Weiss R. J., Biadsy F., Macherey W., Johnson M., Chen Z., Wu Y. (2019). Direct speech-to-speech translation with a sequence-to-sequence model // https://arxiv.org/abs/1904.06037</ref>. Система перевода, не использующая текст в качестве промежуточного представления, обладает целым рядом преимуществ: она может извлечь дополнительную смысловую информацию из интонаций речи и пауз, а также воспроизвести в переводе эмоциональную окраску исходной речи. Не исключено, что в будущем системы перевода будут основаны именно на таком подходе.

Ещё одной немаловажной задачей является уменьшение объёмов данных, необходимых для эффективного выучивания человеческого голоса, а также снижение требований к их качеству. Конечно, современные технологии клонирования<ref>Jia Y., Zhang Y., Weiss R. J., Wang Q., Shen J., Ren F., Chen Z., Nguyen P., Pang R., Moreno I. L., Wu Y. (2019). Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis // https://arxiv.org/abs/1806.04558</ref> голоса могут скопировать тембр речи человека, основываясь на образцах общей длиной всего в несколько минут. Например, в начале 2023 г. компания Microsoft рассказала публике о новой модели под названием VALL-E. Она способна подражать голосу конкретного человека, основываясь на образце его речи длиной всего три секунды (публике были даже продемонстрированы примеры работы новой модели, хотя ни в виде набора весов, ни в виде онлайн-сервиса модель пока что не опубликована)<ref>Wang C., Chen S., Wu Y., Zhang Z., Zhou L., Liu S., Chen Z., Liu Y., Wang H., Li J., He L., Zhao S., Wei F. (2023). Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers // https://arxiv.org/abs/2301.02111</ref>. Однако для полноценного копирования голоса со всеми особенностями интонаций, присущих конкретному человеку, обычно необходимо гораздо больше речевого материала. При обучении моделей на записях, выполненных в различных помещениях, при помощи различной аппаратуры, также возникают определённые трудности, для решения которых в настоящее время предпринимаются серьёзные усилия. В снижении требований к количеству и качеству используемых датасетов могут помочь и специализированные системы для фильтрации и нормализации звукозаписей, и методы переноса обучения, и многоголосые модели, и так называемые генеративно-состязательные сети, о которых мы поговорим немного позже.

Активно изучается возможность применения систем распознавания речи для автоматизированной разметки речевых корпусов, предназначенных для последующего обучения TTS-моделей, что позволит снизить затраты на создание новых голосов.

Словом, в области синтеза речи ещё существует множество интересных задач, которые ждут своих исследователей.

6.4.9 Направления новых исследований - История изменений

Andrey Fedichkin в 21:54, 8 мая 2025

Andrey Fedichkin в 20:41, 8 мая 2025