<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
	<id>https://wiki-test.markoff.science/index.php?action=history&amp;feed=atom&amp;title=6.5.5_%D0%A1%D0%BE%D0%B2%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D0%B4%D0%BE%D1%81%D1%82%D0%B8%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B2_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B5_%D1%8D%D0%BC%D0%BE%D1%86%D0%B8%D0%B9</id>
	<title>6.5.5 Современные достижения в анализе эмоций - История изменений</title>
	<link rel="self" type="application/atom+xml" href="https://wiki-test.markoff.science/index.php?action=history&amp;feed=atom&amp;title=6.5.5_%D0%A1%D0%BE%D0%B2%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D0%B4%D0%BE%D1%81%D1%82%D0%B8%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B2_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B5_%D1%8D%D0%BC%D0%BE%D1%86%D0%B8%D0%B9"/>
	<link rel="alternate" type="text/html" href="https://wiki-test.markoff.science/index.php?title=6.5.5_%D0%A1%D0%BE%D0%B2%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D0%B4%D0%BE%D1%81%D1%82%D0%B8%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B2_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B5_%D1%8D%D0%BC%D0%BE%D1%86%D0%B8%D0%B9&amp;action=history"/>
	<updated>2026-05-14T08:06:32Z</updated>
	<subtitle>История изменений этой страницы в вики</subtitle>
	<generator>MediaWiki 1.45.1</generator>
	<entry>
		<id>https://wiki-test.markoff.science/index.php?title=6.5.5_%D0%A1%D0%BE%D0%B2%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D0%B4%D0%BE%D1%81%D1%82%D0%B8%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B2_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B5_%D1%8D%D0%BC%D0%BE%D1%86%D0%B8%D0%B9&amp;diff=1248&amp;oldid=prev</id>
		<title>Andrey Fedichkin в 21:54, 8 мая 2025</title>
		<link rel="alternate" type="text/html" href="https://wiki-test.markoff.science/index.php?title=6.5.5_%D0%A1%D0%BE%D0%B2%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D0%B4%D0%BE%D1%81%D1%82%D0%B8%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B2_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B5_%D1%8D%D0%BC%D0%BE%D1%86%D0%B8%D0%B9&amp;diff=1248&amp;oldid=prev"/>
		<updated>2025-05-08T21:54:44Z</updated>

		<summary type="html">&lt;p&gt;&lt;/p&gt;
&lt;table style=&quot;background-color: #fff; color: #202122;&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;ru&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;← Предыдущая версия&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;Версия от 21:54, 8 мая 2025&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l124&quot;&gt;Строка 124:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Строка 124:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Интересно, что модель, основанная только на тексте, позволяет достичь точности 63,5%, а модель, использующая и текст и звук, достигает точности 71,8% (69,1% при использовании системы распознавания речи от Google для получения текстовых расшифровок). Тесты показывают, что точность людей на IEMOCAP составляет около 70%&amp;lt;ref&amp;gt;Chernykh V., Prikhodko P. (2018). Emotion Recognition From Speech With Recurrent Neural Networks // https://arxiv.org/abs/1701.08071&amp;lt;/ref&amp;gt;, а это означает, что в публичном доступе с 2018 г. есть модель, способная распознавать эмоции в человеческой речи на уровне самих людей (по крайней мере на таком наборе данных, как IEMOCAP).&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Интересно, что модель, основанная только на тексте, позволяет достичь точности 63,5%, а модель, использующая и текст и звук, достигает точности 71,8% (69,1% при использовании системы распознавания речи от Google для получения текстовых расшифровок). Тесты показывают, что точность людей на IEMOCAP составляет около 70%&amp;lt;ref&amp;gt;Chernykh V., Prikhodko P. (2018). Emotion Recognition From Speech With Recurrent Neural Networks // https://arxiv.org/abs/1701.08071&amp;lt;/ref&amp;gt;, а это означает, что в публичном доступе с 2018 г. есть модель, способная распознавать эмоции в человеческой речи на уровне самих людей (по крайней мере на таком наборе данных, как IEMOCAP).&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-deleted&quot;&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;&amp;lt;references /&amp;gt;&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;comments /&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;comments /&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>Andrey Fedichkin</name></author>
	</entry>
	<entry>
		<id>https://wiki-test.markoff.science/index.php?title=6.5.5_%D0%A1%D0%BE%D0%B2%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D0%B4%D0%BE%D1%81%D1%82%D0%B8%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B2_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B5_%D1%8D%D0%BC%D0%BE%D1%86%D0%B8%D0%B9&amp;diff=1034&amp;oldid=prev</id>
		<title>Andrey Fedichkin в 20:41, 8 мая 2025</title>
		<link rel="alternate" type="text/html" href="https://wiki-test.markoff.science/index.php?title=6.5.5_%D0%A1%D0%BE%D0%B2%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D0%B4%D0%BE%D1%81%D1%82%D0%B8%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B2_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B5_%D1%8D%D0%BC%D0%BE%D1%86%D0%B8%D0%B9&amp;diff=1034&amp;oldid=prev"/>
		<updated>2025-05-08T20:41:30Z</updated>

		<summary type="html">&lt;p&gt;&lt;/p&gt;
&lt;table style=&quot;background-color: #fff; color: #202122;&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;ru&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;← Предыдущая версия&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;Версия от 20:41, 8 мая 2025&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l124&quot;&gt;Строка 124:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Строка 124:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Интересно, что модель, основанная только на тексте, позволяет достичь точности 63,5%, а модель, использующая и текст и звук, достигает точности 71,8% (69,1% при использовании системы распознавания речи от Google для получения текстовых расшифровок). Тесты показывают, что точность людей на IEMOCAP составляет около 70%&amp;lt;ref&amp;gt;Chernykh V., Prikhodko P. (2018). Emotion Recognition From Speech With Recurrent Neural Networks // https://arxiv.org/abs/1701.08071&amp;lt;/ref&amp;gt;, а это означает, что в публичном доступе с 2018 г. есть модель, способная распознавать эмоции в человеческой речи на уровне самих людей (по крайней мере на таком наборе данных, как IEMOCAP).&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Интересно, что модель, основанная только на тексте, позволяет достичь точности 63,5%, а модель, использующая и текст и звук, достигает точности 71,8% (69,1% при использовании системы распознавания речи от Google для получения текстовых расшифровок). Тесты показывают, что точность людей на IEMOCAP составляет около 70%&amp;lt;ref&amp;gt;Chernykh V., Prikhodko P. (2018). Emotion Recognition From Speech With Recurrent Neural Networks // https://arxiv.org/abs/1701.08071&amp;lt;/ref&amp;gt;, а это означает, что в публичном доступе с 2018 г. есть модель, способная распознавать эмоции в человеческой речи на уровне самих людей (по крайней мере на таком наборе данных, как IEMOCAP).&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-deleted&quot;&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;&amp;lt;comments /&amp;gt;&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>Andrey Fedichkin</name></author>
	</entry>
	<entry>
		<id>https://wiki-test.markoff.science/index.php?title=6.5.5_%D0%A1%D0%BE%D0%B2%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D0%B4%D0%BE%D1%81%D1%82%D0%B8%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B2_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B5_%D1%8D%D0%BC%D0%BE%D1%86%D0%B8%D0%B9&amp;diff=765&amp;oldid=prev</id>
		<title>Andrey Fedichkin в 21:10, 16 апреля 2025</title>
		<link rel="alternate" type="text/html" href="https://wiki-test.markoff.science/index.php?title=6.5.5_%D0%A1%D0%BE%D0%B2%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D0%B4%D0%BE%D1%81%D1%82%D0%B8%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B2_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B5_%D1%8D%D0%BC%D0%BE%D1%86%D0%B8%D0%B9&amp;diff=765&amp;oldid=prev"/>
		<updated>2025-04-16T21:10:40Z</updated>

		<summary type="html">&lt;p&gt;&lt;/p&gt;
&lt;table style=&quot;background-color: #fff; color: #202122;&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;ru&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;← Предыдущая версия&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;Версия от 21:10, 16 апреля 2025&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l21&quot;&gt;Строка 21:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Строка 21:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Эта архитектура затем модифицируется авторами под каждую отдельную задачу путём модификации параметров прореживания, а также удаления некоторых слоёв. В случае с EMO‑DB авторы выделяют отдельные сети для выявления наиболее сложно распознаваемых эмоций, а также объединяют несколько моделей в ансамбли. Впрочем, с датасетом RAVDESS неплохо справляется и базовая архитектура. Вот так выглядит матрица ошибок [confusion matrix] для этого набора данных (авторы разделили все записи на обучающую и тестовую выборки в пропорции 80 : 20, ниже приведена матрица ошибок для тестовой выборки).&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Эта архитектура затем модифицируется авторами под каждую отдельную задачу путём модификации параметров прореживания, а также удаления некоторых слоёв. В случае с EMO‑DB авторы выделяют отдельные сети для выявления наиболее сложно распознаваемых эмоций, а также объединяют несколько моделей в ансамбли. Впрочем, с датасетом RAVDESS неплохо справляется и базовая архитектура. Вот так выглядит матрица ошибок [confusion matrix] для этого набора данных (авторы разделили все записи на обучающую и тестовую выборки в пропорции 80 : 20, ниже приведена матрица ошибок для тестовой выборки).&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;{|&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;{|&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;border=1&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;!width=&amp;quot;15%&amp;quot;|&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;!width=&amp;quot;15%&amp;quot;|&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;!width=&amp;quot;10%&amp;quot;| Раздра-жение&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;!width=&amp;quot;10%&amp;quot;| Раздра-жение&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>Andrey Fedichkin</name></author>
	</entry>
	<entry>
		<id>https://wiki-test.markoff.science/index.php?title=6.5.5_%D0%A1%D0%BE%D0%B2%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D0%B4%D0%BE%D1%81%D1%82%D0%B8%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B2_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B5_%D1%8D%D0%BC%D0%BE%D1%86%D0%B8%D0%B9&amp;diff=664&amp;oldid=prev</id>
		<title>Andrey Fedichkin: Новая страница: «&lt;span id=&quot;современные-достижения-в-анализе-эмоций&quot;&gt;&lt;/span&gt;  642x856px  Современные модели, предназначенные для распознавания эмоциональной окраски речи в аудиоканале, обычно представляют собой свёрточные или свёрточно-рекуррентные нейронные сети, п...»</title>
		<link rel="alternate" type="text/html" href="https://wiki-test.markoff.science/index.php?title=6.5.5_%D0%A1%D0%BE%D0%B2%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D0%B4%D0%BE%D1%81%D1%82%D0%B8%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B2_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B5_%D1%8D%D0%BC%D0%BE%D1%86%D0%B8%D0%B9&amp;diff=664&amp;oldid=prev"/>
		<updated>2025-04-06T11:39:25Z</updated>

		<summary type="html">&lt;p&gt;Новая страница: «&amp;lt;span id=&amp;quot;современные-достижения-в-анализе-эмоций&amp;quot;&amp;gt;&amp;lt;/span&amp;gt;  &lt;a href=&quot;/index.php/%D0%A4%D0%B0%D0%B9%D0%BB:Image264.jpeg&quot; title=&quot;Файл:Image264.jpeg&quot;&gt;642x856px&lt;/a&gt;  Современные модели, предназначенные для распознавания эмоциональной окраски речи в аудиоканале, обычно представляют собой свёрточные или свёрточно-рекуррентные нейронные сети, п...»&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Новая страница&lt;/b&gt;&lt;/p&gt;&lt;div&gt;&amp;lt;span id=&amp;quot;современные-достижения-в-анализе-эмоций&amp;quot;&amp;gt;&amp;lt;/span&amp;gt;&lt;br /&gt;
&lt;br /&gt;
[[File:image264.jpeg|642x856px]]&lt;br /&gt;
&lt;br /&gt;
Современные модели, предназначенные для распознавания эмоциональной окраски речи в аудиоканале, обычно представляют собой свёрточные или свёрточно-рекуррентные нейронные сети, получающие на вход различные представления звукового сигнала (спектрограммы, последовательности наборов мел-кепстральных коэффициентов и т. п.) и решающие задачу классификации или регрессии. В этом смысле они напоминают модели, предназначенные для решения других задач обработки человеческого голоса: определения пола и возраста говорящего, выявления ключевых слов или полнотекстового распознавания речи. Рассмотрим для примера одну из таких работ&amp;lt;ref&amp;gt;Issa D., Fatih Demirci M., Yazici A. (2020). Speech emotion recognition with deep convolutional neural networks / Biomedical Signal Processing and Control, Vol. 59 // https://doi.org/10.1016/j.bspc.2020.101894&amp;lt;/ref&amp;gt;, увидевшую свет в 2020 г. и установившую, по заявлению авторов, новые рекорды в точности распознавания эмоциональной окраски сразу для двух датасетов — RAVDESS и IEMOCAP (при этом результат на датасете EMO-DB лишь несущественно уступает наилучшему существующему решению).&lt;br /&gt;
&lt;br /&gt;
Её авторы, исследователи Диас Исса, Мухаммед Фатих Демирджи и Аднан Языджи из Назарбаев Университета (Астана, Казахстан), представили новую архитектуру, в которой на вход нейронной сети подаются мел-кепстральные коэффициенты, хромаграмма (представление, напоминающее спектрограмму, с тем лишь отличием, что по оси &amp;#039;&amp;#039;y&amp;#039;&amp;#039; в хромаграмме отложены не диапазоны частот, а звуковысотные классы [pitch class] — классы, образуемые множеством всех звуковых высот, отстоящих друг от друга на целое число октав), мел-спектрограмма, а также два более хитрых представления — на основе так называемых спектральных контрастов и на основе тоннетца [Tonnetz].&lt;br /&gt;
&lt;br /&gt;
Термином «тоннетц» (от нем. &amp;#039;&amp;#039;Tonnetz&amp;#039;&amp;#039; — тоновая сеть), или эйлеровской звуковой сеткой, в теории музыки называют сетевую диаграмму, представляющую звуковысотную систему, задающую набор и возможную последовательность в музыкальном произведении звуковысотных классов. Узлы эйлеровской звуковой сетки соответствуют звуковысотным классам, а треугольники, объединяющие три соседних узла, соответствуют аккордам. В музыкальном произведении, принадлежащем к описываемой тоннетцем звуковысотной системе, друг за другом могут следовать только аккорды, соответствующие соседним треугольникам тоннетца.&lt;br /&gt;
&lt;br /&gt;
[[File:image265.png|697x457px]]&lt;br /&gt;
&lt;br /&gt;
Рис. 144. Тоннетц, или эйлеровская звуковая сетка&lt;br /&gt;
&lt;br /&gt;
Тоннетц был впервые предложен&amp;lt;ref&amp;gt;Euler L. (1739). Tentamen novae theoriae musicae ex certissismis harmoniae principiis dilucide expositae (in Latin) / Saint Petersburg Academy, p. 147.&amp;lt;/ref&amp;gt; Леонардом Эйлером в 1739 г., затем на долгое время забыт, затем переоткрыт в XIX в. и стал весьма популярен у музыкальных теоретиков — таких, например, как Риман и Эттинген.&lt;br /&gt;
&lt;br /&gt;
В книге одно тянет за собой другое, и трудно понять, где следует остановиться. Что такое спектрограммы, мел-шкала и кепстр, мы более-менее подробно разобрали в разделах, посвящённых распознаванию и синтезу речи. Сведения о хромаграмме, в принципе, удалось вместить в одно вроде бы понятное предложение. Хуже обстоят дела с тоннетцем. Авторы рассматриваемой нами модели использовали функцию librosa.feature.tonnetz из популярной библиотеки для обработки звука Librosa в языке Python для получения соответствующего представления звука. Для описания работы этой функции нужно объяснять, что такое натуральный строй, равномерно темперированный строй, как тоновое пространство из плоскости становится сначала трубкой с нанизанной на её поверхность спиральной матрицей Чу, а потом и вовсе гипертором. И как 12-мерный вектор хромаграммы при помощи операции построения центроидов превращается в набор из шести координат представления, предложенного&amp;lt;ref&amp;gt;Harte C., Sandler M., Gasser M. (2006). Detecting Harmonic Change In Musical Audio / AMCMM &amp;#039;06: Proceedings of the 1st ACM workshop on Audio and music computing multimedia, October 2006, pp. 21—26 // https://doi.org/10.1145/1178723.1178727&amp;lt;/ref&amp;gt; Хартом, Сэндлером и Гэссером и основанного на тоннетце Эйлера. Примерно так же дело обстоит и со спектральными контрастами&amp;lt;ref&amp;gt;Jiang D.-N., Lu L., Zhang H.-J., Tao J.-H., Cai L.-H. (2002). Music type classification by spectral contrast feature / Proceedings of the IEEE International Conference on Multimedia and Expo // https://doi.org/10.1109/ICME.2002.1035731&amp;lt;/ref&amp;gt;. В общем, выглядит как бессмысленный экскурс в теорию музыки для тех, кому она не особо-то и нужна. Один из моих коллег (занимающийся среди прочего созданием моделей для распознавания эмоций), выслушав мои страдания, посоветовал написать так: «авторы считают сложные непонятные фичи из теории музыки».&lt;br /&gt;
&lt;br /&gt;
Итак, авторы статьи берут хорошо известные нам фичи, а также ряд сложных и непонятных фичей из теории музыки, получают матрицу размерностью 193 × 1 (т. е. все спектральные представления строятся для всей фразы целиком; таким образом, фраза в итоге описывается набором из 193 чисел) и пихают её на вход свёрточной нейронной сети. Базовая топология сети, использованная авторами, содержит целых шесть слоёв свёртки (размер ядер везде 5 × 1), один слой максимизирующего пулинга (8 × 1), три слоя прореживания и один полносвязный слой.&lt;br /&gt;
&lt;br /&gt;
Эта архитектура затем модифицируется авторами под каждую отдельную задачу путём модификации параметров прореживания, а также удаления некоторых слоёв. В случае с EMO‑DB авторы выделяют отдельные сети для выявления наиболее сложно распознаваемых эмоций, а также объединяют несколько моделей в ансамбли. Впрочем, с датасетом RAVDESS неплохо справляется и базовая архитектура. Вот так выглядит матрица ошибок [confusion matrix] для этого набора данных (авторы разделили все записи на обучающую и тестовую выборки в пропорции 80 : 20, ниже приведена матрица ошибок для тестовой выборки).&lt;br /&gt;
&lt;br /&gt;
{|&lt;br /&gt;
!width=&amp;quot;15%&amp;quot;|&lt;br /&gt;
!width=&amp;quot;10%&amp;quot;| Раздра-жение&lt;br /&gt;
!width=&amp;quot;10%&amp;quot;| Спокой-ствие&lt;br /&gt;
!width=&amp;quot;10%&amp;quot;| Отвра-щение&lt;br /&gt;
!width=&amp;quot;9%&amp;quot;| Страх&lt;br /&gt;
!width=&amp;quot;9%&amp;quot;| Счастье&lt;br /&gt;
!width=&amp;quot;15%&amp;quot;| Нейтральная окраска&lt;br /&gt;
!width=&amp;quot;9%&amp;quot;| Печаль&lt;br /&gt;
!width=&amp;quot;8%&amp;quot;| Удив-ление&lt;br /&gt;
|-&lt;br /&gt;
| Раздражение&lt;br /&gt;
| 92,31&lt;br /&gt;
| 0&lt;br /&gt;
| 3,85&lt;br /&gt;
| 3,85&lt;br /&gt;
| 0&lt;br /&gt;
| 0&lt;br /&gt;
| 0&lt;br /&gt;
| 0&lt;br /&gt;
|-&lt;br /&gt;
| Спокойствие&lt;br /&gt;
| 0&lt;br /&gt;
| 57,14&lt;br /&gt;
| 10,71&lt;br /&gt;
| 0&lt;br /&gt;
| 3,57&lt;br /&gt;
| 7,14&lt;br /&gt;
| 17,86&lt;br /&gt;
| 3,57&lt;br /&gt;
|-&lt;br /&gt;
| Отвращение&lt;br /&gt;
| 3,45&lt;br /&gt;
| 0&lt;br /&gt;
| 72,41&lt;br /&gt;
| 3,45&lt;br /&gt;
| 6,9&lt;br /&gt;
| 0&lt;br /&gt;
| 0&lt;br /&gt;
| 13,79&lt;br /&gt;
|-&lt;br /&gt;
| Страх&lt;br /&gt;
| 2,7&lt;br /&gt;
| 0&lt;br /&gt;
| 5,41&lt;br /&gt;
| 75,68&lt;br /&gt;
| 5,41&lt;br /&gt;
| 2,7&lt;br /&gt;
| 0&lt;br /&gt;
| 8,11&lt;br /&gt;
|-&lt;br /&gt;
| Счастье&lt;br /&gt;
| 3,23&lt;br /&gt;
| 0&lt;br /&gt;
| 3,23&lt;br /&gt;
| 9,68&lt;br /&gt;
| 67,74&lt;br /&gt;
| 0&lt;br /&gt;
| 0&lt;br /&gt;
| 16,13&lt;br /&gt;
|-&lt;br /&gt;
| Нейтральная окраска&lt;br /&gt;
| 0&lt;br /&gt;
| 12,5&lt;br /&gt;
| 0&lt;br /&gt;
| 12,5&lt;br /&gt;
| 0&lt;br /&gt;
| 75&lt;br /&gt;
| 0&lt;br /&gt;
| 0&lt;br /&gt;
|-&lt;br /&gt;
| Печаль&lt;br /&gt;
| 0&lt;br /&gt;
| 3,7&lt;br /&gt;
| 7,41&lt;br /&gt;
| 18,52&lt;br /&gt;
| 7,41&lt;br /&gt;
| 3,7&lt;br /&gt;
| 51,85&lt;br /&gt;
| 7,41&lt;br /&gt;
|-&lt;br /&gt;
| Удивление&lt;br /&gt;
| 0&lt;br /&gt;
| 0&lt;br /&gt;
| 6,67&lt;br /&gt;
| 6,67&lt;br /&gt;
| 6,67&lt;br /&gt;
| 0&lt;br /&gt;
| 0&lt;br /&gt;
| 80&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
В каждой ячейке матрицы ошибок в строке &amp;#039;&amp;#039;i&amp;#039;&amp;#039; и столбце &amp;#039;&amp;#039;j&amp;#039;&amp;#039; указывается процент классов &amp;#039;&amp;#039;j&amp;#039;&amp;#039;, опознанных моделью как &amp;#039;&amp;#039;i&amp;#039;&amp;#039;. При идеальной точности модели в ячейках, в которых номер столбца равен номеру строки, должны стоять единицы, а в остальных ячейках — нули.&lt;br /&gt;
&lt;br /&gt;
Итоговая точность [precision] предсказаний модели составляет около 71,6% для датасета RAVDESS, что превосходит точность распознавания, демонстрируемую людьми (67,0%), почти на пять процентных пунктов (для датасета IEMOCAP точность — 64,3%). Как видно из матрицы ошибок, наиболее частая ошибка модели заключается в том, что она иногда (в 18,52% случаев) принимает страх за печаль — ошибка, которая выглядит весьма «по-человечески».&lt;br /&gt;
&lt;br /&gt;
Разобранная нами работа довольно характерна для данной области. Результаты на таких «игрушечных» эмоциональных датасетах, как RAVDESS, TESS, EMO-DB, IEMOCAP, улучшаются в наше время порой несколько раз в год — вы можете сами убедиться в этом, набрав в поисковой системе название соответствующего датасета и аббревиатуру SOTA (state-of-the-art, уровень развития, употребляется в значении «лучший результат по какому-либо критерию»). Однако и глубокое обучение не миновала одна из главных проблем современной науки — проблема кризиса воспроизводимости, ввиду чего к результатам без публикации исходного кода следует относиться с осторожностью. Если опытным взглядом присмотреться к разобранной нами статье, то может возникнуть ряд вопросов, требующих прояснения. Например, в тексте статьи упоминается свёртка с ядром 5 × 5, хотя на схемах мы видим свёртку с ядром 5 × 1. Ну ладно, это сравнительно безобидная опечатка. Но вот авторы пишут (в отношении эксперимента с RAVDESS): «&amp;#039;&amp;#039;Поскольку разделение данных&amp;#039;&amp;#039; [&amp;#039;&amp;#039;на обучающую и тестовую выборку&amp;#039;&amp;#039;] &amp;#039;&amp;#039;осуществлялось случайным образом, классификация является независимой от актёра&amp;#039;&amp;#039;» [Since data partitioning is performed randomly, the classification is speaker-independent]. Если под «случайным образом» подразумевалось, что каждый образец с вероятностью 80% попадал в обучающую и с вероятностью 20% в тестовую выборки, это значит, что с довольно большой вероятностью образцы речи одного и того же актёра попали как в обучающую, так и в тестовую выборки (напомню, что в RAVDESS содержится в общей сложности 7356 записей, сделанных всего 24 актёрами). Таким образом, классификатор становится как раз зависимым от актёра. В разделе про выделение признаков ничего не сказано о параметрах использованных преобразований, не объяснено, почему число признаков в итоге оказалось равно 193, сколько из них приходится на мел-кепстральные коэффициенты, а сколько на мел-спектрограмму, как эти признаки упорядочены внутри матрицы. Это не совсем праздный вопрос, ведь, объединяя разнородные признаки в одну матрицу, которая затем подвергается свёртке, авторы допускают ситуацию, когда в окно свёртки попадут разнородные по сути величины. А применение к небольшой матрице размерностью 193 × 1 многослойной сети с целыми шестью слоями свёртки и количеством признаков в каждом из них от 128 до 256, да ещё в итоге и полносвязного слоя при сравнительно скромных параметрах прореживания наверняка должно приводить к систематическому переобучению модели. Как авторы боролись с этой проблемой? Возможно, применяли раннюю остановку обучения при достижении минимальной ошибки на тестовой выборке? Если так, то сколько экспериментов было проведено и не возник ли эффект подстройки под тестовую выборку? Или в каждом эксперименте происходило переразбиение данных?&lt;br /&gt;
&lt;br /&gt;
Кроме того, от внимания авторов исследования ускользнула работа 2019 г. российских исследователей — Григория Стерлинга (моего теперешнего коллеги) и Евы Казимировой — под названием «Сквозное распознавание эмоций по голосу с глубокими эмбеддингами фреймов и обработкой нейтральной речи» (End-to-End Emotion Recognition From Speech With Deep Frame Embeddings And Neutral Speech Handling), в которой заявлена более высокая точность распознавания для IEMOCAP (65,9%) (российские исследователи использовали спектральное представление звукового сигнала и сочетание свёрточной нейронной сети с LSTM)&amp;lt;ref&amp;gt;Sterling G., Kazimirova E. (2019). End-to-end Emotion Recognition From Speech With Deep Frame Embeddings And Neutral Speech Handling / FICC 2019: Advances in Information and Communication, pp. 1123-1135 // https://doi.org/10.1007/978-3-030-12385-7_76&amp;lt;/ref&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Разумеется, наличие такого рода вопросов вовсе не означает недобросовестности авторов исследования из Казахстана, особенно учитывая сумасшедшие темпы развития науки в этой области. Но, чтобы избежать возможных ошибок или неоднозначностей, многие исследователи в области глубокого обучения предпочитают публиковать не только статьи, но и кодовую базу своих проектов. Крупнейшим каталогом таких публикаций является ресурс paperswithcode.com, позволяющий найти работы, устанавливающие SOTA для самых разных задач машинного обучения, в том числе и для задачи распознавания эмоций. Например, по запросу «Speech Emotion Recognition» можно найти сразу девять работ, в том числе работу&amp;lt;ref&amp;gt;Yoon S., Byun S., Jung K. (2018). Multimodal speech emotion recognition using audio and text // https://paperswithcode.com/paper/multimodal-speech-emotion-recognition-using&amp;lt;/ref&amp;gt;, установившую в 2018 г. новый уровень SOTA для датасета IEMOCAP. В этой статье приводится несколько моделей, использующих различные модальности данных: только текст (автоматически распознанная речь), только аудио и текст + аудио. Точность модели, использующей только звук, составляет 54,6% против 64,3% в работе казахстанских исследователей. Но при этом в нашем распоряжении не только статья, но и репозиторий с кодом, из которого видно, что использованная авторами модель представляет собой LSTM-сеть, получающую на вход мел-кепстральные коэффициенты (а также их разности первого и второго порядка для соседних фреймов) для каждого из фреймов звукозаписи длиной 25 миллисекунд с шагом в 10 миллисекунд.&lt;br /&gt;
&lt;br /&gt;
Интересно, что модель, основанная только на тексте, позволяет достичь точности 63,5%, а модель, использующая и текст и звук, достигает точности 71,8% (69,1% при использовании системы распознавания речи от Google для получения текстовых расшифровок). Тесты показывают, что точность людей на IEMOCAP составляет около 70%&amp;lt;ref&amp;gt;Chernykh V., Prikhodko P. (2018). Emotion Recognition From Speech With Recurrent Neural Networks // https://arxiv.org/abs/1701.08071&amp;lt;/ref&amp;gt;, а это означает, что в публичном доступе с 2018 г. есть модель, способная распознавать эмоции в человеческой речи на уровне самих людей (по крайней мере на таком наборе данных, как IEMOCAP).&lt;/div&gt;</summary>
		<author><name>Andrey Fedichkin</name></author>
	</entry>
</feed>