<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
	<id>https://wiki-test.markoff.science/index.php?action=history&amp;feed=atom&amp;title=6.2.1.5_%D0%9A%D0%BE%D0%BD%D0%B5%D1%86_%D0%BD%D0%B0%D1%87%D0%B0%D0%BB%D0%B0_%D0%B8_%D0%BF%D0%B5%D1%80%D1%81%D0%BF%D0%B5%D0%BA%D1%82%D0%B8%D0%B2%D1%8B_%D1%80%D0%B0%D0%B7%D0%B2%D0%B8%D1%82%D0%B8%D1%8F</id>
	<title>6.2.1.5 Конец начала и перспективы развития - История изменений</title>
	<link rel="self" type="application/atom+xml" href="https://wiki-test.markoff.science/index.php?action=history&amp;feed=atom&amp;title=6.2.1.5_%D0%9A%D0%BE%D0%BD%D0%B5%D1%86_%D0%BD%D0%B0%D1%87%D0%B0%D0%BB%D0%B0_%D0%B8_%D0%BF%D0%B5%D1%80%D1%81%D0%BF%D0%B5%D0%BA%D1%82%D0%B8%D0%B2%D1%8B_%D1%80%D0%B0%D0%B7%D0%B2%D0%B8%D1%82%D0%B8%D1%8F"/>
	<link rel="alternate" type="text/html" href="https://wiki-test.markoff.science/index.php?title=6.2.1.5_%D0%9A%D0%BE%D0%BD%D0%B5%D1%86_%D0%BD%D0%B0%D1%87%D0%B0%D0%BB%D0%B0_%D0%B8_%D0%BF%D0%B5%D1%80%D1%81%D0%BF%D0%B5%D0%BA%D1%82%D0%B8%D0%B2%D1%8B_%D1%80%D0%B0%D0%B7%D0%B2%D0%B8%D1%82%D0%B8%D1%8F&amp;action=history"/>
	<updated>2026-05-14T11:07:24Z</updated>
	<subtitle>История изменений этой страницы в вики</subtitle>
	<generator>MediaWiki 1.45.1</generator>
	<entry>
		<id>https://wiki-test.markoff.science/index.php?title=6.2.1.5_%D0%9A%D0%BE%D0%BD%D0%B5%D1%86_%D0%BD%D0%B0%D1%87%D0%B0%D0%BB%D0%B0_%D0%B8_%D0%BF%D0%B5%D1%80%D1%81%D0%BF%D0%B5%D0%BA%D1%82%D0%B8%D0%B2%D1%8B_%D1%80%D0%B0%D0%B7%D0%B2%D0%B8%D1%82%D0%B8%D1%8F&amp;diff=1199&amp;oldid=prev</id>
		<title>Andrey Fedichkin в 21:49, 8 мая 2025</title>
		<link rel="alternate" type="text/html" href="https://wiki-test.markoff.science/index.php?title=6.2.1.5_%D0%9A%D0%BE%D0%BD%D0%B5%D1%86_%D0%BD%D0%B0%D1%87%D0%B0%D0%BB%D0%B0_%D0%B8_%D0%BF%D0%B5%D1%80%D1%81%D0%BF%D0%B5%D0%BA%D1%82%D0%B8%D0%B2%D1%8B_%D1%80%D0%B0%D0%B7%D0%B2%D0%B8%D1%82%D0%B8%D1%8F&amp;diff=1199&amp;oldid=prev"/>
		<updated>2025-05-08T21:49:40Z</updated>

		<summary type="html">&lt;p&gt;&lt;/p&gt;
&lt;table style=&quot;background-color: #fff; color: #202122;&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;ru&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;← Предыдущая версия&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;Версия от 21:49, 8 мая 2025&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l32&quot;&gt;Строка 32:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Строка 32:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Революция в компьютерном зрении существенно трансформирует многие отрасли общественной жизни, но было бы ошибкой думать, что она уже свершилась или близка к завершению. По всей видимости, длиться, захватывая и коренным образом меняя всё новые и новые стороны труда и быта, она будет ещё довольно долго, потому что создание и внедрение на базе экспериментальных систем действительно массовых продуктов и сервисов зачастую требует немалого времени и серьёзных ресурсов. Причём когда речь идёт об ИИ-технологиях, одни из важнейших необходимых ресурсов — это квалифицированные специалисты и качественно размеченные данные в необходимых объёмах. И именно они зачастую — в дефиците.&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Революция в компьютерном зрении существенно трансформирует многие отрасли общественной жизни, но было бы ошибкой думать, что она уже свершилась или близка к завершению. По всей видимости, длиться, захватывая и коренным образом меняя всё новые и новые стороны труда и быта, она будет ещё довольно долго, потому что создание и внедрение на базе экспериментальных систем действительно массовых продуктов и сервисов зачастую требует немалого времени и серьёзных ресурсов. Причём когда речь идёт об ИИ-технологиях, одни из важнейших необходимых ресурсов — это квалифицированные специалисты и качественно размеченные данные в необходимых объёмах. И именно они зачастую — в дефиците.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-deleted&quot;&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;&amp;lt;references /&amp;gt;&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;comments /&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;comments /&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>Andrey Fedichkin</name></author>
	</entry>
	<entry>
		<id>https://wiki-test.markoff.science/index.php?title=6.2.1.5_%D0%9A%D0%BE%D0%BD%D0%B5%D1%86_%D0%BD%D0%B0%D1%87%D0%B0%D0%BB%D0%B0_%D0%B8_%D0%BF%D0%B5%D1%80%D1%81%D0%BF%D0%B5%D0%BA%D1%82%D0%B8%D0%B2%D1%8B_%D1%80%D0%B0%D0%B7%D0%B2%D0%B8%D1%82%D0%B8%D1%8F&amp;diff=979&amp;oldid=prev</id>
		<title>Andrey Fedichkin в 20:33, 8 мая 2025</title>
		<link rel="alternate" type="text/html" href="https://wiki-test.markoff.science/index.php?title=6.2.1.5_%D0%9A%D0%BE%D0%BD%D0%B5%D1%86_%D0%BD%D0%B0%D1%87%D0%B0%D0%BB%D0%B0_%D0%B8_%D0%BF%D0%B5%D1%80%D1%81%D0%BF%D0%B5%D0%BA%D1%82%D0%B8%D0%B2%D1%8B_%D1%80%D0%B0%D0%B7%D0%B2%D0%B8%D1%82%D0%B8%D1%8F&amp;diff=979&amp;oldid=prev"/>
		<updated>2025-05-08T20:33:51Z</updated>

		<summary type="html">&lt;p&gt;&lt;/p&gt;
&lt;table style=&quot;background-color: #fff; color: #202122;&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;ru&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;← Предыдущая версия&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;Версия от 20:33, 8 мая 2025&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l32&quot;&gt;Строка 32:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Строка 32:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Революция в компьютерном зрении существенно трансформирует многие отрасли общественной жизни, но было бы ошибкой думать, что она уже свершилась или близка к завершению. По всей видимости, длиться, захватывая и коренным образом меняя всё новые и новые стороны труда и быта, она будет ещё довольно долго, потому что создание и внедрение на базе экспериментальных систем действительно массовых продуктов и сервисов зачастую требует немалого времени и серьёзных ресурсов. Причём когда речь идёт об ИИ-технологиях, одни из важнейших необходимых ресурсов — это квалифицированные специалисты и качественно размеченные данные в необходимых объёмах. И именно они зачастую — в дефиците.&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Революция в компьютерном зрении существенно трансформирует многие отрасли общественной жизни, но было бы ошибкой думать, что она уже свершилась или близка к завершению. По всей видимости, длиться, захватывая и коренным образом меняя всё новые и новые стороны труда и быта, она будет ещё довольно долго, потому что создание и внедрение на базе экспериментальных систем действительно массовых продуктов и сервисов зачастую требует немалого времени и серьёзных ресурсов. Причём когда речь идёт об ИИ-технологиях, одни из важнейших необходимых ресурсов — это квалифицированные специалисты и качественно размеченные данные в необходимых объёмах. И именно они зачастую — в дефиците.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-deleted&quot;&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;&amp;lt;comments /&amp;gt;&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>Andrey Fedichkin</name></author>
	</entry>
	<entry>
		<id>https://wiki-test.markoff.science/index.php?title=6.2.1.5_%D0%9A%D0%BE%D0%BD%D0%B5%D1%86_%D0%BD%D0%B0%D1%87%D0%B0%D0%BB%D0%B0_%D0%B8_%D0%BF%D0%B5%D1%80%D1%81%D0%BF%D0%B5%D0%BA%D1%82%D0%B8%D0%B2%D1%8B_%D1%80%D0%B0%D0%B7%D0%B2%D0%B8%D1%82%D0%B8%D1%8F&amp;diff=609&amp;oldid=prev</id>
		<title>Andrey Fedichkin: Новая страница: «&lt;span id=&quot;конец-начала-и-перспективы-развития&quot;&gt;&lt;/span&gt;  2017-й стал последним годом в истории ILSVRC. Эстафета по проведению состязаний по распознаванию изображений перешла к Kaggle (платформе для организации соревнований в области машинного обучения)&lt;ref&gt;Fei-Fei L., Deng J. (201...»</title>
		<link rel="alternate" type="text/html" href="https://wiki-test.markoff.science/index.php?title=6.2.1.5_%D0%9A%D0%BE%D0%BD%D0%B5%D1%86_%D0%BD%D0%B0%D1%87%D0%B0%D0%BB%D0%B0_%D0%B8_%D0%BF%D0%B5%D1%80%D1%81%D0%BF%D0%B5%D0%BA%D1%82%D0%B8%D0%B2%D1%8B_%D1%80%D0%B0%D0%B7%D0%B2%D0%B8%D1%82%D0%B8%D1%8F&amp;diff=609&amp;oldid=prev"/>
		<updated>2025-04-06T11:10:57Z</updated>

		<summary type="html">&lt;p&gt;Новая страница: «&amp;lt;span id=&amp;quot;конец-начала-и-перспективы-развития&amp;quot;&amp;gt;&amp;lt;/span&amp;gt;  2017-й стал последним годом в истории ILSVRC. Эстафета по проведению состязаний по распознаванию изображений перешла к Kaggle (платформе для организации соревнований в области машинного обучения)&amp;lt;ref&amp;gt;Fei-Fei L., Deng J. (201...»&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Новая страница&lt;/b&gt;&lt;/p&gt;&lt;div&gt;&amp;lt;span id=&amp;quot;конец-начала-и-перспективы-развития&amp;quot;&amp;gt;&amp;lt;/span&amp;gt;&lt;br /&gt;
&lt;br /&gt;
2017-й стал последним годом в истории ILSVRC. Эстафета по проведению состязаний по распознаванию изображений перешла к Kaggle (платформе для организации соревнований в области машинного обучения)&amp;lt;ref&amp;gt;Fei-Fei L., Deng J. (2017). ImageNet: Where have we been? Where are we going? // http://image-net.org/challenges/talks_2017/imagenet_ilsvrc2017_v1.0.pdf&amp;lt;/ref&amp;gt;. Но эти семь лет успели изменить буквально всё.&lt;br /&gt;
&lt;br /&gt;
Один из организаторов ILSVRC Алекс Берг охарактеризовал произошедшие изменения следующим образом: «&amp;#039;&amp;#039;Когда мы начинали проект, такие вещи индустрия ещё не делала. Теперь это продукты, которые используют миллионы людей&amp;#039;&amp;#039;»&amp;lt;ref&amp;gt;Reynolds M. (2017). New computer vision challenge wants to teach robots to see in 3D / New Scientist, Iss. 3121 // https://www.newscientist.com/article/2127131-new-computer-vision-challenge-wants-to-teach-robots-to-see-in-3d/&amp;lt;/ref&amp;gt;. Действительно, менее чем за десять лет системы распознавания изображений из лабораторных прототипов превратились в компоненты множества высокотехнологичных продуктов и сервисов, представленных на рынке.&lt;br /&gt;
&lt;br /&gt;
Хотя ImageNet и не был первым стандартизованным датасетом изображений (к 2009 г. их насчитывалось уже более двух десятков), однако он многократно превзошёл предшественников как по объёму, так и по детальности разметки, которая впервые была выполнена с привязкой к базе данных естественного языка. ILSVRC не были первыми соревнованиями по распознаванию изображений, однако стали самыми популярными среди таковых в истории (в 2010 г. в ILSVRC приняло участие 35 команд, в 2016 г. — 172 команды)&amp;lt;ref&amp;gt;Fei-Fei L., Deng J. (2017). ImageNet: Where have we been? Where are we going? // http://image-net.org/challenges/talks_2017/imagenet_ilsvrc2017_v1.0.pdf&amp;lt;/ref&amp;gt;. ILSVRC также не были первыми соревнованиями по распознаванию изображений, в которых победу одержала нейросетевая модель, однако именно победа нейросетевой модели на ILSVRC стала громким медийным поводом, привлекшим внимание общественности к успехам в этой области. И наконец, ILSVRC не были первыми соревнованиями, в которых машины превзошли человека в задаче распознавания образов, хотя именно этот результат теперь принято использовать в качестве одного из доказательств революционного прорыва, совершённого в отрасли машинного обучения в последние годы.&lt;br /&gt;
&lt;br /&gt;
Наследниками ImageNet стали многочисленные специализированные датасеты, такие как Medical ImageNet (база данных медицинских изображений)&amp;lt;ref&amp;gt;Medical Image Net: A petabyte-scale, cloud-based, multi-institutional, searchable, open repository of diagnostic imaging studies for developing intelligent image analysis systems // http://langlotzlab.stanford.edu/projects/medical-image-net/&amp;lt;/ref&amp;gt;, SpaceNet (база данных фотоснимков объектов, выполненных из космоса)&amp;lt;ref&amp;gt;SpaceNet // https://spacenet.ai/datasets/&amp;lt;/ref&amp;gt;, ActivityNet (база данных видеозаписей различной человеческой активности)&amp;lt;ref&amp;gt;Heilbron F. C., Escorcia V., Ghanem B., Niebles J. C. (2015). ActivityNet: A Large-Scale Video Benchmark for Human Activity Understanding / Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 961—970 // http://activity-net.org/&amp;lt;/ref&amp;gt;, EventNet (база данных с семантически размеченными видео)&amp;lt;ref&amp;gt;Chang S. F., Liu D., Ye G., Li Y., Xu H., Liu H., Wang D., Lin T., Chen Q., Shou Z. A Large Scale Structured Concept Library // http://eventnet.cs.columbia.edu/index.html&amp;lt;/ref&amp;gt; и так далее.&lt;br /&gt;
&lt;br /&gt;
На последнем слайде выступления организаторов ILSVRC в 2017 г. размещена цитата Уинстона Черчилля: «&amp;#039;&amp;#039;Это не конец. Это даже не начало конца. Но, возможно, это конец начала&amp;#039;&amp;#039;»&amp;lt;ref&amp;gt;Fei-Fei L., Deng J. (2017). ImageNet: Where have we been? Where are we going? // http://image-net.org/challenges/talks_2017/imagenet_ilsvrc2017_v1.0.pdf&amp;lt;/ref&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Действительно, прогресс в точности распознавания образов не стоит на месте, а оценить его можно по результатам, приводимым в научных публикациях. Например, точность распознавания образов на массиве CIFAR-100 в 2019 г. выросла до 91,7% (модель EfficientNet)&amp;lt;ref&amp;gt;Tan M., Le Q. V. (2019). EfficientNet: Improving Accuracy and Efficiency through AutoML and Model Scaling / Google AI Blog // https://ai.googleblog.com/2019/05/efficientnet-improving-accuracy-and.html&amp;lt;/ref&amp;gt; по сравнению с 89,3% (более ранняя модель от GoogleBrain на основе пирамидальных сетей (Feature Pyramid Networks, FPN) — специальной разновидности свёрточных сетей, в которой признаки, относящиеся к разным слоям свёртки, организованы в специальную пирамидальную иерархию, позволяющую более эффективно распознавать объекты разного масштаба&amp;lt;ref&amp;gt;Lin T.-Y., Dollár P., Girshick R., He K., Hariharan B., Belongie S. (2016). Feature Pyramid Networks for Object Detection // https://arxiv.org/abs/1612.03144&amp;lt;/ref&amp;gt;)&amp;lt;ref&amp;gt;Cubuk E. D., Zoph B., Mane D., Vasudevan V., Le Q. V. (2018). AutoAugment: Learning Augmentation Policies from Data // https://arxiv.org/abs/1805.09501&amp;lt;/ref&amp;gt;&amp;lt;sup&amp;gt;,&amp;lt;/sup&amp;gt; &amp;lt;ref&amp;gt;Cubuk E. D., Zoph B. (2018). Improving Deep Learning Performance with AutoAugment / Google AI Blog // https://ai.googleblog.com/2018/06/improving-deep-learning-performance.html&amp;lt;/ref&amp;gt; в 2018 г. В 2020 г. при помощи модели EfficientNet-L2 на CIFAR-100 удалось получить точность 96,1% (этот показатель по состоянию на сентябрь 2023 г. продолжает оставаться лучшим). Этот результат был достигнут благодаря технологии, получившей название «Минимизация с учётом резкости» (Sharpness-Aware Minimization). Идея этого подхода заключается в том, чтобы предпочитать такие параметры модели, в окрестностях которых функция потерь будет иметь значения, мало отличающиеся от минимума. Такая стратегия оптимизации позволяет достичь более хорошего обобщения в процессе обучения&amp;lt;ref&amp;gt;Foret P., Kleiner A., Mobahi H., Neyshabur B. (2020). Sharpness-Aware Minimization for Efficiently Improving Generalization // https://arxiv.org/abs/2010.01412&amp;lt;/ref&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
[[File:image219.png|697x471px]]&lt;br /&gt;
&lt;br /&gt;
Рис. 121. Увеличение точности распознавания изображений на массиве CIFAR-100&lt;br /&gt;
&lt;br /&gt;
Модели, побеждавшие на ILSVRC, стали основой систем, широко применяющихся для решения самых разных прикладных задач: жестового управления устройствами, распознавания лиц и дорожных объектов в автомобильных автопилотах, опухолей на медицинских снимках, текста, мимики, почерка, состава блюд и так далее — в наши дни под самые разные задачи распознавания опубликовано огромное количество публичных датасетов. Одна только моя команда за 2022-й и начало 2023 года разместила в открытом доступе два таких набора данных: HaGRID&amp;lt;ref&amp;gt;Kapitanov A., Makhlyarchuk A., Kvanchiani K. (2022). HaGRID - HAnd Gesture Recognition Image Dataset // https://arxiv.org/abs/2206.08219&amp;lt;/ref&amp;gt;, предназначенный для распознавания 18 управляющих жестов для умных устройств, и Slovo&amp;lt;ref&amp;gt;Kapitanov A., Kvanchiani K., Nagaev A., Petrova E. (2023). Slovo: Russian Sign Language Dataset // https://arxiv.org/abs/2305.14527&amp;lt;/ref&amp;gt; — для распознавания слов русского жестового языка.&lt;br /&gt;
&lt;br /&gt;
Несколько модифицировав архитектуру нейронной сети, можно решать и более сложные задачи, чем просто классификация изображений. Мы уже упоминали некоторые из них при перечислении номинаций в рамках ILSVRC. Например, задача локализации объектов предполагает поиск минимальных по размеру прямоугольников, внутри которых находится интересующий нас объект. Сегодня нейронные сети успешно решают и более сложные варианты задачи распознавания образов, например задачу так называемой сегментации [segmentation], когда сеть должна найти точные контуры интересующих нас объектов. С этой задачей успешно справляются такие архитектуры, как, например, U-Net, разработанная на факультете информатики Фрайбургского университета (Albert-Ludwigs-Universität Freiburg) для задач сегментации медицинских изображений ещё в 2015 г.&amp;lt;ref&amp;gt;Ronneberger O., Fischer P., Brox T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation // https://arxiv.org/abs/1505.04597&amp;lt;/ref&amp;gt; С помощью такой сети можно успешно выявлять аномалии на рентгеновских снимках, находить определённые типы клеток на микрофотографиях тканей живых организмов… А можно, скажем, и удалять нежелательных персонажей с красивых коллективных фото.&lt;br /&gt;
&lt;br /&gt;
[[File:image220.png|697x392px]]&lt;br /&gt;
&lt;br /&gt;
Рис. 122. Пример решения задачи сегментации&lt;br /&gt;
&lt;br /&gt;
Более сложный вариант этой задачи — семантическая сегментация [semantic segmentation], она предполагает выявление на изображениях контуров объектов с заданным названием. Модели, предназначенные для её решения, обычно являются гибридами моделей для решения задач обработки естественного языка и моделей для обработки изображений (обычно свёрточных сетей). К их числу относятся, например, сети, построенные из модулей CMPC (Cross-Modal Progressive Comprehension, Кросс-модальное прогрессивное понимание) и TGFE (Text-Guided Feature Exchange, Управляемое текстом извлечение признаков)&amp;lt;ref&amp;gt;Huang S., Hui T., Liu S., Li G., Wei Y., Han J., Liu L., Li B. (2020). Referring Image Segmentation via Cross-Modal Progressive Comprehension // https://arxiv.org/abs/2010.00514&amp;lt;/ref&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
[[File:image221.jpeg|473x329px]]&lt;br /&gt;
&lt;br /&gt;
Рис. 123. Пример решения задачи семантической сегментации&lt;br /&gt;
&lt;br /&gt;
Революция в компьютерном зрении существенно трансформирует многие отрасли общественной жизни, но было бы ошибкой думать, что она уже свершилась или близка к завершению. По всей видимости, длиться, захватывая и коренным образом меняя всё новые и новые стороны труда и быта, она будет ещё довольно долго, потому что создание и внедрение на базе экспериментальных систем действительно массовых продуктов и сервисов зачастую требует немалого времени и серьёзных ресурсов. Причём когда речь идёт об ИИ-технологиях, одни из важнейших необходимых ресурсов — это квалифицированные специалисты и качественно размеченные данные в необходимых объёмах. И именно они зачастую — в дефиците.&lt;/div&gt;</summary>
		<author><name>Andrey Fedichkin</name></author>
	</entry>
</feed>