Исследование показывает, что лучшие наборы данных, используемые для обучения моделей ИИ и оценки развития технологии с течением времени, пронизаны ошибками маркировки.

Данные являются жизненно важным ресурсом в обучении машин тому, как выполнять определенные задачи, будь то идентификация различных видов растений или автоматическое создание подписей. Большинство нейронных сетей скармливают много-много аннотированных образцов, прежде чем они смогут изучить общие закономерности в данных.

Но эти ярлыки не всегда верны; тренировочные машины, использующие подверженные ошибкам наборы данных, могут снизить их производительность или точность. в вышеупомянутое исследованиепод руководством Массачусетского технологического института аналитики просмотрели десять популярных наборов данных, которые более 100 000 раз цитировались в научных публикациях, и обнаружили, что в среднем 3,4% образцов имеют неправильную маркировку.

Наборы данных, которые они просматривали, варьируются от фотографий в ImageNet до звуков в AudioSet, обзоров, взятых с Amazon, до эскизов в QuickDraw. Примеры некоторых ошибок составлен Исследователи показывают, что в некоторых случаях это явная ошибка, например, рисунок лампочки с меткой крокодила, в других, однако, это не всегда очевидно. Следует ли обозначать изображение ведра с бейсбольными мячами как «бейсбольные мячи» или «ведро»?

Раскрыто шокирующее содержание

Внутри 1TB ImageNet набор данных используется для обучения в мире AI: Голые дети, пьяные вечеринки, братства порно звезды, и многое другое

ПОДРОБНЕЕ

Аннотирование каждого образца — кропотливая работа. Эта работа часто передается на аутсорсинг таким сервисам, как Amazon Mechanical Turk, где работникам платят квадратный корень из всякой ерунды за то, что они просеивают данные по частям, маркируют изображения и аудио для передачи в системы искусственного интеллекта. Этот процесс усиливает предвзятость и ошибки, как задокументировал Vice. здесь.

Читайте также:
В Windows 10 обнаружен серьезный баг

Рабочих заставляют согласиться со статус-кво, если они хотят получать деньги: если многие из них маркируют ведро с бейсбольными мячами как « ведро », а вы решаете, что это « бейсбольные мячи », вам могут вообще не платить, если платформа полагает, что вы, должно быть, ошибаетесь, поскольку идете против толпы или намеренно пытаетесь испортить маркировку. Это означает, что работники выберут самый популярный лейбл, чтобы не выглядеть так, как будто они совершили ошибку. В их интересах придерживаться повествования и не выставляться напоказ. Это означает, что ошибки или, что еще хуже, расовые предубеждения и тому подобное, могут стать снежным комом в этих наборах данных.

Частота ошибок варьируется в зависимости от набора данных. В ImageNet, самый популярный набор данных, используемый для обучения моделей распознаванию объектов, скорость достигает шесть процентов. Учитывая, что он содержит около 15 миллионов фотографий, это означает, что сотни тысяч этикеток ошибочны. Некоторые классы изображений подвержены большему воздействию, чем другие, например, «хамелеон» часто ошибочно принимают за «зеленую ящерицу» и наоборот.

Есть и другие побочные эффекты: нейронные сети могут научиться неправильно связывать объекты в данных с определенными метками. Если, скажем, многие изображения моря, кажется, содержат лодки, и их продолжают отмечать как «море», машина может запутаться и с большей вероятностью неправильно распознает лодки как море.

Проблемы возникают не только при попытке сравнить производительность моделей с использованием этих зашумленных наборов данных. Риски будут выше, если эти системы будут развернуты в реальном мире, — объяснил Кертис Норткатт, со-ведущий автор исследования и аспирант Массачусетского технологического института, а также соучредитель и технический директор ChipBrain, стартапа по машинному обучению. Реестр.

Читайте также:
Плану SAP по внедрению и переходу в облако потребуется нечто большее, чем CGI, чтобы убедить пользователей, что у него есть четкое видение ERP • Реестр

«Представьте себе беспилотный автомобиль, который использует модель искусственного интеллекта для принятия решений о рулевом управлении на перекрестках», — сказал он. «Что произойдет, если беспилотный автомобиль будет обучен на наборе данных с частыми ошибками меток, которые ошибочно определяют трехсторонний перекресток как четырехсторонний? Ответ: он может научиться съезжать с дороги, когда сталкивается с трехсторонним перекрестком. перекрестки.

Что произойдет, если беспилотный автомобиль обучен на наборе данных с частыми ошибками в метках, которые ошибочно определяют трехсторонний перекресток как четырехсторонний?

«Возможно, одна из ваших моделей с искусственным интеллектом на самом деле более устойчива к тренировочному шуму, поэтому она не так сильно уезжает по дороге. Вы никогда не узнаете этого, если ваш тестовый набор слишком шумный, потому что ярлыки вашего тестового набора победили не соответствует действительности. Это означает, что вы не можете правильно определить, какая из ваших моделей искусственного интеллекта автопилота управляется лучше всего — по крайней мере, до тех пор, пока вы не развернете автомобиль в реальном мире, где он может съехать с дороги ».

Когда команда, работающая над исследованием, обучила несколько сверточных нейронных сетей на тех частях ImageNet, которые были очищены от ошибок, их производительность улучшилась. Боффины считают, что разработчикам следует дважды подумать перед обучением больших моделей на наборах данных с высоким коэффициентом ошибок, и советуют им сначала отсортировать образцы. Cleanlab, программное обеспечение, которое команда разработала и использовала для выявления неправильных и несогласованных этикеток, можно найти на GitHub.

Читайте также:
Как включить System UI Tuner на Android, скрытые настройки

«Cleanlab — это пакет Python с открытым исходным кодом для машинного обучения с шумными ярлыками», — сказал Норткатт. «Cleanlab работает, внедряя всю теорию и алгоритмы в подобласти машинного обучения, называемой уверенным обучением, изобретенной в Массачусетском технологическом институте. Я создал cleanlab, чтобы позволить другим исследователям использовать уверенное обучение — обычно с помощью всего нескольких строк кода — но более того. важно, чтобы прогресс науки в машинном обучении был зашумлен, и чтобы новые исследователи могли легко начать работу ».

И имейте в виду, что если метки набора данных особенно дрянные, обучение больших сложных нейронных сетей не всегда может быть таким выгодным. Более крупные модели, как правило, больше подходят для данных, чем более мелкие.

«Иногда использование меньших моделей будет работать для очень зашумленных наборов данных. Однако вместо того, чтобы всегда по умолчанию использовать меньшие модели для очень зашумленных наборов данных, я думаю, что главный вывод состоит в том, что инженеры по машинному обучению должны очищать и исправлять свои наборы тестов, прежде чем они будут сравнивать свои модели. «Норткатт заключил. ®