Facebook обучил свою самую продвинутую полууправляемую систему компьютерного зрения на наборе данных из миллиарда общедоступных изображений, взятых из Instagram, другой его социальной сети.

Эта массивная сверточная нейронная сеть, известная как SEER, сокращенно от SElf-supERvised, содержит более миллиарда параметров. Если вы покажете ему изображения вещей, он опишет словами то, что он узнает: велосипед, банан, зонтик для гольфа в красно-синюю полоску и так далее. Хотя его возможности не так уж и новы, способ его обучения отличается от методов, используемых для обучения другим типам моделей компьютерного зрения. По сути, SEER частично обучился, используя подход, называемый самоконтролем, который, как ожидается, однажды может быть использован, чтобы дать компьютерам базовое понимание мира — то, что вы могли бы назвать здравым смыслом.

Во-первых, он научился группировать изображения Instagram по их сходству без какого-либо контроля или маркировки, используя алгоритм под названием SwAV. Затем команда доработала модель, научив ее связывать миллион фотографий, взятых из набора данных ImageNet, с соответствующими метками, написанными человеком. Этот этап был традиционным контролируемым методом: люди курировали фотографии и ярлыки, и это передавалось в нейронную сеть, которая была предварительно обучена сама.

Таким образом, программное обеспечение знакомится с миллиардом изображений из Instagram, узнает, как группировать похожие изображения, а затем обучается подписывать эти изображения из миллиона примеров ImageNet. Нам это кажется более эффективным, чем точное обозначение миллиарда граммовых снимков для передачи в нейронную сеть.

«Мы воспользовались преимуществом нового алгоритма под названием SwAV, который был разработан на основе исследования FAIR для самостоятельного обучения», — заявили участники Facebook Прия Гоял, Витторио Каджано, Петр Бояновски и Арман Джоулин. объяснил на этой неделе со ссылкой на Facebook AI Research, также известную как FAIR.

Читайте также:
SanDisk's «Industrial» SD-карты могут выдерживать экстремальные температуры

«SwAV использует онлайн-кластеризацию, чтобы быстро группировать изображения с похожими визуальными концепциями и использовать их сходство. Благодаря SwAV мы смогли улучшить по сравнению с предыдущим уровнем техники самостоятельное обучение — и сделали это с сокращением времени обучения в 6 раз».

Таким образом, ВИДЯЩИЙ научился ассоциировать изображение, скажем, красного яблока с описанием «красное яблоко». После обучения навыки распознавания объектов модели были протестированы с использованием 50 000 изображений из ImageNet, которых она раньше не видела: в каждом тесте она должна была произвести набор предсказаний того, что изображено, с ранжированием по степени достоверности от высокого к низкому. Нам сказали, что его лучший прогноз в каждом тесте был точным в 84,2% случаев.

Модель не набрать так же высоко как его коллеги по тестированию ImageNet. Обратной стороной таких моделей, как SEER, является то, что они менее точны, чем их кузены под присмотром. Тем не менее, есть преимущества в обучении под непосредственным руководством, Гоял, первый автор проекта бумага на SEER, сказал Реестр.

«Используя предварительное обучение самоконтроля, мы можем учиться на более разнообразном наборе изображений, поскольку нам не нужны ярлыки, курирование данных или какие-либо другие метаданные», — сказала она. «Это означает, что модель может узнать больше о визуальных концепциях в world в отличие от контролируемого обучения, когда мы можем тренироваться только на ограниченных или небольших наборах данных, которые тщательно отобранны и не позволяют нам уловить визуальное разнообразие мира ».

facebook

Читайте также:
Телефоны с Android One за менее чем $50

Сотни модераторов Facebook жалуются: модерация AI-контента не работает, и мы за это платим

ПРОЧИТАЙТЕ БОЛЬШЕ

Гоял считает, что этот метод окажется полезным в таких областях, как медицинская визуализация, где сложно собрать большие размеченные наборы данных из частных клинических данных. «Результаты работы SEER демонстрируют, что обучение под самоконтролем может преуспеть в решении задач компьютерного зрения в реальных условиях. Это крупный прорыв, который в конечном итоге открывает путь к более гибким, точным и адаптируемым моделям компьютерного зрения в будущем », — сообщила команда.

SEER обучался в течение восьми дней с использованием 512 графических процессоров. Код модели не является общедоступным, хотя VISSL, библиотека PyTorch, которая использовалась для создания SEER, теперь доступна. GitHub.

Facebook сообщил нам, что SEER остается экспериментальной идеей и на данный момент не будет использоваться для поддержки каких-либо функций или продуктов веб-гиганта. ®