В OpenAI показали, как обмануть нейросеть бумажкой с надписью

Исследователи OpenAI рассказали, что они открыли простой способ обмануть свое собственное программное обеспечение для распознавания объектов. Для этого требуются всего лишь ручка и бумага.

Новейшую модель компьютерного зрения CLIP оказалось просто обмануть с помощью так называемой «типографской атаки». Если написать «iPod» или «пицца» на стикере и приклеить его к яблоку, то CLIP ошибочно классифицирует фрукт как плеер или блюдо.

Руководители проекта отметили, что «эта атака работает без ограничений» и «для нее не требуется серьезных технологий».

CLIP оказалось не единственным ПО, которое попалось на простую уловку. Ранее исследователям с помощью липкой ленты удалось обмануть автопилот Tesla и заставить его неправильно интерпретировать знак «35 миль в час» как знак «85 миль в час».

Модель OpenAI была обучена с использованием изображений текста, а также изображений объектов из Интернета. Этот подход применили для того, чтобы CLIP оставался универсальным без переобучения.

По словам представителей OpenAI, CLIP может изучать абстрактные концепции в различных представлениях. Например, модель может распознать Человека-паука, когда супергерой изображен на фотографии, в виде эскиза или описан текстом. Распознавание происходит с помощью так называемых мультимодальных нейронов.

Однако сильная сторона модели, которая заключается в ее универсальности, превращается в недостаток, поскольку мультимодальные нейроны не могут распознать яблоко, если видят слово «пицца».

OpenAI заявила, что CLIP пока используется только для исследовательских целей, и компания все еще думает над тем, публиковать ли ее код – Habr.