Обучение современных нейросетей требует тщательной настройки значений миллионов или даже миллиардов параметров, представляющих силу связей между искусственными нейронами. Цель состоит в том, чтобы найти для них почти идеальные значения, но достичь ее непросто. В итоге обучение занимает дни, недели или даже месяцы. Однако Борис Князев из Университета Гвельфа в Онтарио и его коллеги разработали и обучили «гиперсеть», которая может ускорить процесс обучения.
Гиперсеть предсказывает параметры новой нейросети за доли секунды, и теоретически может сделать ее обучение ненужным. Она изучает чрезвычайно сложные модели глубоких нейронных сетей.
На данный момент гиперсеть работает хорошо в определенных заданных условиях, но ее будут развивать дальше.
В настоящее время лучшими методами обучения и оптимизации глубоких нейронных сетей являются вариации метода, называемого стохастическим градиентным спуском (SGD). Обучение включает в себя минимизацию ошибок, которые сеть допускает при выполнении задачи, например, при распознавании изображений. Алгоритм SGD обрабатывает множество размеченных данных, чтобы настроить параметры сети и уменьшить количество ошибок или потерь. Градиентный спуск — это итеративный процесс спуска от высоких значений функции потерь к некоторому минимальному значению.
Но этот метод работает только тогда, когда нейросеть нужно оптимизировать. Чтобы построить начальную нейросеть, обычно состоящую из нескольких слоев искусственных нейронов, инженеры должны полагаться на интуицию и эмпирические правила.
Теоретически можно перебрать множество архитектур, а затем оптимизировать каждую и выбрать лучшую. Но на это требуется много времени.
Поэтому исследователи разработали так называемую графовую гиперсеть (GHN), чтобы найти наилучшую архитектуру глубокой нейронной сети для решения определенной задачи, учитывая набор архитектур-кандидатов.
Архитектуру глубокой нейросети можно рассматривать как математический граф — набор точек или узлов, соединенных линиями. Узлы представляют собой вычислительные единицы.
Графовая гиперсеть изучает и предсказывает идеальные параметры для архитектуры, которую необходимо оптимизировать. Затем команда устанавливает параметры реальной нейросети в соответствии с предсказанными значениями и тестирует ее на заданной задаче. Метод можно также использовать для ранжирования архитектур-кандидатов и выбора наиболее эффективной.
Затем исследователи поняли, что могут развить гиперсеть. Они показали, как использовать GHN не только для поиска лучшей архитектуры из некоторого набора образцов, но и для прогнозирования параметров сети, чтобы она работала хорошо.
Гиперсеть GHN-2 улучшает два важных аспекта графовой гиперсети, построенной ранее. Ранее для обучения гиперсети делать прогнозы для новых архитектур-кандидатов требовались две другие нейронные сети. Первая позволяет выполнять вычисления на исходном графе-кандидате, что приводит к обновлению информации, связанной с каждым узлом, а вторая принимает обновленные узлы в качестве входных данных и прогнозирует параметры для соответствующих вычислительных блоков нейронной сети-кандидата. Эти две сети также имеют свои собственные параметры, которые необходимо оптимизировать, прежде чем гиперсеть сможет правильно предсказывать значения параметров. Для этого нужны обучающие данные — в данном случае случайная выборка возможных архитектур искусственных нейронных сетей (ИНС).
Команда написала собственное программное обеспечение, в котором определила 15 типов узлов для смешивания и сопоставления при построении практически любой современной глубокой нейросети. Был создан уникальный набор данных из 1 млн возможных архитектур.
Затем исследователи проверили способность GHN-2 предсказывать параметры для любой случайной архитектуры-кандидата. Этот новый кандидат может иметь свойства, схожие с миллионами архитектур в наборе обучающих данных, либо он может отличаться.
Команда спрогнозировала параметры для 500 ранее неизвестных случайных целевых сетевых архитектур. Затем эти 500 архитектур, параметры которых были установлены на предсказанные значения, были сопоставлены с теми же сетями, обученными с использованием стохастического градиентного спуска. Новая гиперсеть часто выдерживала тысячи итераций SGD, а временами работала даже лучше, хотя некоторые ее результаты были более неоднозначными.
Для набора данных изображений, известного как CIFAR-10, средняя точность GHN-2 на распределенных архитектурах составила 66,9%, что приближается к средней точности 69,2%, достигнутой сетями, обученными с использованием 2500 итераций SGD. Для архитектур вне распределения GHN-2 показал себя на удивление хорошо, достигнув точности около 60%. В частности, он достиг точности 58,6% для конкретной хорошо известной архитектуры глубокой нейронной сети под названием ResNet-50, которая примерно в 20 раз больше, чем средняя обучающая архитектура.
GHN-2 не так хорошо работала с ImageNet, значительно большим набором данных: в среднем точность составляла всего около 27,2%. Тем не менее, это больше средней точности 25,6% для тех же сетей, обученных с использованием 5000 итераций SGD. GHN-2 делает свои прогнозы ImageNet менее чем за секунду, тогда как использование SGD позволяет получить ту же производительность при временных затратах в 10 000 выше.
Когда GHN-2 находит лучшую нейронную сеть для задачи из выборки архитектур, вместо запуска SGD в сети можно использовать прогнозы гиперсети в качестве отправной точки.
Исследователи видят много возможностей для улучшения GHN-2. Ее можно обучить только прогнозированию параметров для решения данной задачи, такой как классификация изображений CIFAR-10 или ImageNet. В будущем возможно обучение графовых гиперсетей на большем разнообразии архитектур и различных типах задач (например, распознавание изображений, распознавание речи и обработка естественного языка).
Если гиперсети докажут свою эффективность, то проектирование и разработка новых глубоких нейросетей больше не будет ограничиваться большими компаниями с доступом к большим данным. Исследователи видят в этом потенциал для «демократизации глубокого обучения».
Однако есть и проблемы. если GHN-2 станет стандартным методом оптимизации нейросетей, то предсказание параметров будет представлять собой «черный ящик», и, если гиперсеть допустить ошибку, то у исследователей не будет возможности это проверить.
Обычно глубокие нейросети находят закономерности в изображениях, тексте или звуках, которые представляют собой достаточно структурированные типы информации. GHN-2 находит закономерности в графах совершенно случайных архитектур нейронных сетей. И все же гиперсеть может обобщать — это означает, что она может делать разумные прогнозы параметров для невидимых и даже вне распределенных сетевых архитектур. Таким образом, модель может научиться передавать знания из одной архитектуры в другую – пишет Habr.com.