Институт OpenAI, который финансирует в том числе Илон Маск, представил новое исследование машинного обучения и создал демонстрацию технологии на основе боёв сумо.

Оба компьютерных бота сталкиваются в поединке и учатся в быстро изменяющейся среде, чтобы победить соперника.

Инженеры OpenAI вдохновились тем, как животные учатся на обратной связи, и использовали эту технику, чтобы обучить машины. Также в исследовании задействован алгоритм обучения с подкреплением (вид машинного обучения) PPO (proximal policy optimization), разработанный внутри организации ранее. Он лишён недостатков обычного обучения с подкреплением, среди которых плохая работа с быстро изменяющейся средой, например, во время игр.

Специалисты OpenAI смогли добиться от машины того, что называют «мета-обучением» (meta-learning). Это значит, что компьютер делает прогнозы на основе предыдущего опыта и может применить их к новой ситуации.

Как следует из видео, в виртуальной среде RoboSumo боты сначала сражались случайным образом без какой-либо тактики. Однако спустя тысячи итераций ошибок и попыток, они развили способность двигаться и драться. Ещё через какое-то время машины уже научились избегать друг друга и ставить под сомнения собственные действия. Обучение происходило «на лету», пока боты сражались друг с другом в реальном времени.

Подписывайтесь на наши каналы telegram в Тelegram и telegram в Youtube