Upload
deephacklab
View
316
Download
2
Embed Size (px)
Citation preview
Артур Кадурин Андрей Иванов
Владимир Шакиров Павел Нестеров
Владислав Беляев
Сделать ИИ для игры в компьютерные игры серии Atari 2600 (49 игр) лучше, чем Google
Результаты Google:22 из 49 игр лучше человека43 из 49 игр лучше существующих ИИ решений
Задача
Что такое Глубокое обучение?
Модель решения
ИдеиИграть «умнее»
Искать новую стратегию
1. Выбирать больше случайных действий для обучения, если сессия длится долго
2. После 500 000 шагов обучения, периодически (например, каждые 100 из 1000) блокировать действия, которые предсказываются по выбранной стратегии
3. Увеличить количество полносвязанных слоев
4. Изменить размер сверточных фильтров на 3х3 и увеличить количество сверточных слоев
Играть «дольше»Давать за смерть отрицательный ревард (фиксированный или в зависимости от последних 10 ревардов)
«Глубокое» изменение архитектуры сети и прочие идеи1. Научиться предсказывать все следующие кадры для всех
возможных действий2. Сделать претрейн сети на кадрах из всех трех игр или
взять натренированную сеть для старта3. Сделать больше входных данных, добавив
искусственные кадры с выделенным движением
Результаты хуже
Не успели попробовать
Результаты лучше
Не удалось запустить
Результаты лучше
Не успели попробовать
Не успели попробовать
Не успели попробовать
Решение и результаты1. Добавлено 2 полносвязанных слоя нейронной сети
2. За смерть дается отрицательный ревард: max ( - половина от среднего реварда за последние 10 игр, -100)
Репрезентативное сравнение не проводилось
Seaquest, Space Invaders, H.E.R.O.
Решение Игра Количество шагов Наш результат Google
2 Tutankhamon 500 000Среднее за 10 игр
45Среднее за 10 игр
3
1 Gopher 1 125 000Среднее за 10 игр
750Среднее за 10 игр
480 (на 3 000 000 шагов)
1 и 2 Kung Fu Fighter 4 000 000Максимум27 800
Среднее по статье23 270 (+- 5955)(на 50 000 000 шагов)