6
Артур Кадурин Андрей Иванов Владимир Шакиров Павел Нестеров Владислав Беляев

DeepHack.Game Skynet team

Embed Size (px)

Citation preview

Page 1: DeepHack.Game Skynet team

Артур Кадурин Андрей Иванов

Владимир Шакиров Павел Нестеров

Владислав Беляев

Page 2: DeepHack.Game Skynet team

Сделать ИИ для игры в компьютерные игры серии Atari 2600 (49 игр) лучше, чем Google

Результаты Google:22 из 49 игр лучше человека43 из 49 игр лучше существующих ИИ решений

Задача

Page 3: DeepHack.Game Skynet team

Что такое Глубокое обучение?

Page 4: DeepHack.Game Skynet team

Модель решения

Page 5: DeepHack.Game Skynet team

ИдеиИграть «умнее»

Искать новую стратегию

1. Выбирать больше случайных действий для обучения, если сессия длится долго

2. После 500 000 шагов обучения, периодически (например, каждые 100 из 1000) блокировать действия, которые предсказываются по выбранной стратегии

3. Увеличить количество полносвязанных слоев

4. Изменить размер сверточных фильтров на 3х3 и увеличить количество сверточных слоев

Играть «дольше»Давать за смерть отрицательный ревард (фиксированный или в зависимости от последних 10 ревардов)

«Глубокое» изменение архитектуры сети и прочие идеи1. Научиться предсказывать все следующие кадры для всех

возможных действий2. Сделать претрейн сети на кадрах из всех трех игр или

взять натренированную сеть для старта3. Сделать больше входных данных, добавив

искусственные кадры с выделенным движением

Результаты хуже

Не успели попробовать

Результаты лучше

Не удалось запустить

Результаты лучше

Не успели попробовать

Не успели попробовать

Не успели попробовать

Page 6: DeepHack.Game Skynet team

Решение и результаты1. Добавлено 2 полносвязанных слоя нейронной сети

2. За смерть дается отрицательный ревард: max ( - половина от среднего реварда за последние 10 игр, -100)

Репрезентативное сравнение не проводилось

Seaquest, Space Invaders, H.E.R.O.

Решение Игра Количество шагов Наш результат Google

2 Tutankhamon 500 000Среднее за 10 игр

45Среднее за 10 игр

3

1 Gopher 1 125 000Среднее за 10 игр

750Среднее за 10 игр

480 (на 3 000 000 шагов)

1 и 2 Kung Fu Fighter 4 000 000Максимум27 800

Среднее по статье23 270 (+- 5955)(на 50 000 000 шагов)