38
Андрей Устюжанин Обработка данных физики высоких энергий 2 июля 2014

«Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

  • Upload
    yandex

  • View
    14.616

  • Download
    1

Embed Size (px)

Citation preview

Page 1: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

Андрей Устюжанин

Обработка данных физики высоких энергий

2 июля 2014

Page 2: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

Из чего сделана наша вселенная?

Универсальные законы?

Как их проверить?

Что такое антиматерия? темная материя?

Переход от микро-мирак макро-миру?

2

Вопросы «на миллион»

Page 3: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

Экспериментальная наука вчера

3

Page 4: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

Эксперименты сегодня

4

Page 5: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

5

Page 6: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

6

Page 7: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

7

Page 8: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

8

Page 9: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

9

Page 10: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

10

Page 11: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

Модели вычислений

Page 12: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин
Page 13: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин
Page 14: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин
Page 15: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин
Page 16: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

Skynet

Page 17: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

Использование ресурсов GRID

Page 18: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

«Узкие» места GRID

Сложность настройки

Фиксированные настройки окружения

Долгое масштабирование

Опалата времени работы, а не фактических вычислений

18

Page 19: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

Облачные технологии

Предоставление вычислительной инфраструктуры как сервиса

Виртуализация аппаратных ресурсов

Динамическое выделение ресурсов под конкретные нужды

Оплата только за фактическое использование

Широка поддержка open-source & commercial (Amazon EC2, Rackspace OpenStack, T-Systems, Helix Nebula, …)

19

Page 20: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

Облачные технологии

20

Applica'ons+Run+Na'vely+in#Hadoop+

HDFS2+(Redundant,*Reliable*Storage)*

YARN+(Cluster*Resource*Management)***

BATCH+(MapReduce)+

INTERACTIVE+(Tez)+

STREAMING+(Storm,+S4,…)+

GRAPH+(Giraph)+

INLMEMORY+(Spark)+

HPC+MPI+(OpenMPI)+

ONLINE+(HBase)+

OTHER+(Search)+(Weave…)+

Page 21: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

YARN

21

Page 23: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

Пример Panda & ATLAS (http://bit.ly/UtlQxM)

23

Page 24: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

Примеры задач

Симуляция событий (MC)

Поиск реальных и MC-событий

Онлайн анализ

Офлайн анализ

Сохранение данных (интерфейс доступа)

Сохранение кода и структуры анализа

24

Page 25: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

Анализ данных

Page 26: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

Индикаторы сложности

‘Каким способом я сгененировал график 13?’

‘Новый студент хочет воспользоваться моделью, опубликованной мной 3 года назад, но я не могу воспроизвести ни одного графика’

‘Я думал, что использую те же параметры, но у меня получаются другие результаты!?I’

‘Где взять события, отобранные предыдущей версией моих скриптов?’

‘Оно работало еще вчера!’

‘Зачем я это сделал?’

26

Page 27: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

Источники сложности

Физика

Работа с данными

Стратегия анализа (http://bit.ly/SqDDE4)

Шаги анализа

Командное взаимодействие

27

Page 28: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

Экосистема для экспериментов

Программная среда для поддержки экосистемы совместной исследовательской работы над общими задачами, позволяющая:

выполнять численные эксперименты над большими объемами данных

получать воспроизводимые результаты,

использовать единообразные критерии качества.

28

Page 29: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

ROOT PyROOT

Plotly, D3s

Matplotlib SciKit-Learn

EF Python Wrapper

!!!!!

EF0

29

MN

Page 30: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

Основные компоненты

30

Page 31: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

Текст перед кодом:

self.rsp.removeHeader("Transfer-Encoding");

Заголовок (не длинней одной строки)

31

Page 32: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

Школа Анализа Данных

Page 33: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

33

Студенты ШАД

Физика 25%

! !!Математика 70%

Инженерные 5%

Page 34: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

34

Алгоритмы и структуры данных

Машинное обучение

Теория вероятности, статистика

Машинный перевод

Обработка изображений

Основные курсы

Page 35: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

Школа Анализа Данных Яндекса

35

!

Кафедра в ведущих ВУЗах (МФТИ, МГУ, ВШЭ, …)

Факультет компьютерных наук в ВШЭ

Аспирантура в МФТИ, ВШЭ,

Публикации в ведущих изданиях

Стажировка студентов из европейских ВУЗов

Исследовательские работы

Page 36: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

36

109

cuts

N

M

+ I

II?

Bs ! µ+µ�

Bs ! 4µ⌧ ! 3µB ! K⇤µ+µ�

· · ·

Сравнение гипотез

Page 37: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

Равномерность эффективности

37

ROC:

Равномерность:

Page 38: «Совместные IT-проекты ШАД и SHIP», Андрей Устюжанин

Заключение

Наши сервисы могут быть востребованы в SHIP

– event index – event filter

Задачи SHIP - новое направление исследований

– модель распределенных вычислений У нас есть технологии, для развития этого направления

Это интересно ШАДу, а Вам?

38