Thumbtack Expertise Days # 5 - Dataset

Выбор языка запросов для извлечения фактов из вашего Dataset

Зиновьев Алексей

Давайте жнакомиться!• отважный житель

солнечного Питербурха

• любитель Pig Latin и Hive

- ненавистник

• вечерами думает как вершина, а по утрам подгружает в память события прошедшего дня

Жила-была задачка

Некая соц.сетьВ целом:● 200 000 000 пользователей● 8 500 000 сообществВ сутки:● 40 000 000 пользователей● 250 000 000 сообщений● 8 000 000 постов● 12 000 000 фотографий● 7 000 000 дружб

Вредоносная деятельность● Нарушение законов этики, морали и статей УК РФ

● Создание “теневой” подсети спам-аккаунтов

● Взлом профилей реальных пользователей

● Рассылка спама со своих и взломанных профилей

● Привлечение внимание при помощи появления в списке

посетивших страницу пользователя

Выгоды соц.сети● Предотвращаем распространение “эпидемий” по взлому

профилей и утечку персональных данных

● Предотвращаем спам до его появления

● Уменьшаем количество жалоб

● Снижаем нагрузку на модераторов

● Сокращаем штат модераторов

Данные● Граф связей (~ 9 * 10^6, 39 Гб)

● Демография

● “Лайки/Классы” пользователей

● История “логинов” (включая неудачные попытки

авторизации) (~ 3,2 * 10^8, 12 Гб)

● Посты в группах

● Жалобы на спам

А что нужно делать-то? Необходимо на основании графа друзей, истории заходов в соц.

сеть, а также анализа иной деятельности предложить мат.модель,

позволяющую с высокой достоверностью (ошибка первого рода не

более 1% и ошибка второго рода не более 10%) определять, что

пользователь является злоумышленником.

Существующее на данный момент решение имеет ошибку первого

рода более 10% и ошибку второго рода более 20%.

Основные признаки● Local feature: степень вершины

● Global feature: значение PageRank для каждой вершины

● Global-local feature: значение локального коэффициента

кластеризации (LCC)

● Количество попыток аутентификации

● Анкетные данные (пол, возраст, регион проживания)

● Удаленность от столицы и от государственных границ

Распределение числа друзей

Набор инструментов

● R 3.0.3 ( прототипирование моделей)

● python 23 + scypi + numpy + pandas (моделирование)

● Hadoop 2.6 (кластерная инфраструктура)

● Pig 14 (вычисление неграфовых признаков)

● Giraph 1.1 (вычисление графовых признаков)

● Cloud Storage + BigQuery для тяжелых агрегатов

● Hive баловства ради

Виды Hadoop - фреймворков

● Универсальные (низкоуровневое API :

MapReduce/Spark/Tez)

● Абстрактные (Pig, Crunch)

● SQL - подобные (Hive, Impala, Shark)

● Процессинг графов (Giraph, GraphX или GraphLab)

● Машинное обучение (Mahout, MLib, Oryx)

● Потоковая обработка (Spark Streaming, Storm)

● MapReduce в памяти

● Иногда в 100 раз быстрее

MapReduce

● Поддержка Shark (SQL), MLlib

(Machine learning), GraphX

● RDD - базовый строительный блок

(неизменяемая распределнная

коллекция объектов)

MapReduce vs Spark

MapReduce исповедует однопроходную модель вычислений

со множеством чтений/записей с диска, плох в итеративной

обработке

Spark хорош в обработке потоковых данных, число

чтений/записей с диска уменьшено по сравнению с

MapReduce

Свинья везде грязь найдет● Режим MapReduce и local

● Легкие настройки hadoop - кластера

● Ленивое исполнение и возможность пошаговой отладки

● 10 строк вместо 10 джоб

● Встроенные команды работы с HDFS

● Работа со сложными иерархическими схемами данных

● Возможность написания пользовательских функций

Стадии обработки и выполнения вашего скрипта

Операторы Pig превращаются в цепочку map/reduce - задач

Свинья везде грязь найдет● Можно написать свою процедуру парсинга/загрузки

● Множественные способы группировки и объединения

данных (JOIN, CROSS, COGROUP, GROUP, UNION,

SPLIT)

● Полноценный FOREACH

● Подробная пошаговая инструкция трансформации ваших

данных

Старый друг лучше новых двухПриходит время, когда вам нужно обрабатывать большие, но

однородные, плоские, данные с постоянной структурой.

Вы не готовы писать на “среднеуровневом” Pig и хотите

применить свой опыт в SQL.

Hive - спасение для аналитиков из Facebook

Старый друг лучше новых двух● У вас появляется метахранилище со схемами таблиц

● Вы обнаружите у себя в HDFS много всего интересного

● Вам придется повозиться с настройками

● У вас появляются индексы и возможность не сканировать

всю таблицу при поиске пары записей

● и даже какие-то транзакции!!!!

● Обилие форматов хранения данных

Разный подход к параллелизации

На плечах титанов

Почему Giraph?

● Open-source воплощение Pregel

● Запускалось на уже имеющейся инфраструктуре Hadoop

● Вычисления происходят в памяти (а ее было достаточно)

● Простая возможность для проведения итерационных

вычислений (важно при вычислении PageRank)

А что происходит на самом деле?

Ну если совсем лень...

Google Cloud Platform● App Engine

● Big Query

● Cloud SQL

● Cloud Storage

● Compute Engine

Пластиковые вилки для макарон

Compute Engine● Инфраструктура как сервис

● Linux VM вместе с дисками и айпишниками

● От 1 слабенького ядра до серьезного кластера

● Особенно приятно на таком масштабируется Hadoop

● И да, это очень напоминает Amazon

Cloud Storage

● Объекты хранятся в бакетах - неизменяемых

структурированных кучках данных размером до 5ТБ

● Хорошо подходит для хранения сырых датасетов и логов

● Интегрируется со всеми другими гугловыми сервисами (и

не только с ними)

Big Query

● Похож на SQL с небольшой примесью самописных

функций

● Может обрабатывать данные, хранящиеся в Cloud

Storage

● Пробегает по таблице в 1 Тб за секунды

● Опирается на мощь движка Dremel

Пример

Почему-то я задаю вопросы...

1. Можно ли запустить Pig не на Hadoop - кластере?

2. Можно ли задавать разный уровень параллелизма в Pig для разных операторов?

3. Можно ли было обойтись без Giraph при вычислении графовых фич в моей задаче?

Thumbtack Expertise Days # 5 - Dataset

Technology

Modernizing your analytics environment Toronto Data ... · about Deloitte’s past experiences on the same subject matter KAGGLE DATASET DELOITTE EXPERTISE SAS SOLUTIONS Business

2016 Thumbtack Small Business Friendliness Survey: Methodology & Analysis

Stanford University · 3.1 Dataset SQuAD dataset is a machine comprehension dataset on Wikipedia articles with more than 100,000 questions [1]. The dataset is randomly partitioned

Onboarding Teardown for Thumbtack iOS

SDSS Dataset and SkyServer Workloadsdatasys.cs.iit.edu/reports/2006_SDSS-DataSet-and-SkyServer-Workloads-v03.pdfSDSS Dataset and SkyServer Workloads Ioan Raicu Page 1 of 9 SDSS Dataset

NoSQL thumbtack experience, Анатолий Никулин

Supporting Information S1. The benchmark dataset consists ... · 1 Supporting Information S1. The benchmark dataset consists of a positive dataset and a negative dataset . The positive

Pitch koudetat - thumbtack

1 Chapter 9: Introduction to Inference. 2 Thumbtack Activity Toss your thumbtack in the air and record whether it lands either point up (U) or point down

DataSet Pro DataSet Pro Vous présente Introduction

OpenSketch: A Richly-Annotated Dataset of Product Design ... · photorealistic rendering and sketch filtering. However, sketching requires significant expertise and time, making design

2015 Thumbtack SBFS Methodology

Coding ADO.Net DataSet Objects ISYS 512. DataSet Object A DataSet object can hold several tables and relationships between tables. A DataSet is a set

Thumbtack clone

Here’s your Thumbtack - static.thumbtackstatic.com

Law Firm Expertise dataset Law Firm Expertise and Mergers and Acquisition Outcomes, Journal of Law … · 1 Law Firm Expertise dataset Acquirer and Target Legal Advisor Market Share

How to do programmatic SEO like Yelp and Thumbtack

Build a peer-to-peer service marketplace using thumbtack clone script

The highD Dataset: A Drone Dataset of Naturalistic Vehicle

Angie's List, Yelp, Thumbtack,LivingSocial | Company Showdown