Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... ·...

Split Query Processing in Polybase

Varun SriramFrederick Widjaja

Problem: Querying Data in Multiple Formats

Relational “Structured” Distributed File System “Unstructured”

When do we use each?

In what situations (if ever) do we need both?

Problem: Querying Data in Multiple Formats“SQL-on-Hadoop”

Native Hadoop systems Database-Hadoop hybrids

Problem: Querying Data in Multiple Formats“SQL-on-Hadoop”

Native Hadoop systems Database-Hadoop hybrids

Why do we need SQL to query each?

Existing Solution: EXTERNAL TABLES

Existing Solution: Hadapt

Hadapt: 2 selects and 1 join

Filter

Join via MapReduce

Join in PostgreSQL

Polybase: PDW Architecture

Polybase: EXTERNAL TABLES

Polybase: Communicating With HDFS

Polybase USe CASES

QUERY OPTIMIZATION

SELECT count (*) from CustomerWHERE acctbal < 0GROUP BY nationkey

Table Customer is stored on HDFS

QUERY OPTIMIZATION

JOIN ON PDW/HDFS

Perform Join with Map-Reduce Perform Join in PDW

JOIN ON HDFS/HDFS

Perform Join with Map-Reduce Perform Join in PDW

EXPERIMENT GOALS

Is this the right approach?

EXPERIMENT QUERY 1

SELECT TOP 10 unique1, unique2, unique4, stringu1, stringu2, string4FROM T1WHERE (unique1 % 100) < T1-SFORDER BY unique1

Table T1 is stored on HDFS

EXPERIMENT QUERY 1 - Results

16 node PDW cluster and48 node Hadoop cluster(C-16/48)

30 node PDW cluster and30 node Hadoop cluster(C-30/30)

60 node PDW cluster and60 node Hadoop clusterco-located on the same nodes(C60)

EXPERIMENT QUERY 2SELECT TOP 10 T1.unique1, T1.unique2, T2.unique3, T2.stringu1, T2.stringu2FROM T1 INNER JOIN T2 ON (T1.unique1 = T2.unique2)WHERE T1.onePercent < T1-SF AND T2.onePercent < T2-SFORDER BY T1.unique2

“Independent” join of T1 and T2

EXPERIMENT QUERY 2

C-16/48 C-30/30 C60

EXPERIMENT QUERY 3SELECT TOP 10 T1.unique1, T1.unique2, T2.unique3, T2.stringu1, T2.stringu2FROM T1 INNER JOIN T2 ON (T1.unique1 = T2.unique1)WHERE T1.onePercent < T1-SF AND T2.onePercent < T2-SFORDER BY T1.unique2

“Correlated” join of T1 and T2

EXPERIMENT QUERY 3

C-16/48 C-30/30 C60

NEXT STEPS

NEXT STEPS● Realistic workload experiments comparing to other versions of

database/Hadoop hybrid systems● More investigation into optimal cost-based query optimizers, and what

factors should go into it

Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... ·...

Documents

Polybase: What, Why, How

Hadoop Hadoop & Spark meetup - Altiscale

Split Query Processing in Polybase - Microsoft Azuregsl.azurewebsites.net/Portals/0/Users/Projects/polybase/...structured data in a relational DBMS and unstructured data in Hadoop

· (Page views ? Hourly? Monthly Hadoop Node Hadoop Node Hadoop Camus Node Hadoop Node Hadoop Node Hadoop Node Hadoop Node Hadoop Node Ad-Hoc Analysis External Datastores Trends

Sponsorzy strategiczni Sponsorzy srebrni. PolyBase – data beyond tables Hubert Kobierzewski

Deeper insights across data with SQL Server 2016download.microsoft.com/download/F/C/2/FC21C981-4351-4434-A78A-3384...Deeper insights across data with SQL Server 2016 | 7 PolyBase PolyBase

Introduction to PolyBase

Deep-Dive into Polybase - Gerhard Brueckl's BI Blog...Deep-Dive into Polybase Big Data for SQL Server 2016 Gerhard Brueckl 08.10.2016 SQLSaturday #555 Munich 2016 Our Sponsors 08.10.2016

SQL Server 2016 - assets.microsoft.com · PolyBase SQL Server Hadoop T-SQL query •Manage structured & unstructured data •Simple T-SQL to query Hadoop (HDFS) •JSON support Quote:

Why use Hadoop?, Challenges / Learning Hadoop & Average Salary of Hadoop Professional

Polybase en SQL Server 2016

2. Hadoop - lsd.ls.fi.upm.eslsd.ls.fi.upm.es/nuevas-tendencias-en-sistemas-distribuidos/Hadoop_… · Hadoop Hadoop Software Ecosystem Hadoop MapReduce Hadoop Distributed File System

SQL Saturday Paris 2015 - Polybase

Hadoop Training #4: Programming with Hadoop

Trivadis TechEvent 2016 Polybase challenges Hive relational access to non-relational HDFS by Olaf Nimz

Curso Hadoop. FcoJavierLahozSevilla v1.0.pdf · Introducción+a Hadoop. InstalaciónenAWS • Parte+1.+Introducción+a Hadoop+ – ¿Que+es+Hadoop?+ – Versionesde+Hadoop+ – Gesón

New features in ASP.NET 5 - Amazon S3 · 2016-04-14 · PolyBase PolyBase allows you to query distributed data sets. With the introduction of PolyBase you will be able to use Transact

Hadoop Online Tutorials - indiatrainings.in · Menu Search Hadoop Online Tutorials Author REPLY #1825 Hadoop Eco System › Forums › Hadoop Discussion Forum › 250 Hadoop Interview

Deep-Dive into SQL Server Polybasesqlkonferenz.de/files/1_2_1115_Deep Dive into Polybase.pdf · 2019-10-08 · Polybase •Introduction •Setup ... SSIS / Polybase SSRS / Power BI

Hadoop Present - Open Enterprise Hadoop