20
HadoopDB از ی ب ی ک ر تزیا م ع م ک ی: MapReduce وDBMS ه ت ف ر ش ی# یه داده گا ای) ی دزس پ ی ها ن ه1 ازائ ز گذ ه ود ز ع س م ر کت اد دزس: د ت س ا ی ب ی ت گ پ ا ا رض لت ع ذه: ت ه ه د1 ازائ

HadoopDB : یک معماری ترکیبی از MapReduce و DBMS

Embed Size (px)

DESCRIPTION

HadoopDB : یک معماری ترکیبی از MapReduce و DBMS. ارائه نهایی درس پایگاه داده پیشرفته استاد درس: دکتر مسعود رهگذر ارائه دهنده: علیرضا انگبینی. منبع اصلی. - PowerPoint PPT Presentation

Citation preview

Page 1: HadoopDB : یک معماری ترکیبی از  MapReduce   و  DBMS

HadoopDB یک معماری ترکیبی :

DBMS و MapReduceاز

ارائه نهایی درس پایگاه داده پیشرفته

استاد درس: دکتر مسعود رهگذر

ارائه دهنده: علیرضا انگبینی

Page 2: HadoopDB : یک معماری ترکیبی از  MapReduce   و  DBMS

منبع اصلی A. Abouzeid, A. Silberschatz, and A. Rasin, "Hadoopdb: An

architectural hybrid of mapreduce and dbms technologies for

analytical workloads," VLDB'09, 2009, pp. 1084--1095.

Page 3: HadoopDB : یک معماری ترکیبی از  MapReduce   و  DBMS

فهرست

مقدمه

MapReduce

Parallel Databases

معماریHadoopDB

نتایج اجرا

نتیجه گیری

Page 4: HadoopDB : یک معماری ترکیبی از  MapReduce   و  DBMS

مقدمه

انفجار حجم داده ها

اتوماسیون در فرایندهای کسب وکار◦

افزایش تجهیزات دیجیتال◦

eBay 6.5 PB مثال-◦

Yahoo 10+ PB

افزایش نیاز به تحلیل داده های خام برای

کاربردهای مختلف

Page 5: HadoopDB : یک معماری ترکیبی از  MapReduce   و  DBMS

مقدمه مسئله: چگونگی انجام عملیات محاسباتی و تحلیلی بر روی حجم

عظیمی از داده ها که بین هزاران گره توزیع شده اند.

رویکردها

◦MapReduce

◦Parallel Databases

هدف تحقیق: طراحی معماری سیستمی که از بهترین ویژگیهای

دو رویکرد استفاده کند:

استفاده از مکانیزم های پایگاه داده های موازی برای کارایی و بهره وری◦

برای مقیاس MapReduceبهره گیری از ویژگیهای سیستم های مبتنی بر ◦

پذیری، تحمل خطا و انعطاف پذیری

Page 6: HadoopDB : یک معماری ترکیبی از  MapReduce   و  DBMS

MapReduce

یک مدل برنامه نویسی برای حل مسائل محاسباتی در

مقیاس وسیع و به صورت توزیعی

توسط گوگل2003ارائه شده در سال

پیاده سازی شده به زبان های مختلف

:شامل دوتابع اصلی

( و تولید مجوعه ای از key,value: پردازش یک زوج )Mapتابع ◦

زوج های میانی

یکسانkey های میانی با value: ادغام تمام Reduceتابع ◦

Page 7: HadoopDB : یک معماری ترکیبی از  MapReduce   و  DBMS

MapReduce )ادامه(

مثال: یافتن تعداد تکرار یک کلمه در یک متن )صفحه

وب(

تابعMap:

◦Keyآدرس صفحه وب :

◦Valueمحتویات صفحه :

خروجی: لیستی از زوج مرتب ها )تعداد رخداد,کلمه(◦

Page 8: HadoopDB : یک معماری ترکیبی از  MapReduce   و  DBMS

MapReduce )ادامه(

تابعReduce:

جمع مقادیر زوج ها با کلید مشترک◦

:خروجی نهایی

Page 9: HadoopDB : یک معماری ترکیبی از  MapReduce   و  DBMS

Parallel و MapReduceمقایسه Databases

Parallel Databases MapReduce

کارایی باال بر روی •

structured data

عدم تحمل خطا•

هاqueryاجرای مجدد •

الزام به صبر برای کند ترین •

گره

نبود نمونه های متن باز•

مقیاس پذیری باال•

زمانبندی هنگام اجرا•

رایگان و متن باز•

structuredکارایی پایین برای •

data

schemaبدون در نظر گرفتن •

Page 10: HadoopDB : یک معماری ترکیبی از  MapReduce   و  DBMS

Parallel و MapReduceمقایسه Databases

کارایی باال مقیاس پذیری

MapReduce

Parallel Databases

هدفHadoopDB

Page 11: HadoopDB : یک معماری ترکیبی از  MapReduce   و  DBMS

HadoopDB

:ایده اصلی

به عنوان الیه ارتباطی و MapReduceاستفاده از ◦

(Hadoopهماهنگ کننده فعالیت ها بین چندین گره )

عادی استفاده می کنند DBMSگره ها از یک ◦

(PostgreSQl)

Page 12: HadoopDB : یک معماری ترکیبی از  MapReduce   و  DBMS

HadoopDBمعماری

Page 13: HadoopDB : یک معماری ترکیبی از  MapReduce   و  DBMS

HadoopDBمعماری

Page 14: HadoopDB : یک معماری ترکیبی از  MapReduce   و  DBMS

نتایج اجرا

از نظر

(Performanceکارایی )◦

(Scalabilityمقیاس پذیری )◦

مقایسه HadoopDB:با

◦MapReduce (Hadoop)

◦Parallel Databases (Vertica , DBMS-X)

اجرا بر روی بستر آمازونEC2 گره100 و 50، 10 با

Page 15: HadoopDB : یک معماری ترکیبی از  MapReduce   و  DBMS

کارایی

Select Task

◦Full table scan

◦Random data بدون :index

SELECT * FROM Data WHERE field LIKE ‘%XYZ%’

Page 16: HadoopDB : یک معماری ترکیبی از  MapReduce   و  DBMS

)ادامه(کارایی

Join Task

SELECT sourceIP, AVG)pageRank(, SUM)adRevenue(FROM rankings, uservisitsWHERE pageURL=destURLAND visitDate BETWEEN 2000-1-15 AND 2000-1-22GROUP BY sourceIPORDER BY SUM)adRevenue( DESC LIMIT 1;

Page 17: HadoopDB : یک معماری ترکیبی از  MapReduce   و  DBMS

مقیاس پذیری

گره10اجرا بر روی

برای تحمل خطا: از بین بردن یک گره در وسط آزمایش

برای ناهمگنی: کاهش سرعت یک گره در کل مدت

آزمایش

Page 18: HadoopDB : یک معماری ترکیبی از  MapReduce   و  DBMS

نتیجه گیری

ترکیبی از معماریDBMS و MapReduce

مقیاس پذیری باالتر نسبت بهparallel databases

توانایی تحمل خطا مانندHadoop

کارایی در حدparallel databases

هزینه: رایگان و متن باز

Page 19: HadoopDB : یک معماری ترکیبی از  MapReduce   و  DBMS

منابع [1] A. Abouzeid, A. Silberschatz, and A. Rasin, "Hadoopdb: An

architectural hybrid of mapreduce and dbms technologies for

analytical workloads," VLDB'09, 2009, pp. 1084--1095.

[2] J. Dean and S. Ghemawat, "MapReduce: Simplified data

processing on large clusters," OSDI, 2004.

[3] K. Heafield, "Introduction To Hadoop," Google Inc, 2008.

Page 20: HadoopDB : یک معماری ترکیبی از  MapReduce   و  DBMS

پایان

با تشکر