HadoopDB : یک معماری ترکیبی از MapReduce و DBMS

HadoopDB یک معماری ترکیبی :

DBMS و MapReduceاز

ارائه نهایی درس پایگاه داده پیشرفته

استاد درس: دکتر مسعود رهگذر

ارائه دهنده: علیرضا انگبینی

منبع اصلی A. Abouzeid, A. Silberschatz, and A. Rasin, "Hadoopdb: An

architectural hybrid of mapreduce and dbms technologies for

analytical workloads," VLDB'09, 2009, pp. 1084--1095.

فهرست

مقدمه

MapReduce

Parallel Databases

معماریHadoopDB

نتایج اجرا

نتیجه گیری

مقدمه

انفجار حجم داده ها

اتوماسیون در فرایندهای کسب وکار◦

افزایش تجهیزات دیجیتال◦

eBay 6.5 PB مثال-◦

Yahoo 10+ PB

افزایش نیاز به تحلیل داده های خام برای

کاربردهای مختلف

مقدمه مسئله: چگونگی انجام عملیات محاسباتی و تحلیلی بر روی حجم

عظیمی از داده ها که بین هزاران گره توزیع شده اند.

رویکردها

◦MapReduce

◦Parallel Databases

هدف تحقیق: طراحی معماری سیستمی که از بهترین ویژگیهای

دو رویکرد استفاده کند:

استفاده از مکانیزم های پایگاه داده های موازی برای کارایی و بهره وری◦

برای مقیاس MapReduceبهره گیری از ویژگیهای سیستم های مبتنی بر ◦

پذیری، تحمل خطا و انعطاف پذیری

MapReduce

یک مدل برنامه نویسی برای حل مسائل محاسباتی در

مقیاس وسیع و به صورت توزیعی

توسط گوگل2003ارائه شده در سال

پیاده سازی شده به زبان های مختلف

:شامل دوتابع اصلی

( و تولید مجوعه ای از key,value: پردازش یک زوج )Mapتابع ◦

زوج های میانی

یکسانkey های میانی با value: ادغام تمام Reduceتابع ◦

MapReduce )ادامه(

مثال: یافتن تعداد تکرار یک کلمه در یک متن )صفحه

وب(

تابعMap:

◦Keyآدرس صفحه وب :

◦Valueمحتویات صفحه :

خروجی: لیستی از زوج مرتب ها )تعداد رخداد,کلمه(◦

MapReduce )ادامه(

تابعReduce:

جمع مقادیر زوج ها با کلید مشترک◦

:خروجی نهایی

Parallel و MapReduceمقایسه Databases

Parallel Databases MapReduce

کارایی باال بر روی •

structured data

عدم تحمل خطا•

هاqueryاجرای مجدد •

الزام به صبر برای کند ترین •

گره

نبود نمونه های متن باز•

مقیاس پذیری باال•

زمانبندی هنگام اجرا•

رایگان و متن باز•

structuredکارایی پایین برای •

data

schemaبدون در نظر گرفتن •

Parallel و MapReduceمقایسه Databases

کارایی باال مقیاس پذیری

MapReduce

Parallel Databases

هدفHadoopDB

HadoopDB

:ایده اصلی

به عنوان الیه ارتباطی و MapReduceاستفاده از ◦

(Hadoopهماهنگ کننده فعالیت ها بین چندین گره )

عادی استفاده می کنند DBMSگره ها از یک ◦

(PostgreSQl)

HadoopDBمعماری

HadoopDBمعماری

نتایج اجرا

از نظر

(Performanceکارایی )◦

(Scalabilityمقیاس پذیری )◦

مقایسه HadoopDB:با

◦MapReduce (Hadoop)

◦Parallel Databases (Vertica , DBMS-X)

اجرا بر روی بستر آمازونEC2 گره100 و 50، 10 با

کارایی

Select Task

◦Full table scan

◦Random data بدون :index

SELECT * FROM Data WHERE field LIKE ‘%XYZ%’

)ادامه(کارایی

Join Task

SELECT sourceIP, AVG)pageRank(, SUM)adRevenue(FROM rankings, uservisitsWHERE pageURL=destURLAND visitDate BETWEEN 2000-1-15 AND 2000-1-22GROUP BY sourceIPORDER BY SUM)adRevenue( DESC LIMIT 1;

مقیاس پذیری

گره10اجرا بر روی

برای تحمل خطا: از بین بردن یک گره در وسط آزمایش

برای ناهمگنی: کاهش سرعت یک گره در کل مدت

آزمایش

نتیجه گیری

ترکیبی از معماریDBMS و MapReduce

مقیاس پذیری باالتر نسبت بهparallel databases

توانایی تحمل خطا مانندHadoop

کارایی در حدparallel databases

هزینه: رایگان و متن باز

منابع [1] A. Abouzeid, A. Silberschatz, and A. Rasin, "Hadoopdb: An

architectural hybrid of mapreduce and dbms technologies for

analytical workloads," VLDB'09, 2009, pp. 1084--1095.

[2] J. Dean and S. Ghemawat, "MapReduce: Simplified data

processing on large clusters," OSDI, 2004.

[3] K. Heafield, "Introduction To Hadoop," Google Inc, 2008.

پایان

با تشکر

Documents

HadoopDB : یک معماری ترکیبی از MapReduce و DBMS