Upload
demetrius-duran
View
137
Download
4
Embed Size (px)
DESCRIPTION
HadoopDB : یک معماری ترکیبی از MapReduce و DBMS. ارائه نهایی درس پایگاه داده پیشرفته استاد درس: دکتر مسعود رهگذر ارائه دهنده: علیرضا انگبینی. منبع اصلی. - PowerPoint PPT Presentation
Citation preview
HadoopDB یک معماری ترکیبی :
DBMS و MapReduceاز
ارائه نهایی درس پایگاه داده پیشرفته
استاد درس: دکتر مسعود رهگذر
ارائه دهنده: علیرضا انگبینی
منبع اصلی A. Abouzeid, A. Silberschatz, and A. Rasin, "Hadoopdb: An
architectural hybrid of mapreduce and dbms technologies for
analytical workloads," VLDB'09, 2009, pp. 1084--1095.
فهرست
مقدمه
MapReduce
Parallel Databases
معماریHadoopDB
نتایج اجرا
نتیجه گیری
مقدمه
انفجار حجم داده ها
اتوماسیون در فرایندهای کسب وکار◦
افزایش تجهیزات دیجیتال◦
eBay 6.5 PB مثال-◦
Yahoo 10+ PB
افزایش نیاز به تحلیل داده های خام برای
کاربردهای مختلف
مقدمه مسئله: چگونگی انجام عملیات محاسباتی و تحلیلی بر روی حجم
عظیمی از داده ها که بین هزاران گره توزیع شده اند.
رویکردها
◦MapReduce
◦Parallel Databases
هدف تحقیق: طراحی معماری سیستمی که از بهترین ویژگیهای
دو رویکرد استفاده کند:
استفاده از مکانیزم های پایگاه داده های موازی برای کارایی و بهره وری◦
برای مقیاس MapReduceبهره گیری از ویژگیهای سیستم های مبتنی بر ◦
پذیری، تحمل خطا و انعطاف پذیری
MapReduce
یک مدل برنامه نویسی برای حل مسائل محاسباتی در
مقیاس وسیع و به صورت توزیعی
توسط گوگل2003ارائه شده در سال
پیاده سازی شده به زبان های مختلف
:شامل دوتابع اصلی
( و تولید مجوعه ای از key,value: پردازش یک زوج )Mapتابع ◦
زوج های میانی
یکسانkey های میانی با value: ادغام تمام Reduceتابع ◦
MapReduce )ادامه(
مثال: یافتن تعداد تکرار یک کلمه در یک متن )صفحه
وب(
تابعMap:
◦Keyآدرس صفحه وب :
◦Valueمحتویات صفحه :
خروجی: لیستی از زوج مرتب ها )تعداد رخداد,کلمه(◦
MapReduce )ادامه(
تابعReduce:
جمع مقادیر زوج ها با کلید مشترک◦
:خروجی نهایی
Parallel و MapReduceمقایسه Databases
Parallel Databases MapReduce
کارایی باال بر روی •
structured data
عدم تحمل خطا•
هاqueryاجرای مجدد •
الزام به صبر برای کند ترین •
گره
نبود نمونه های متن باز•
مقیاس پذیری باال•
زمانبندی هنگام اجرا•
رایگان و متن باز•
structuredکارایی پایین برای •
data
schemaبدون در نظر گرفتن •
Parallel و MapReduceمقایسه Databases
کارایی باال مقیاس پذیری
MapReduce
Parallel Databases
هدفHadoopDB
HadoopDB
:ایده اصلی
به عنوان الیه ارتباطی و MapReduceاستفاده از ◦
(Hadoopهماهنگ کننده فعالیت ها بین چندین گره )
عادی استفاده می کنند DBMSگره ها از یک ◦
(PostgreSQl)
HadoopDBمعماری
HadoopDBمعماری
نتایج اجرا
از نظر
(Performanceکارایی )◦
(Scalabilityمقیاس پذیری )◦
مقایسه HadoopDB:با
◦MapReduce (Hadoop)
◦Parallel Databases (Vertica , DBMS-X)
اجرا بر روی بستر آمازونEC2 گره100 و 50، 10 با
کارایی
Select Task
◦Full table scan
◦Random data بدون :index
SELECT * FROM Data WHERE field LIKE ‘%XYZ%’
)ادامه(کارایی
Join Task
SELECT sourceIP, AVG)pageRank(, SUM)adRevenue(FROM rankings, uservisitsWHERE pageURL=destURLAND visitDate BETWEEN 2000-1-15 AND 2000-1-22GROUP BY sourceIPORDER BY SUM)adRevenue( DESC LIMIT 1;
مقیاس پذیری
گره10اجرا بر روی
برای تحمل خطا: از بین بردن یک گره در وسط آزمایش
برای ناهمگنی: کاهش سرعت یک گره در کل مدت
آزمایش
نتیجه گیری
ترکیبی از معماریDBMS و MapReduce
مقیاس پذیری باالتر نسبت بهparallel databases
توانایی تحمل خطا مانندHadoop
کارایی در حدparallel databases
هزینه: رایگان و متن باز
منابع [1] A. Abouzeid, A. Silberschatz, and A. Rasin, "Hadoopdb: An
architectural hybrid of mapreduce and dbms technologies for
analytical workloads," VLDB'09, 2009, pp. 1084--1095.
[2] J. Dean and S. Ghemawat, "MapReduce: Simplified data
processing on large clusters," OSDI, 2004.
[3] K. Heafield, "Introduction To Hadoop," Google Inc, 2008.
پایان
با تشکر