مطلب ۴ (قسمت اول) : تاریخچه هدوپ

شنبه, ۲۴ آبان ۱۳۹۳، ۰۳:۰۵ ب.ظ

هدوپ توسط آقای Doug Cutting اختراع شده است، ایشان پیش تر Apache Lucene را که به عنوان یک کتابخانه پرکاربرد جستجوی متن می باشد، ایجاد کرده است. اصل هدوپ به Apache Nutch ، موتور جستجوی تحت وب متن بازی که خودش قسمتی از پروژه Lucene است، برمی گردد.

هدوپ یک کلمه اختصاری نیست، نامی است که فرزند ایشان بروی یک فیل عروسکی زرد رنگ توپولو گذاشته است.

ساخت کامل یک موتور جستجوی وب، کار دشواری می باشد. نه تنها تولید نرم افزاری که بتواند وب سایت های متعددی را بررسی نموده و برای آنها شاخص تولید نماید مشکل است، بلکه این کار بدون همراهی یک تیم عملیاتی کارآمد امکان پذیر نمی باشد. Mike Cafarella و Doug Cutting برآورد کرده بودند سیستمی که بتواند شاخص میلیاردی تولید و نگهداری نماید در حدود نیم میلیون دلار هزینه سخت افزاری دارد و در حدود سی هزار دلار هزینه نگهداری آن بصورت ماهانه می باشد. اما با همه این مسائل، آنها معتقد بودند که کار بسیار ارزنده ای خواهد بود زیرا می تواند باعث هر چه بهتر شدن الگوریتم های موتورهای جستجو گردد.

در سال 2002 پروژه Nutch شروع شد، و بلافاصله یک موتور جستجو وارد عرصه وب گردید. البته سازندگان آن می دانستند که زیر ساخت فعلی قابلیت نگهداری چند میلیون شاخص را ندارد. تا اینکه در سال 2003، Google معماری فایل سیستم توزیع شده (GFS) خود را منتشر نمود. این معماری مسئله کمبود فضای فایل های حجیم تولید شده توسط موتور های جستجو را مدیریت و برطرف می نمود. در سال 2004، آنها تصمیم گرفتند تا یک نسخه پیاده سازی شده متن باز از آن معماری را ایجاد نمایند و آن را فایل سیستم توزیع شده NDFS) Nutch) نامیدند.

در سال 2004، Google مقاله ای را با عنوان MapReduce مطرح نمود. خیلی زود در سال 2005، توسعه دهندگان Nutch شروع به پیاده سازی یک نسخه از آن نمودند، و طولی نکشید در اواسط همان سال، تمامی الگوریتم ها Nutch برای استفاده از MapReduce و NDFS تغییر ساختار دادند.

از آنجایی که NDFS و MapReduce در Nutch با موفقیت تثبیت شده بودند، در اوایل سال 2006 از Nutch نقل مکان کرده و هدوپ را به عنوان یک زیر پروژه مستقل در Lucene مطرح نمودند. در همان زمان، Doug Cutting به !Yahoo ملحق شد، جایی که در آن تیم و امکاناتی را برای عملیاتی نمودن هدوپ در سطح وب اختصاص داده بودند. این محصول در ابتدای سال 2008 رسماً توسط !Yahoo رونمایی شد، و اینگونه مطرح شد که شاخص جستجوی محصول این شرکت توسط هدوپ با یک کلاستری 10,000 تایی در حال تولید می باشد.

در ابتدای سال 2008، هدوپ تبدیل به یک پروژه سطح بالا و مستقل در Apache شد، در آن زمان از هدوپ نه تنها !Yahoo بلکه شرکت هایی نظیر Last.fm، Facebook و New York Times استفاده می کردند. برای مثال، New York Times با استفاده از سرویس Cloud شرکت آمازون با نام EC2، چهار ترابایت از آرشیو مستندات اسکن شده خود را تبدیل به PDF نمود. این پردازش در حدود کمتر از 24 ساعت با استفاده از 100 ماشین صورت گرفت.

در اوایل 2008، هدوپ به عنوان سریع ترین سیستم مرتب سازی یک ترابایت داده، رکورد دار شد. با استفاده از یک کلاستر 910 تایی، هدوپ یک ترابایت داده را در 209 ثانیه مرتب سازی نمود. در اواخر همان سال، Google ادعا کرد که می تواند همان حجم داده را در 68 ثانیه مرتب سازی نماید. در اواسط 2009 اعلان شد تیمی از !Yahoo توانسته همان حجم داده را در 62 ثانیه مرتب سازی نماید.

Hadoop: The Definitive Guide by Tom White

استفاده از این مطلب با ذکر منبع بلامانع می باشد.

۰ ۹۳/۰۸/۲۴

مهدی شهیدی صادقی

عصر هدوپ

عصر هدوپ

آشنایی با Big Data و کار با Hadoop