مطلب ۴ (قسمت دوم) : تاریخچه هدوپ
هدوپ در !Yahoo
برای ساخت یک موتور جستجو اینترنتی نیاز به حجم زیادی داده و تعداد زیادی ماشین به منظور پردازش آن می باشد. موتور جستجوی !Yahoo از چهار مولفه اصلی تشکیل شده است: Crawler، دانلود کردن صفحات وب از سرورهای گوناگون؛ WebMap، ساختن گراف از مسیرهای شناخته شده وب؛ Indexer، ساختن شاخص معکوس از بهترین صفحات؛ Runtime، پاسخ دادن به درخواست های کاربر.WebMap گرافی است که از حدودا یک تریلیون یال که هر کدام بیانگر یک Web Link و یکصد میلیارد نود که هر کدام بیانگر URLهای منحصر به فرد می باشد، تشکیل شده است. ساخت و تحلیل گرافی با این وسعت مستلزم صرف وقت و هزینه بسیاری است. در اوایل 2005، زیرساخت WebMap که Dreadnaught نامیده می شد، نیاز به طراحی مجدد به منظور نگهداری نودهای بیشتر داشت. طراحی فعلی آن بدون هیچگونه تغییری از 20 نود به 600 نود با موفقیت ارتقاء پیدا کرده بود. Dreadnaught از جهات بسیاری شبیه به MapReduce می باشد، اما بسیار منعطف تر است. بنابراین، برنامه های تحت WebMap با حداقل تغییرات می توانستند از MapReduce استفاده نمایند.
Eric Baldeschwieler تیم کوچکی را به منظور تولید نسخه جدیدی از Dreadnaught ایجاد نمود. این کار همزمان با ارائه مقالات GFS و MapReduce شرکت Google بود. در آن زمان شرکت !Yahoo وضعیت پیشرفت هدوپ را رصد می نمود. بعد از ملحق شدن Doug Cutting به این شرکت، تیم جدید Dreadnaught به این نتیجه رسید که بهتر است از هدوپ استفاده نماید. دلایل استفاده از هدوپ: در آن زمان هدوپ با 20 نود به صورت جدی عملیاتی شده بود؛ دیگر اینکه هدوپ بصورت متن باز پیاده سازی شده بود.
روند تکاملی هدوپ:
سال 2004 : نسخه های اولیه فایل سیستم توزیع شده هدوپ (HDFS) و MapReduce توسط Doug Cutting و Mike Cafarella معرفی گردید.
سال 2005 : Nutch زیر ساخت خود را به معماری جدید تغییر داد. در آن زمان هدوپ بروی 20 نود با موفقیت اجرا شد.
سال 2006 :
• Doug Cutting به شرکت !Yahoo پیوست.
• پروژه Apache Hadoop رسما حمایت خود را برای توسعه HDFS و MapReduce آغاز نمود.
• پذیرفته شدن هدوپ توسط شرکت !Yahoo.
• مرتب سازی (Ten GB/node)، اجرا بروی 188 نود در 47.9 ساعت.
• تحقیق و بررسی یک کلاستر 300 تایی توسط شرکت !Yahoo.
• مرتب سازی بروی 500 نود در 42 ساعت (با سخت افزار بهتر از دفعه قبل).
• رسیدن به یک کلاستر 600 تایی در تحقیقات.
• مرتب سازی بروی 20 نود در 1.8 ساعت، 100 نود در 3.3 ساعت، 500 نود در 5.2 ساعت، 900 نود در 7.8 ساعت.
سال 2007 :
• رسیدن به یک کلاستر 900 تایی در تحقیقات.
• رسیدن به دو کلاستر 1000 تایی در تحقیقات.
سال 2008 :
• بدست آوردن رکورد مرتب سازی یک ترا بایت داده در 209 ثانیه بروی یک کلاستر 910 تایی.
• بارگذاری ده ترابایت داده به ازای هر روز در کلاسترهای تحقیقاتی.
سال 2009 :
• ایجاد 17 کلاستر جمعا با 24,000 نود.
• بدست آوردن رکورد مرتب سازی دقیقه ای 500 گیگابات داده در 59 ثانیه (کلاستر 1,400 تایی) و بعد از آن 100 ترابایت داده در 173 دقیقه (کلاستر 3,400 تایی).
Hadoop: The Definitive Guide by Tom White