حساب کاربری
​
زمان تقریبی مطالعه: 10 دقیقه
لینک کوتاه

آدابوست

آدابوست (به انگلیسی: AdaBoost) تطبیقی بوده و یک الگوریتم یادگیری ماشین است که توسط یاو فروند و رابرت شاپیر ابداع شد. در واقع آدابوست یک متا الگوریتم است که به منظور ارتقاء عملکرد، و رفع مشکل رده‌های نامتوازن همراه دیگر الگوریتم‌های یادگیری استفاده می‌شود. در این الگوریتم، طبقه‌بند هر مرحله جدید به نفع نمونه‌های غلط طبقه‌بندی شده در مراحل قبل تنظیم می‌گردد. آدابوست نسبت به داده‌های نویزی و پرت حساس است؛ ولی نسبت به مشکل بیش برازش از بیشتر الگوریتم‌های یادگیری برتری دارد. طبقه‌بند پایه که در اینجا استفاده می‌شود فقط کافیست از طبقه‌بند تصادفی (۵۰٪) بهتر باشد و به این ترتیب بهبود عملکرد الگوریتم با تکرارهای بیشتر بهبود می‌یابد. حتی طبقه‌بندهای با خطای بالاتر از تصادفی با گرفتن ضریب منفی عملکرد کلی را بهبود می‌بخشند. در الگوریتم آدابوست در هر دور t = 1 , … , T

یک طبقه‌بند ضعیف اضافه می‌شود. در هر فراخوانی بر اساس اهمیت نمونه‌ها، وزن‌ها D t
بروز می‌شود. در هر دور وزن نمونه‌های غلط طبقه‌بندی شده افزایش و وزن نمونه‌های درست طبقه‌بندی شده کاهش داده می‌شود؛ بنابراین طبقه‌بند جدید تمرکز بر نمونه‌هایی که سخت‌تر یادگرفته می‌شوند، خواهند داشت.

فهرست

  • ۱ الگوریتم طبقه‌بندی دوگانه
  • ۲ اثبات و فهم ریاضی آدابوست
  • ۳ جستارهای وابسته
  • ۴ منابع
  • ۵ پیاده‌سازی‌ها
  • ۶ پیوند به بیرون

الگوریتم طبقه‌بندی دوگانه

داده شده‌ها:

  • مجموعه یادگیری: ( x 1 , y 1 ) , … , ( x N , y N )
    که x i ∈ X , y i ∈ Y = { − 1 , + 1 }
  • تعداد تکرارها: T

مقداردهی اولیه: D 1 ( i ) = 1 N , i = 1 , … , N .

برای t = 1 , … , T

  • برای خانواده طبقه‌بندهای ضعیف ℋ طبقه‌بند h t
    را پیدا کن که میزان خطا نسبت به توزیع D t
    کمینه شود، در این معادله I
    یک تابع نشانگر است:

h t = argmin h ∈ H ∑ i = 1 N D t ( i ) I ( y i ≠ h ( x i ) )

خطای h t

را با ϵ t
نمایش می‌دهیم:

ϵ t = ∑ i = 1 N D t ( i ) I ( y i ≠ h t ( x i ) )

  • اگر | 0.5 − ϵ t | ≤ β
    که β
    یک آستانه تعیین شده قبلی است، توقف انجام شود.
  • معمولاً مقدار α t = 1 2 ln 1 − ϵ t ϵ t
    برای α t ∈ R
    در نظر گرفته می‌شود.
  • بروز رسانی:

D t + 1 ( i ) = D t ( i ) exp ⁡ ( α t I ( y i ≠ h t ( x i ) ) ) Z t

که Z t
یک عامل نرمال‌سازی با مقدار ∑ i D t ( i ) exp ⁡ ( − α t y i h t ( x i ) )
است که موجب می‌شود D t + 1
یک توزیع احتمالاتی مجاز را نشان دهد (مجموع روی همه x
‌ها یک شود)
خروجی نهایی طبقه‌بند

H ( x ) = sign ( ∑ t = 1 T α t h t ( x ) )

توجه شود که معادله بروز رسانی توزیع D t
بگونه‌ای بروز می‌شود که
− α t y i h t ( x i ) { < 0 , y ( i ) = h t ( x i ) > 0 , y ( i ) ≠ h t ( x i )

بنابراین بعد از انتخاب بهینه طبقه‌بند h t

برای توزیع D t
آندسته از نمونه‌ها x i
که طبقه‌بند h t
آن‌ها را غلط طبقه‌بندی می‌کند وزن بیشتری نسبت به بقیه داده می‌شود؛ بنابراین وقتی الگوریتم طبقه‌بندها را براساس توزیع D t + 1
تست می‌کند، طبقه‌بندی انتخاب می‌شود که نمونه‌های غلط طبقه‌بندی شده را بهتر تشخیص دهد.

اثبات و فهم ریاضی آدابوست

عمل تقویت کردن را می‌توان به صورت حداقل کردن یک تابع هزینه محدب روی یک مجموعه محدب از توابع در نظر گرفت. به‌طور خاص تابعی که حداقل می‌شود نمایی است:

E = ∑ i = 1 N exp ( − y i × f m ( x i ) )

و ما بدنبال تابعی به شکل زیر هستیم:

f m ( x ) = 1 2 ∑ t = 1 m α t h t ( x )

مجهولِ تابع هزینه E

، f m ( ⋅ )
است که خود به α 1 , ⋯ , α m , h 1 , ⋯ , α m
بستگی دارد. در نتیجه بهینه‌سازی تابع هزینه در نهایت باید نسبت به α 1 , ⋯ , α m , h 1 , ⋯ , h m
صورت بگیرد.

حال برای راحتتر شدن کار فرض می‌کنیم که مقادیر α 1 , ⋯ , α m − 1 , h 1 , ⋯ , h m − 1

ثابت هستند و هدف ما پیدا کردن α m
و h m
است. با این اوصاف تابع E
را می‌توان به شکل پایین نوشت:

E = ∑ i = 1 N exp ( − y i × ( f m − 1 ( x i ) + 1 2 α m h m ( x i ) ) ) = ∑ i = 1 N exp ( − y i × f m − 1 ( x i ) ) exp ( − 1 2 y i × α m h m ( x i ) )

اگر exp ( − y i × f m − 1 ( x i ) )

را با w i ( m )
نمایش دهیم، تابع هزینه ما به شکل پایین تغییر شکل خواهد داد:

E = ∑ i = 1 N w i ( m ) e − 1 2 y i × α m h m ( x i )

اگر مجموعه تمام داده‌هایی که توسط h m ( ⋅ )

به درستی پیش‌بینی می‌شوند را با T m
و مجموعه تمام داده‌هایی که توسط h m ( ⋅ )
نادرست پیش‌بینی می‌شوند را با M m
نمایش دهیم. تابع هزینه به شکل پایین تغییر خواهد کرد:

E = exp ( − α m 2 ) ∑ i ∈ T m w i ( m ) + exp ( α m 2 ) ∑ i ∈ M m w i ( m ) = ( exp ( α m 2 ) − exp ( − α m 2 ) ) ∑ i = 1 N w i ( m ) I ( h m ( x i ) ≠ y i ) + exp ( − α m 2 ) ∑ i = 1 N w i ( m )

حال اگر E

را نسبت h m
بهینه کنیم، از آنجا که exp ( − α m 2 ) ∑ i = 1 N w i ( m )
و ( exp ( α m 2 ) − exp ( − α m 2 ) )
نسبت به h m
ثابت هستند، فقط باید ∑ i = 1 N w i ( m ) I ( h m ( x i ) ≠ y i )
را نسبت به h m
کمینه کنیم؛ یعنی h m = argmin h ∈ H ∑ i = 1 N w i ( m ) I ( h ( x i ) ≠ y i )

بعد از پیدا کردن h m

باید α m
را پیدا کنیم اگر ∑ i = 1 N w i ( m ) I ( h ( x i ) ≠ y i ) ∑ i = 1 N w i ( m )
را ϵ m
بنامیم تابع هزینه ما تبدیل می‌شود به ( ( exp ( α m 2 ) − exp ( − α m 2 ) ) ϵ m + exp ( − α m 2 ) ) ∑ i = 1 N w i ( m )
که اگر از آن نسبت به α m
مشتق بگیریم و جواب را در نقطه صفر بدست بیاوریم به این جواب می‌رسیم: α m = 1 2 ln 1 − ϵ m ϵ m
.

حال که α m

و h m
را پیدا کردیم باید ببینیم که w i ( m + 1 )
به چه شکل نسبت به w i ( m )
بروز می‌شود. w i ( m + 1 )
همان exp ( − y i × f m ( x i ) )
است یعنی

w i ( m + 1 ) = exp ( − y i × f m ( x i ) ) = exp ( − y i × ( f m − 1 ( x i ) + 1 2 α m h m ( x i ) ) ) = exp ( − y i f m − 1 ( x i ) ) exp ( − 1 2 y i α m h m ( x i ) ) = w i ( m ) exp ( − 1 2 y i α m h m ( x i ) )

پس ارتباط w i ( m + 1 )

با w i ( m )
به این شکل خواهد بود:

w i ( m + 1 ) = w i ( m ) exp ( − 1 2 y i α m h m ( x i ) )

از آنجا که y i h m ( x i ) = 1 − 2 I ( h ( x i ) ≠ y i )

به‌روز کردن w i ( m + 1 )
به این شکل تغییر خواهد کرد:

w i ( m + 1 ) = w i ( m ) exp ( − α m 2 ) exp ( α m I ( h m ( x i ) ≠ y i ) )

اگر تمام w i ( m + 1 )

‌ها را در یک مقدار ثابتی ضرب کنیم تأثیری در جواب نهایی ϵ m + 1
و α m + 1
و h m + 1
نخواهد داشت. ازین رو همیشه می‌توان مقدار آن‌ها را نرمال‌سازی کرد. با نرمال‌سازی w i ( m + 1 )
به معادله بازگشتی پایین می‌رسیم، در این معادله Z m = ∑ i w i ( m )
 :

w i ( m + 1 ) = w i ( m ) exp ( α m I ( h m ( x i ) ≠ y i ) ) Z m

w i ( m + 1 )

همان D m + 1 ( i )
است، و از آنجا که 1 2
در جواب s i g n ( f m ( x ) )
تأثیری ندارد، می‌توان آن را حذف کرد. حال اگر m
را همان T
بگیریم به الگوریتم آدابوست خواهیم رسید.

جستارهای وابسته

  • تقویت گرادیان
  • ال پی بوست

منابع

  1. ↑ Yoav Freund, Robert E. Schapire. "A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting", 1995
  2. ↑ مهسا المعی نژاد. «روش‌های Bagging و Boosting به منظور رفع مشکل کلاس‌های نامتوازن». گروه داده کاوی ایران. بایگانی‌شده از اصلی در ۳۱ مارس ۲۰۱۴. دریافت‌شده در ۲۶ فوریه ۲۰۱۴.
  3. ↑ T. Zhang, "Statistical behavior and consistency of classification methods based on convex risk minimization", Annals of Statistics 32 (1), pp. 56-85, 2004.
  4. ↑ Bishop, Christopher (2006). Pattern Recognition and Machine Learning (به انگلیسی). New York: Springer. pp. 658–661.

پیاده‌سازی‌ها

  • AdaBoost and the Super Bowl of Classifiers - A Tutorial on AdaBoost.
  • Adaboost in C++, an implementation of Adaboost in C++ and boost by Antonio Gulli
  • icsiboost, an open source implementation of Boostexter
  • JBoost, a site offering a classification and visualization package, implementing AdaBoost among other boosting algorithms.
  • MATLAB AdaBoost toolbox. Includes Real AdaBoost, Gentle AdaBoost and Modest AdaBoost implementations.
  • A Matlab Implementation of AdaBoost
  • milk بایگانی‌شده در ۱۷ سپتامبر ۲۰۱۳ توسط Wayback Machine for Python implements AdaBoost.
  • MPBoost++, a C++ implementation of the original AdaBoost.MH algorithm and of an improved variant, the MPBoost algorithm.
  • NPatternRecognizer بایگانی‌شده در ۲۰ اوت ۲۰۱۳ توسط Wayback Machine, a fast machine learning algorithm library written in C#. It contains support vector machine, neural networks, bayes, boost, k-nearest neighbor, decision tree, … , etc.
  • OpenCV implementation of several boosting variants
  • Into contains open source implementations of many AdaBoost and FloatBoost variants in C++.

پیوند به بیرون

  • Boosting.org, a site on boosting and related ensemble learning methods
  • AdaBoost Presentation summarizing Adaboost (see page 4 for an illustrated example of performance)
  • A Short Introduction to Boosting Introduction to Adaboost by Freund and Schapire from 1999
  • A decision-theoretic generalization of on-line learning and an application to boosting Journal of Computer and System Sciences, no. 55. 1997 (Original paper of Yoav Freund and Robert E.Schapire where Adaboost is first introduced.)
  • An applet demonstrating AdaBoost
  • Ensemble Based Systems in Decision Making, R. Polikar, IEEE Circuits and Systems Magazine, vol.6, no.3, pp. 21–45, 2006. A tutorial article on ensemble systems including pseudocode, block diagrams and implementation issues for AdaBoost and other ensemble learning algorithms.
  • Additive logistic regression: a statistical view of boosting by Jerome Friedman, Trevor Hastie, Robert Tibshirani. Paper introducing probabilistic theory for AdaBoost, and introducing GentleBoost
آخرین نظرات
کلیه حقوق این تارنما متعلق به فرا دانشنامه ویکی بین است.