تقویت گرادیان
تقویت گرادیان یا گرادیان بوستینگ (به انگلیسی: Gradient boosting) یک روش یادگیری ماشین برای مسائل رگرسیون و طبقهبندی است. مدل تقویت گرادیان ترکیبی خطی از یک سری مدلهای ضعیف است که به صورت تناوبی برای ایجاد یک مدل نهائیِ قوی ساخته شدهاست. این روش به خانواده الگوریتمهای یادگیری گروهی تعلق دارد و عملکرد آن همواره از الگوریتمهای اساسی یا ضعیف (مثلا درخت تصمیم) یا روشهای براساس کیسهگذاری (مانند جنگل تصادفی) بهتر است. اما صحت این گزاره تا حدی از مشخصات دادههای ورودی تأثیر میپذیرد.
مقدمه
مانند دیگر روشهای تقویتی (بوستینگ)، تقویت گرادیان (گرادیان بوستینگ) ترکیبی خطی از یک سری از مدلهای ضعیف برای ایجاد یک مدل قوی و کارآمد است. سادهترین مثال برای توضیح تقویت گرادیان، مثال کمترین مربعات در مسئله رگرسیون است که در آن هدف، یادگیری یک مدل به اسم
برای پیدا کردن
الگوریتم
فرض کنید دادههایی که مدل برای یادگیری از آنها استفاده میکند
در مدل تقویت گرادیان این کار به صورت متناوب انجام میشود و مدل نهایی برابر خواهد بود با
در اینجا
اولین مدل یک عدد ثابت است به اسم
بقیه مدلها به این صورت ساخته و فراگرفته میشوند:
برای انجام این مرحله از گرادیان تابع ضرر به این شکل استفاده میکنیم:
به عبارت دیگر ما بدنبال مدلسازی منفی گرادیان تابع ضرر در هر مرحله هستیم یعنی یک مدل به اسم
الگوریتم کلی را میتوان به شکل پایین خلاصه کرد:
- برای ازتا:
- برای ازتا:
- برای دادههای یک مدل به اسمازانتخاب کن که تابع ضرر را به حداقل برساند، به عبارت دیگر
- برای
- مدل نهایی است.
درختِ تقویت گرادیان
به پیشنهاد فریدمن به جای اینکه در هر مرحله یک ضریب کلی به اسم
مشخصات درخت
اگر
اهمیت متغیرها
این الگوریتم میتواند، مانند درخت تصمیم یا جنگل تصادفی، برای رتبهبندی اهمیت متغیرها به کار رود. فرمول اهمیت متغیرها در الگوریتم تقویت گرادیان با همان درخت تصمیم یکی است، اما در این الگوریتم امتیاز تمام یادگیرندههای ضعیف (یعنی درختهای تصمیم) میانگینگیری میشود.
جستارهای وابسته
منابع
- ↑ Piryonesi, S. M.; El-Diraby, T. E. (2020) [Published online: December 21, 2019]. "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index". Journal of Infrastructure Systems. 26 (1). doi:10.1061/(ASCE)IS.1943-555X.0000512.
- ↑ Friedman, J. H. (February 1999). "Greedy Function Approximation: A Gradient Boosting Machine" (PDF).
- ↑ Piryonesi, S. Madeh; El-Diraby, Tamer E. (2020-06). "Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems". Journal of Transportation Engineering, Part B: Pavements. 146 (2): 04020022. doi:10.1061/jpeodx.0000175. ISSN 2573-5438.
- ↑ Hastie, Trevor (2009). The Elements of Statistical Learning - Data Mining, Inference, and Prediction, Second Edition (به انگلیسی). New York: Springer.
- ↑ Hastie, T.; Tibshirani, R.; Friedman, J. H. (2009). "10. Boosting and Additive Trees". The Elements of Statistical Learning (2nd ed.). New York: Springer. pp. 337–384. ISBN 0-387-84857-6. Archived from the original on 2009-11-10.
- ↑ Note: in case of usual CART trees, the trees are fitted using least-squares loss, and so the coefficient for the regionis equal to just the value of output variable, averaged over all training instances in.