پسانتشار
پسانتشار (انگلیسی: Backpropagation) یا انتشار معکوس، روشی در یادگیری عمیق برای آموزش شبکههای عصبی پیشخور است (روشهای مشابهی برای آموزش سایر شبکههای عصبی مصنوعی به وجود آمده است).در این روش با استفاده از قاعده زنجیرهای، گرادیان تابع هزینه برای تکتک وزنها محاسبه میشود. برای این کار برای محاسبه گرادیان هر لایه نسبت به تایع هزینه، از مشتق جزئی تابع هزینه نسبت به لایه بعدی استفاده میشود. در واقع از آخرین لایه (نزدیکترین لایه به خروجی) محاسبه مشتقها شروع میشود و تا ابتدای شبکه (نزدیکترین لایه به ورودیها) ادامه پیدا میکند.
روش معمول محاسبه گرادیان (محاسبه اثر هر وزن در خروجی هر نمونه) برای شبکههای عصبی پیشخور و به خصوص شبکههای عمیق بسیار زمانبر و در عمل غیرممکن است. با استفاده از روش پسانتشار و با کمک قاعده زنجیرهای و مشتق جزئی، در محاسبه گرادیان هر لایه از مشتفات لایههای جلوتر استفاده میشود و زمان اجرا تا حد زیادی کاهش پیدا میکند. استفاده از روش پسانتشار در کنار روش گرادیان کاهشی تصادفی، امکان اضافه کردن لایههای بیشتر به مدل به دلیل صرفهجویی زمانی به وجود میآید. این افزایش تعداد لایهها از سوی دیگر باعث امکان یادگیری الگوهای پیچیدهتر میشود.
ساختار ریاضی الگوریتم
برای سلول عصبی
به عنوان مثال اگر مسئله رگرسیون است برای
برای بدست آوردن کمینه
حال فرض کنیم میخواهیم گرادیان تابع
با استفاده از این قاعده زنجیری روش بازگشت به عقب را به این شکل دنبال میکنیم:
همانطور که در خط پیشین دیدیم برای بدست آوردن گرادیان نسبت به
روش بازگشتی برای بدست آوردن
شهود
میدانیم هدف هر یادگیری با نظارت پیدا کردن تابعی است که از ورودیهای مشاهده شده به خروجیهای واقعی برسد. استفاده از ایده کاهش گرادیان در شبکههای عصبی منجر به تلاش برای پیدا کردن پارامترها در لایههای پنهان مدل به کمک پسانتشار میشود.
پیدا کردن مشتق وزنها نسبت به تابع هزینه
به کمک قاعده زنجیرهای میتوانیم مشتق تابع هزینه را نسبت به هر یک از وزنهای شبکه عصبی (
-
(
)
حال سعی میکنیم آخرین کسر سمت راست را ساده کنیم (در
-
(
)
میدانیم مشتق خروجی نورون
-
(
)
برای مثال در حالتی که تابع فعال سازی، تابع لجستیک باشد:
حال طبق معادله ۱ یکی یکی بخشهای مختلف را محاسبه میکنیم. کسر اول (مانند آنچه در زیر آمده است) با مشخص بودن خروجی و تابع هزینه به راحتی قابل محاسبه است.
-
(
)
برای مثال اگر تابع هزینه همان مربعات خطاها باشد،
با فرض اینکه
حال با گرفتن مشتق نسبت به
-
(
)
با استفاده از معادله ۱ تا ۵ و حذف بخشهای مشترک،می توانیم مشتق
که در آن تابع دلتا به صورت زیر است:
برای مثال اگر
جستارهای وابسته
منابع
- ↑ مقایسه دو الگوریتم پس انتشار خطا و ژنتیک در یادگیری شبکه عصبی برای پیشبینی سری زمانی آشوبگونه. زهرا عربسرخی، محمدرضا اصغری اسکویی
- ↑ «Build with AI | DeepAI». DeepAI. بایگانیشده از اصلی در 17 اكتبر 2018. دریافتشده در 2018-10-24.
- ↑ A., Nielsen, Michael (2015). "Neural Networks and Deep Learning" (به انگلیسی). Archived from the original on 22 اكتبر 2018. Retrieved 23 اكتبر 2018. ;
- ↑ A., Nielsen, Michael (2015). "Neural Networks and Deep Learning" (به انگلیسی). Archived from the original on 22 اكتبر 2018. Retrieved 23 اكتبر 2018. ;
- ↑ Russell, Stuart; results, search (2009-12-11). Artificial Intelligence: A Modern Approach (به انگلیسی) (3 ed.). Boston Columbus Indianapolis New York San Francisco Upper Saddle River Amsterdam, Cape Town Dubai London Madrid Milan Munich Paris Montreal Toronto Delhi Mexico City Sao Paulo Sydney Hong Kong Seoul Singapore Taipei Tokyo: Pearson. p. 578.