معادله بلمن

معادله بلمن که به نام یابنده آن ریچارد بلمن نام گذاری شد، یک شرط ضروری در روش‌های ریاضی بهینه‌سازی‌است که با نام برنامه‌نویسی پویا نیز شناخته می‌شود. تقریباً هر مسئله را که بتوان با استفاده از نظریه کنترل بهینه حل کرد نیز می‌توان با تحلیل مناسب معادله بلمن حل کرد. معادله بلمن در ابتدا در مهندسی نظریه کنترل و دیگر مباحث در ریاضیات کاربردی اعمال و متعاقباً به یک ابزار قدرتمند در نظریه اقتصاد مبدل شد.

مثال

در فراگیری پاداش/جزا، یک معادله بلمن به یک بازگشت برای مقادیر مورد انتظار اشاره می‌کند. برای مثال، مقدار مورد انتظار برای بودن در یک وضعیت خاص s و دنبال کردن تعدادی روش ثابت $\pi$

معادله بلمنی به صورت زیر دارد:

V^{\pi }(s)=R(s)+\gamma \sum _{s'}P(s'|s,\pi (s))V^{\pi }(s').\

این معادله مقدار مورد انتظار برای انجام کاری که توسط چند روش تعیین شده بود را توصیف می‌کند.

معادله مربوط به روش بهینه‌سازی به عنوان معادله بهینگی بلمن بیان می‌شود:

V^{*}(s)=R(s)+\max _{a}\gamma \sum _{s'}P(s'|s,a)V^{*}(s').\

این معادله پاداش برای انجام کاری که بالاترین انتظار را برآورده می‌کند، توصیف می‌کند.

روش‌های حل

روش ضرایب نامعین، یا همان روش 'حدس و بررسی'، می‌تواند در حل بعضی معادلات بلمن مستقل کران-بینهایت استفاده شود.
معادله بلمن را می‌توان به کمک استقرای وارونه، در بعضی موارد به صورت تحلیلی یا به صورت عددی با کامپیوتر حل کرد. استقرای وارونه عددی قابل استفاده در بسیاری از مسائل است، ولی هنگامی که تعداد متغیرهای حالت زیاد شود با توجه به مشکل بعد پذیری حل مسئله غیرممکن می‌شود.

با محاسبه شرایط مرتبه اول که به معادله بلمن مرتبط است، و سپس استفاده از قضیه پوش برای از بین بردن مشتقات تابع مقدار، به دست آوردن قاعده معادله تفاضلی یا معادله دیفرانسیل که 'معادله اویلر' نام دارد، ممکن می‌شود. روش‌های استاندارد برای حل معادلات تفاضلی یا دیفرانسیل می‌توانند برای محاسبه تغییرات متغیرهای حالت و متغیرهای کنترلی مسئله بهینه‌سازی استفاده شوند.

کاربرد در اقتصاد

اولین کاربرد اقتصادی معادله بلمن، مقاله سال ۱۹۷۳ اصلی مرتون در مدل قیمت گذاری دارایی حیاتی میان گذرا است.جواب مدل نظری مرتون، که در آن سرمایه گذاران از میان درآمد امروز و درآمد آینده یا عواید دارایی انتخاب می‌کنند، یک صورت از معادله بلمن است. به این دلیل که کاربردهای اقتصادی برنامه‌نویسی پویا معمولاً به یک معادله بلمن می‌رسد که یک معادله تفاضلی است، اقتصاد دانان از برنامه‌نویسی پویا به عنوان یک «روش بازگشتی» یاد می‌کنند.

استوکی، لوکاس و پریسکات برنامه‌نویسی پویای تصادفی و غیر تصادفی را با جزئیات دقیق، با زدن مثال‌های فراوان از چگونگی استفاده از برنامه‌نویسی پویا در نظریه اقتصاد، توصیف می‌کنند. این کتاب به این موضوع می‌انجامد که برنامه‌نویسی پویا برای حل دامنهٔ وسیعی از مسائل نظری در اقتصاد به کار گرفته شود که این مسائل شامل رشد اقتصادی بهینه، استخراج منابع، مسائل عامل اصلی، سرمایه‌گذاری عمومی، تجارتسرمایه‌گذاری، قیمت گذاری دارایی، تدارک ضریب تولید، وسازمان دهی صنعتی می‌شوند.

استفاده از برنامه‌نویسی پویا برای حل مسائل ملموس بوسیله مشکلات اطلاعاتی، مثل انتخاب نرخ نزول غیرقابل مشاهده، پیچیده می‌شود. همچنین مسائل محاسباتی وجود دارند، یکی مسائل اصلی آن مشکل بعد پذیری است که از تعداد زیادی از پتانسیل‌های متغیرهای حالت ناشی شده‌است که قبل از آنکه استراتژی بهینه انتخاب شود، باید مورد توجه قرار گیرد.

منابع

↑ Robert C. Merton, 1973, "An Intertemporal Capital Asset Pricing Model," Econometrica ۴۱: 867-887.
↑ *Nancy Stokey, and روبرت امرسون لوکاس، with ادوارد پرسکات، ۱۹۸۹. Recursive Methods in Economic Dynamics. Harvard Univ. Press.

[1] Robert C. Merton, 1973, "An Intertemporal Capital Asset Pricing Model," Econometrica ۴۱: 867-887.

[2] *Nancy Stokey, and روبرت امرسون لوکاس، with ادوارد پرسکات، ۱۹۸۹. Recursive Methods in Economic Dynamics. Harvard Univ. Press.