برآورد درستنمایی بیشینه
در علم آمار برآورد حداکثر درستنمایی که بهطور خلاصه به آن MLE (مخفف عبارت انگلیسی maximum likelihood estimation) نیز گفته میشود) روشی است برای برآورد کردن پارامترهای یک مدل آماری. وقتی بر مجموعهای از دادهها عملیات انجام میشود یک مدل آماری به دست میآید آنگاه حداکثر درستنمایی میتواند تخمینی از پارامترهای مدل ارائه دهد. روش حداکثر درستنمایی به بسیاری از روشهای شناخته شدهٔ تخمین آماری شباهت دارد.
فرض کنید برای شخصی اطلاعات مربوط به قد زرافههای ماده بالغ موجود در یک جمعیت مهم باشد و این شخص به خاطر محدودیت هزینه یا زمان نتواند قد تک تک این زرافهها را اندازه بگیرد، این شخص تنها میداند که این طول قدها از توزیع نرمال پیروی میکنند ولی میانگین و واریانس توزیع را نمیداند حال با استفاده از روش درستنمایی بیشینه و با در دست داشتن اطلاعات مربوط به نمونهای محدود از جمعیت میتواند تخمینی از میانگین و واریانس این توزیع بدست آورد. MLE این کار را به این ترتیب انجام میدهد که واریانس و میانگین را مجهول در نظر میگیرد آنگاه مقادیری را به آنها نسبت میدهد که با توجه به اطلاعات موجود محتملترین حالت باشد. در حالت کلی روش MLE در مورد یک مجموعهٔ مشخص از دادهها عبارتست از نسبت دادن مقادیری به پارامترهای مدل که در نتیجهٔ ان توزیعی تولید شود که بیشترین احتمال را به دادههای مشاهده شده نسبت دهد (یعنی مقادیری از پارامتر که تابع درستنمایی را حداکثر کند). MLE یک سازو کار مشخص را برای تخمین ارائه میدهد که در مورد توزیع نرمال و بسیاری توزیعهای دیگر بهطور خوشتعریف عمل میکند. با این حال در بعضی موارد مشکلاتی پیش میآید از قبیل اینکه برآوردگرهای حداکثر درستنمایی نامناسب اند یا اصلاً وجود ندارند.
اصول
فرض کنید
حال میخواهیم از زاویهای متفاوت به این تابع نگاه کنیم: فرض کنید مشاهدات
که لگاریتم درستنمایی نامیده میشود. یا نمونهٔ تراز شده اش که میانگین درستنمایی لگاریتمی نامیده میشود:
علامت هت بالای
در این روش تفاوتی نمیکند که تابع درستنمایی را بیشینه کنیم یا لگاریتم درستنمایی را زیرا لگاریتم یک تبدیل یکنوا است. برای بسیاری از مدلها میتوان MLE را به صورت تابعی صریح از دادههای مشاهده شدهٔ x۱، …، xn پیدا کرد. اما در بسیاری از مسایل پیدا کردن یک فرم بسته برای تابع درستنمایی ممکن نیست و باید از روشهای عددی برای یافتن MLE استفاده کرد. برای برخی مسایل ممکن است تقریبهایی متفاوت موجود باشند که تابع را بیشینه کنند و برای برخی دیگر نیز هیچ تقریب مناسبی وجود ندارد. در گفتههای فوق فرض بر این بود که دادهها یه طور مستقل و یکنواخت توزیع شدهاند. اما این روش را میتوان به حوزههای وسیع تری نیز گسترش داد. در مسایلی پیچیدهتر چون سریهای زمانی حتی فرض استقلال هم میتواند حذف شود.
یک براوردگر درستنمایی بیشینه با یک براوردگر بیزی احتمال حداکثر که روی پارامترها یک توزیع پیشینی یکنواخت را میدهد منطبق است.
در مطالب فوق فرض بر این است که دادهها مستقل و دارای توزیع یکسان هستند. این روش میتواند برای حالتهای بیشتر از جمله نوشتن تابع چگالی مشترک (f (x1, … , xn | θ (پارامتر θ محدود و مستقل از سایز نمونهها n) و در یک فرمت سادهتر برای دادههای ناهمگون با تابع چگالی مشترک (f1 (x1 | θ) ·f2(x2|θ) · ··· · fn(xn | θ استفاده کرد. فرض میکنیم که هر نمونه مشاهده شده xi قابل استخراج از یک متغیر تصادفی با تابع توزیع fi باشد. در حالتهای پیچیده تری مانند سریهای زمانی، فرض مستقل بودن متغیرهای تصادفی میتواند راهگشا باشد.
برآورد درست نمایی بیشته در کنار برآورد بیزی با شرط داشتن یک توزیع یکنواخت بر روی پارامترها استفاده میشود. در واقع هرچه برآورد موخره بیشینه شود، احتمال پارامتر θمشروط به دادههای x۱، …، xn افزایش مییابد.
که در آن
ویژگیها
درستنمایی بیشینه یک براوردگر اکسترمم بنا شده بر تابع هدف زیر میباشد
و مشابه نمونهای اش درستنمایی لگاریتمی میانگین
براوردگر درستنمایی بیشینه اساساً هیچگونه ویژگیهای بهینه برای نمونههای متناهی ندارد. با این حال این روش مشابه دیگر روشهای تخمین، برای بیان بسیاری از مسایل دارای ویژگیهای مجانبی جالبی میباشند که عبارتند از:
- سازگاری (برآوردگر سازگار): دنباله براوردهای درست نمایی بیشینه در احتمال، به مقدار تخمین زده شده همگرا است.
- نرمال مجانبی: متناظر با افزایش اندازهٔ نمونه توزیع MLE به یک توزیع گاوسی میل میکند که میانگین آن و ماتریس کوواریانس ان برابر است با وارون ماتریس اطلاعات فیشر.
- کارایی: زمانی که اندازهٔ نمونه به بینهایت میل میکند، برآورد به کران پایین کرامر-رائو برسد. این بدین معنی است که هیچ براوردگر مجانبی نااریبی خطای مربعی شدهٔ میانگین مجانبی کمتر از MLE ندارد.
- کارایی مرتبه دوم بعد از تصحیح برای اریب بودن
سازگاری
تحت شرایط مشخص شده در زیر، برآورد درست نمایی بیشینه سازگار است. اصولاً سازگاری به این معناست که با داشتن تعداد نمونه مشاهدات به اندازه کافی زیاد، میتوان مقدار
برای بیان سازگاری شروط ریز کافی است:
- شناسایی مدل
به عبارت دیگر مقادیر مختلف θ متناظر با توزیعهای مختلف در مدل است. اگر این شرط برقرار نباشد، آنگاه
شرط شناسایی برای برآوردکننده درست نمایی بیشینه شرط لازم است. وقتی این شرط برقرار است تابع درست نمایی حدی
- فشردگی
فضای پارامترهای مدل فشرده آیت.
شرط شناسایی بیانگر این بود که لگاریتم درست نمایی یک مقدار بیشینه سراسری دارد. فشردگی بیانگر این است که درست نمایی نمیتواند با شروع از یک نقطه دلخواه به مقدار بیشینه نزدیک شود.
فشردگی صرفاً یک شرط کافی است و شرط لازم نیست. فشردگی میتواند با شروط دیگری از جمله شروط زیر جایگزین شود:
- فرورفتگیها در تابع لگاریتم درست نمایی و فشردگی آنها نسبت به مجموعه سطح تابع لگاریتم درست نمایی بالاتر باشد، یا
- وجود همسایگی فشرده N برای
- پیوستگی
تابع
پیوستگی در اینجا میتواند با شرط ضعیف تر نیمه پیوستگی جایگزین شود.
- تسلط
با توجه به توزیع
طبق قانون اعداد بزرگ، با تلفیق شرط تسلط و پیوستگی برای لگاریتم درست نمایی داریم:
شرط تسلط میتواند در مشاهدات متغیرهای تصادفی مستقل با توزیع یکسان استفاده شود. در مشاهدههای غیر مستقل با توزیع متفاوت، همگرایی یکنواخت در احتمال را میتوان با نشان دادن اینکه دنباله
نرمال مجانبی
در بسیاری از موارد، پارامترهای درست نمایی بیشینه، نرمال مجانبی را تخمین میزنند که برابر است با مجموعه پارامترهای صحیح و واقعی و خطای تصادفی که تقریباً نرمال است (البته با این فرض که دادهها کافی باشد)، و خطا با نرخ
برآورد مرزی
گاهی برآورد درست نمایی بیشینه در کران مجموعه پارامترهای ممکن نهفتهاست یا درست نمایی بزرگ و بزرگتر میشود تا پارامترها به کران نزدیک شوند. تئوری مجانب استاندارد نیاز به این فرض دارد که پارامترهای واقعی دورتر از مرزها و کرانها قرار دارد. اگر دادههای کافی داشته باشیم، برآورد درست نمایی بیشینه از مرز دور نگه داشته میشود؛ ولی با تعداد نمونههای کمتر، برآورد به مرزها میرسد. در این موارد تئوری مجانبی تقریب کاربردی و درستی نمیدهد. مثالها در این موضوع مدلهای واریانس مؤلفهای هستند که هر مؤلفه دارای واریانس
دادههای مرزی وابسته یه پارامتر
برای کاربردی کردن تئوری با یک روش ساده، مجموعهای از دادهها با احتمال مثبت را در نظر میگیریم که مستقل از پارامتر باشد. مثال سادهای که وابستگی به پارامترها در آن برقرار باشد تخمین زدن θ از مجموعهای مشاهدات مستقل با توزیع یکسان مانند توزیع یکنواخت در بازه
پارامترهای مزاحم
برای برآورد درست نمایی بیشینه، یک مدل ممکن است پارامترهای مزاحم داشته باشد. برای برقراری رفتار مجانبی، تعداد اینگونه پارامترها نباید با تعداد مشاهدات (سایز داده) افزایش یابد. یک مثال شناخته شده از این مورد وقتی است که مشاهدات به صورت جفتی رخ دهد که مشاهدات در هر جفت میانگینها مجزا و مجهول دارند ولیکن مستقل و دارای توزیع نرمال با یک واریانس مشترک هستند؛ بنابراین برای تعداد N مشاهده، تعداد پارامترها 2N+۱ خواهد بود. همانطور که میدانیم برآورد درست نمایی بیشینه برای واریانس به مقدار واقعی آن همگرا نمیشود.
افزایش اطلاعات
وقتی شرط مشاهدههای مستقل با توزیع یکسان برقرار نباشد، برای برقراری مجانب، نیازمندی اساسی این است که اطلاعات در دادهها با افزایش سایز نمونهها به صورت بینهایت افزایش یابد. این نیازمندی در شرایطی که وابستگی بین دادهها وجود داشته باشد و مشاهدات جدید مستقل باعث افزایش خطای مشاهدات شود، ارضا نمیشود.
از جمله شرایطی که این رفتار را تضمین میکند میتوان به موارد زیر اشاره کرد:
- مشتق مرتبه اول و دوم تابع لگاریتمی درست نمایی وجود داشته باشد
- ماتریس اطلاعات فیشر ماتریس وارون باشد
- ماتریس اطلاعات فیشر به عنوان یک تابع با پارامتر θ پیوسته باشد
- برآورد درست نمایی بیشینه سازگار باشد.
فرض کنید که شرایط سازگار بودن برآورد درست نمایی بیشینه برقرار باشد و
- و برای همسایگی N ازاز دو طرف پیوسته و مشتق پذیر باشد
- و
- وجود داشته باشد و غیر سینگولار باشد.
در اینصورت برآورد درست نمایی بیشینه به صورت مجانبی از توزیع نرمال پیروی میکند.
تغییرناپذیری کاربردی
برآوردکننده درست نمایی بیشینه مقادیری برای پارامتر انتخاب میکند که منجر به بزرگترین مقدار ممکن برای احتمال یک داده مشاهده شود. اگر پارامتر شامل تعدادی مؤلفه باشد، آنگاه برآوردگرهای درست نمایی بیشینه متفاوت برای آنها تعریف میکنیم. اگر
که تابع درستنمایی را بیشینه میکند:
همچنین برآورد درست نمایی بیشینه نسبت به انتقال دادهها تغییرناپذیر است. اگر
تابع درست نمایی برای X و Y صرفاً در یک فاکتور تفاوت دارد که وابسته به پارامترهای مدل نیست.
برای مثال، پارامترهای برآورد درست نمایی بیشینهٔ توزیع لگاریتم درست نمایی همان پارامترهای توزیع نرمال است که به لگاریتم دادهها فیت شدهاست.
ویژگیهای مرتبه بالاتر
بر طبق مجانب استاندارد، برآوردکننده درست نمایی بیشینه باید ببه کران پایین کرامر-رائو برسد؛ بنابراین:
که I ماتریس اطلاعات فیشر است:
بهطور خاص، این به این معناست که بایاس برآوردکننده درست نمایی بیشینه برابر با صفر تا حداکثر مرتبه
که براساس قرارداد جمعزنی اینشتین بر روی اندیسهای تکرار شونده ،
با استفاده از این فرمولها میتوان بایاس مرتبه دوم برآوردکننده درست نمایی بیشینه را تخمین زد و هر بار با استفاده از بایاس آن را اصلاح کرد:
مثال
توزیع یکنواخت گسسته
توزیع گسسته، فضای نمونه متناهی
فرض کنید کسی میخواهد مشخص کند که یک سکه چگونه پشت یا رو میآید (با چه احتمالاتی) فرض کنید احتمال رو آمدن P باشد. هدف تعیین P است.
فرض کنید سکه ۸۰ بار پرتاب شده باشد، نمونه ممکن است چیزی شبیه این باشد: x۱ = H, x۲ = T , … , x۸۰ = T
احتمال پشت آمدن ۱ + p- است. فرض کنید نتیجه ۴۹ رو و ۳۱ پشت باشد و فرض کنید سکه از یک جعبه برداشته شود: یکی که احتمال رو آمدنش ۱/۳ است، یکی که احتمال رو آمدنش ۱/۲ است و دیگری که احتمال رو آمدنش ۲/۳ است. بر چسب سکهها گم شدهاست. با استفاده از این روش میتوان سکهٔ با بیشترین احتمال رو آمدن را پیدا کرد. داریم:
توزیع گسسته، فضای نمونه پیوسته
حالا فرض کنید که فقط یک سکه داریم که احتمال آن میتواند بین صفر و یک باشد. برای بیشینه کردن تابع بیشترین بخت داریم:
و بیشینه کردن برای تمام مقادیر ممکن احتمال بین صفر و یک است.
یک راه برای بیشینه کردن این تابع مشتقگیری نسبت به p و صفر قرار دادن آن است.
/
که دارای جواب p=۰ و p=۱ و p=۴۹/۸۰ است. جوابی که بخت را بیشینه میکند p=۴۹/۸۰ است؛ بنابراین بیشترین احتمال برای ۴۹/۸۰ است.
توزیع پیوسته، فضای نمونه پیوسته
برای توزیع نرمال
تابع چگالی احتمال n متغیر تصادفی نرمال مستقل با توزیع یکسان به صورت زیر تعریف میشود:
به عبارت دیگر:
که در آن
توزیع نرمال دارای دو پارامتر است :
مشتق لگاریتم درست نمایی را محاسبه میکنیم و آن را صفر قرار میدهیم:
که با عبارت زیر حل میشود:
که در واقع بیشینه تابع است چرا که صرفاً یک اکسترمم در μ وجود دارد و مشتق دوم اکیداً کمتر از صفر است؛ بنابراین امید آن برابر است با پارامتر μ.
که به این معنا است که برآوردکننده درست نمایی بیشینه
علاوه بر این مشتق لگاریتم درست نمایی را نسبت به σ گرفته و مساوی صفر قرار میدهیم:
که جواب آن به صورت زیر است:
با قراردادن تخمین
برای محاسبه امید، آن را به فرم استاندارد با میانگین صفر
با ساده کردن رابطه بالا با استفاده از دو رابطه
که به این معنا است که برآوردکننده
میتوان گفت برآوردکننده درست نمایی بیشینه برای
در این مورد، براوردهای درست نمایی بیشینه میتوانند به صورت تک به تک و در حالت کلی ممکن است این براوردها به صورت همزمان بدست آیند.
فرم نرمال لگاریتمی درست نمایی در حالت بیشینه خود به صورت زیر است:
میتوان نشان داد که لگاریتم درست نمایی بیشینه در حالت کلی برا ی کمترین مربعات و برای کمترین مربعات غیر خطی یکی است. این موضوع میتواند برای تخمینهای مبتنی بر درست نمایی بازه اطمینان و منطقه اطمینان استفاده شود که در حالت کلی بسیار دقیق تر از استفاده از نرمال مجانبی که در بالا بحث شد، است.
متغیرهای غیرمستقل
در برخی موارد متغیرها همبسته هستند ولی مستقل نیستند. دو متغیر تصادفی X و Y مستقل هستند اگر و فقط اگر تابع چگالی احتمال مشترک آن دو، برابر با حاصلضرب تابع چگالی احتمال هر یک باشد. یعنی:
فرض کنید بردار تصادفی n بعدی از توزیع گوسی داشته باشیم
تابع چگالی احتمال مشترک برای n متغیر تصادفی را با رابطه زیر نشان میدهیم:
در حالت دو متغیره تابع چگالی احتمال مشترک به صورت زیر است:
در این مورد و در دیگر موارد که تابع چگالی مشترک وجود داشته باشد، تابع درست نمایی که که در بالاتر و در بخش اصول تعریف شد از این چگالی استفاده میکند.
روالهای تکراری
مسئلهای را در نظر بگیرید که باید در آن هم حالت (وضعیت)های
برای مثال، فرض کنید که n نمونه از وضعیتها که میانگین نمونه آن
همگرایی برآورد درست نمایی بیشینه در روشهای فیلترینگ و هموار سازی در مقالات متعددی مورد مطالعه قرار گرفته شدهاست.
جستارهای وابسته
منابع
- ↑ Hendry, David F.; Nielsen, Bent (2007). Econometric Modeling: A Likelihood Approach. Princeton: Princeton University Press. ISBN 978-0-691-13128-3.
- ↑ Rossi, Richard J. (2018). Mathematical Statistics: An Introduction to Likelihood Based Inference. New York: John Wiley & Sons. p. 227. ISBN 978-1-118-77104-4.