توزیع مزدوج پیشین
توزیع مزدوج پیشین (انگلیسی: Conjugate prior)
در تئوری احتمال بیزی، اگر توزیعات احتمال پسین
مسئلهٔ کلی یافتن توزیع برای یک پارامتر θ به شرط یک داده یا مجموعه دادههای x را در نظر بگیرید. از قضیه بیز میدانیم که توزیع پسین برابر با حاصلضرب تابع درستنمایی
فرض میکنیم تابع درستنمایی ثابت است. تابع درستنمایی معمولاً به خوبی از بیانی از فرایند تولید داده مشخص میگردد. واضح است که انتخابهای متفاوت برای توزیع پیشین
یک توزیع مزدوج پیشین یک آسودگی جبری است که توصیف بسته ای برای توزیع پسین ارائه میدهد. در غیر این صورت ممکن است انتگرال عددی لازم باشد. علاوه بر این، توزیعات پیشین مزدوج با بیشتر و شفاف نشان دادن اینکه چگونه یک تابع درستنمایی یک توزیع پیشین را به روز میکند درکی مستقیم ارائه میدهند.
تمام اعضای خانواده نمایی توزیعات پیشین مزدوج دارند.
مثال
فرم توزیع پیشین مزدوج عموماً میتواند با بررسی تابع چگالی احتمال یا تابع جرم احتمال آن توزیع مشخص گردد. به عنوان مثال، یک متغیر تصادفی را در نظر بگیرید که شامل تعداد موفقیتهای
توزیع مزدوج پیشین معمول توزیع بتا با پارامترهای (
که در آن
در اینجا
آن گاه اگر از این متغیر تصادفی نمونه برداری کنیم و s موفقیت و p شکست به دست آوریم داریم:
که توزیع بتای دیگری با پارامترهای (s +
شبه مشاهدات
اغلب سودمند است که هایپرپارامترهای توزیع مزدوج پیشین را متناظر با انجام تعدادی شبه مشاهده با ویژگیهایی که توسط پارامترها مشخص میشود در نظر بگیریم. به عنوان مثال، مقادیر
تفسیرها
شباهت با توابع ویژه
توزیعات مزدوج پیشین مشابه تابع ویژه در نظریه عملگرها هستند از این جهت که توزیعاتی هستند که در آنها «عملگر شرطی سازی»، در صورت در نظر گرفتن فرایند تغییر از توزیع پیشین به پسین به عنوان یک عملگر، به روشی کاملاً قابل درک عمل میکند.
در هر دو توابع ویژه و توزیعات مزدوج پیشین فضایی با بعد متناهی وجود دارد که توسط عملگر حفظ و نگهداری میشود: خروجی فرمی مشابه (فضایی مشابه) ورودی دارد. این عمل به شدت تجزیه و تحلیل را ساده میکند چون در غیر این صورت فضایی با بعد نامتناهی (فضای تمام توابع، فضای تمام توزیعها) را در نظر میگیرد.
با این وجود، فرایندها تنها مشابه و نه یکسان هستند: شرطی سازی خطی نیست زیرا فضای توزیعات تحت ترکیب خطی بسته نمیشود بلکه تحت ترکیب محدب بسته میشود و توزیع پسین تنها فرمی مشابه توزیع پیشین دارد و ضریبی اسکالر از آن نیست.
همانطور که به راحتی میتوان تجزیه و تحلیل کرد که چگونه ترکیبی خطی از توابع ویژه تحت استفاده از یک عملگر تکامل مییابد (چون عملگر نسبت به این توابع، قطری شده است)، به راحتی میتوان تجزیه و تحلیل کرد که چگونه یک ترکیب محدب از توزیعات مزدوج پیشین تحت شرط سازی کامل مییابد؛ این عمل به وسیلهٔ یک توزیع هایپرپیشین صورت میگیرد و متناظر با استفاده از چگالی مخلوط توزیعات مزدوج پیشین به جای تک توزیع مزدوج پیشین است.
سیستم دینامیکی
میتوان عمل شرطی سازی روی توزیعات مزدوج پیشین را تعریف کردن نوعی سیستم دینامیکی (زمان گسسته) در نظر گرفت: به ازای مجموعه ای داده شدهای از هایپرپارامترها، دادهٔ ورودی این هایپرپارامترها را به روز میکند. پس میتوان تغییر در هایپرپارامترها را به نوعی «تکامل زمانی» تعبیر کرد که با «یادگیری» متناظر است. شروع در نقاط متفاوت جریانهایی متفاوت در طول زمان را سبب میگردد. این نیز مشابه سیستم دینامیکی است که با یک عملگر خطی تعریف میشود ولی توجه کنید چون نمونههای متفاوت به استنتاجهای متفاوت ختم میشود، این عمل به تنهایی وابسته به زمان نیست بلکه بیشتر وابسته به دادهاست. برای رویکردهای مرتبط، تخمین بیزی بازگشتی و داده گواری را ببینید.
جدول توزیعات مزدوج
فرض کنید n نشان دهندهٔ تعداد مشاهدات باشد. در تمام موارد زیر، فرض میشود که داده از n نقطهٔ
اگر تابع شباهت متعلق به خانواده نمایی باشد آن گاه توزیع مزدوج پیشین وجود دارد که اغلب اوقات آن نیز عضو خانوادهٔ نمایی است. به خانواده نمایی: توزیعات مزدوج رجوع کنید.
توزیعات گسسته
شباهت | پارامترهای مدل | توزیع مزدوج پیشین | هایپرپارامترهای پیشین | هایپرپارامترهای پسین | تفسیر هایپر پارامترها | توزیع پسین پیشگویانه |
---|---|---|---|---|---|---|
برنولی | p (احتمال) | بتا | ||||
دوجملهای | p (احتمال) | بتا | (بتا-دوجملهای) | |||
دوجملهای منفی با تعداد شکستهای معلوم، r | p (احتمال) | بتا | ||||
پواسون | λ (نرخ) | گاما | (دوجملهای منفی) | |||
(دوجملهای منفی) | ||||||
مطلق | p (بردار احتمال), k (تعداد دستهبندی ها؛ یعنی، اندازهٔ p) | دیریکله | ||||
چندجملهای | p (بردار احتمال), k (تعداد دستهبندی های؛ یعنی، اندازهٔ p) | دیریکله | (دیریکله—چندجملهای) | |||
فوقهندسی با اندازهٔ جمعیت کل معلوم، N | M (تعداد اعضای هدف) | بتا-دوجملهای | ||||
هندسی | p0 (احتمال) | بتا |
توزیعات پیوسته
شباهت | پارامترهای مدل | توزیع مزدوج پیشین | هایپرپارامترهای پیشین | هایپرپارامترهای پسین | تفسیر هایپرپارامترها | توزیع پسین پیشگویانه |
---|---|---|---|---|---|---|
نرمال با واریانس معلوم σ | μ (میانگین) | نرمال | میانگین از مشاهدات با دقت کل (مجموع تمام دقتهای منفرد) | |||
نرمال با دقت معلوم τ | μ (mean) | نرمال | میانگین از مشاهدات با دقت کل (مجموع تمام دقتهای منفرد) | |||
نرمال با میانگین معلوم μ | σ (واریانس) | گامای وارونه | واریانس از | |||
نرمال با میانگین معلوم μ | σ (واریانس) | کی دو وارونهٔ مقیاس شده | واریانس از | |||
نرمال با میانگین معلوم μ | τ (دقت) | گاما | دقت از | |||
نرمال | μ و σ با این فرض که تعویض پذیری دارند | گامای نرمال وارونه |
| میانگین از | ||
نرمال | μ و τ با فرض اینکه تعویض پذیری دارند | نرمال-گاما |
| میانگین از | ||
نرمال چندمتغیره با ماتریس کوواریانس معلوم Σ | μ (بردار میانگین) | نرمال چند متغیره |
| میانگین از مشاهداتی با دقت کل (مجموع تمام دقتهای منفرد) | ||
نرمال چندمتغیره با ماتریس دقت معلوم Λ | μ (بردار میانگین) | نرمال چندمتغیره |
| میانگین از مشاهداتی با دقت کل (مجموع تمام دقتهای منفرد) | ||
نرمال چندمتغیره با میانگین معلوم μ | Σ (ماتریس کوواریانس) | ویشارت وارون | ماتریس کوواریانس از | |||
نرمال چندمتغیره با میانگین معلوم μ | Λ (ماتریس دقت) | ویشارت | ماتریس کوواریانس از | |||
نرمال چندمتغیره | μ (بردار میانگین) و Σ (ماتریس کوواریانس) | وارون نرمال-ویشارت |
| میانگین از | ||
نرمال چندمتغیره | μ (بردار میانگین) and Λ (ماتریس دقت) | نرمال-ویشارت |
| میانگین از | ||
یکنواخت | پارتو | |||||
پارتو با کمینهٔ معلوم xm | k (شکل) | گاما | ||||
توزیع وایبول با شکل معلوم β | θ (مقیاس) | توزیع گامای وارونه | ||||
توزیع لگاریتمی نرمال با دقت معلوم τ | μ (میانگین) | نرمال | «میانگین» از مشاهداتی با دقت کل (مجموع تمام دقتهای منفرد) | |||
توزیع لگاریتمی نرمال با میانگین معلوم μ | τ (دقت) | گاما | دقت از | |||
نمایی | λ (نرخ) | گاما | (توزیع لوماکس) | |||
گاما با شکل معلوم α | β (نرخ) | گاما | ||||
توزیع گامای وارونه با شکل معلوم α | β (نرخ معکوس) | گاما | ||||
گاما با نرخ معلوم β | α (شکل) | |||||
گاما | α (شکل), β (نرخ معکوس) |
جستارهای وابسته
نکات
- ↑ این توزیع پسین پیشگویانه یک نقطهٔ دادهٔ جدید با فرض نقاط دادهٔ مشاهده شدهاست که پارامترهای آن حاشیه سازی شدهاست. متغیرهای پریم دار مقادیر پسین پارامترها را نشان میدهند.
- ↑ β نرخ یا معکوس مقیاس است. در پارامتر سازی توزیع گاما، θ = 1/β و k = α.
- ↑ این توزیع پسین پیشگویانه نقطهٔ دادهٔ جدید با فرض نقاط دادهٔ مشاهده شدهاست که پارامترهای آن حاشیه سازی شدهاست. متغیرهای پریم دار مقادیر پسین پارامترها را نشان میدهند.وبه ترتیب به توزیع نرمال و توزیع تی-استیودنت، یا در موارد چند متغیره به توزیع نرمال چند متغیره و توزیع تی چند متغیره اشاره دارند.
- ↑ برحسب گامای وارونه، پارامتر مقیاس است.
- ↑ توزیع مزدوج پیشینی متفاوت برای میانگین و واریانس نامعلومی با رابطه ای خطی و ثابت میان آنها در مخلوط نرمال واریانس-میانگین یافت میشود که گاوسی معکوس تعمیمیافته توزیع مخلوط مزدوج آن است.
- ↑ یک توزیع گامای مرکب است؛در اینجا یک توزیع بتا پریم تعمیم یافته است.
منابع
- ↑ Jeff Miller et al. Earliest Known Uses of Some of the Words of Mathematics, "conjugate prior distributions". Electronic document, revision of November 13, 2005, retrieved December 2, 2005.
- ↑ For a catalog, see Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Rubin, Donald B. (2003). Bayesian Data Analysis (2nd ed.). CRC Press. ISBN 1-58488-388-X.
- ↑ Murphy, Kevin P. (2007). "Conjugate Bayesian analysis of the Gaussian distribution" (PDF).
- ↑ Statistical Machine Learning, by Han Liu and Larry Wasserman, 2014, pg. 314: http://www.stat.cmu.edu/~larry/=sml/Bayes.pdf