حساب کاربری
​
زمان تقریبی مطالعه: 2 دقیقه
لینک کوتاه

توزیع دیریکله—چندجمله‌ای

توزیع دیریکله-چندجمله‌ای یک توزیع گسسته چندجمله‌ای است. این توزیع نام های دیگری نیز دارد؛ از جمله Dirichlet compound multinomial distribution (DCM) یا multivariate Pólya distribution(که پس از جورج پولیا نام‌گذاری شده است.) در این توزیع بردار p از یک توزیع دیریکله با پارامترهای α {\displaystyle {\boldsymbol {\alpha }}}

نمونه برداری شده است. مجموعه مقادیر گسسته از توزیع دسته‌ای با بردار احتمالات p بدست می آیند.

فهرست

  • ۱ تابع جرم احتمال
    • ۱.۱ مجموعه ای از مشاهدات
      • ۱.۱.۱ توزیع مشترک
  • ۲ توزیع های مرتبط
  • ۳ کاربردها
  • ۴ جستارهای وابسته
  • ۵ منابع

تابع جرم احتمال

فرض کنیم N نمونه برداری تصادفی مستقل از یک توزیع دسته ای با K دسته انجام می دهیم. فرض کنیم مقادیر تصادفی را با z n {\displaystyle z_{n}}

به ازای مقادیر n = 1 … N {\displaystyle n=1\dots N}
نشان دهیم. فرض بخواهیم تعداد دفعاتی که کلاس k {\displaystyle k}
(به ازای k = 1 … K {\displaystyle k=1\dots K}
)دیده شده است را با n k {\displaystyle n_{k}}
نشان دهیم. می دانیم ∑ k n k = N {\displaystyle \sum _{k}n_{k}=N}
. به این مسئله می توان به دو شیوه ی معادل نگاه کرد:

  1. مجموعه ای از N متغیر با توزیع دسته ای.
  2. بردار x = ( n 1 , … , n K ) {\displaystyle \mathbf {x} =(n_{1},\dots ,n_{K})}
    توزیع شده با توجه به توزیع چندجمله‌ای.

اکنون می توان روی این پارامتر این توزیع ها، یعنی p، توزیعی دیکله تجسم کرد و با انتگرال گیری نسبت به آن، توزیع پسین را بدست آورد. اگرچه دو دید فوق معادل هستند، اما با در نظر گرفتن هر کدام می توان توزیع پسین متفاوتی بدست آورد.

مجموعه ای از مشاهدات

توزیع مشترک

به ازای متغیر دسته ای Z = z 1 , … , z N {\displaystyle \mathbb {Z} =z_{1},\dots ,z_{N}}

توزیع احتمال مشترک حاشیه ای عبارت است از:

Pr ( Z ∣ α ) = ∫ p Pr ( Z ∣ p ) Pr ( p ∣ α ) d p {\displaystyle \Pr(\mathbb {Z} \mid {\boldsymbol {\alpha }})=\int _{\mathbf {p} }\Pr(\mathbb {Z} \mid \mathbf {p} )\Pr(\mathbf {p} \mid {\boldsymbol {\alpha }}){\textrm {d}}\mathbf {p} }

که منجر به فرمول زیر می شود:

Pr ( Z ∣ α ) = Γ ( A ) Γ ( N + A ) ∏ k = 1 K Γ ( n k + α k ) Γ ( α k ) {\displaystyle \Pr(\mathbb {Z} \mid {\boldsymbol {\alpha }})={\frac {\Gamma \left(A\right)}{\Gamma \left(N+A\right)}}\prod _{k=1}^{K}{\frac {\Gamma (n_{k}+\alpha _{k})}{\Gamma (\alpha _{k})}}}

که در آن Γ {\displaystyle \Gamma }

تابع گاما است.

A = ∑ k α k  and  N = ∑ k n k , and where  n k = number of  z n 's with the value  k . {\displaystyle A=\sum _{k}\alpha _{k}{\text{ and }}N=\sum _{k}n_{k}{\text{, and where }}n_{k}={\text{number of }}z_{n}{\text{'s with the value }}k{\text{.}}}

توزیع های مرتبط

توزیع معادل یک بعدی این توزیع توزیع بتا-دو جمله ای نام دارد.

کاربردها

جستارهای وابسته

  • توزیع بتا-دوجمله ای
  • فرایند رستوران چینی
  • فرایند دیریکله
  • توزیع دریکله عمومی

منابع

  • Elkan, C. (2006) Clustering documents with an exponential-family approximation of the Dirichlet compound multinomial distribution. ICML, 289-296
  • Kvam, P. and Day, D. (2001) The multivariate Polya distribution in combat modeling. Naval Research Logistics, 48, 1-17
  • Madsen, RE., Kauchak, D. and Elkan, C. (2005) Modeling Word Burstiness Using the Dirichlet Distribution. ICML, 545-552
  • Minka, T. (2003) Estimating a Dirichlet distribution. Technical report Microsoft Research. Includes Matlab code for fitting distributions to data.
  • Wagner, U. and Taudes, A. (1986) A Multivariate Polya Model of Brand Choice and Purchase Incidence. Marketing Science, 5(3), 219-244.
آخرین نظرات
کلیه حقوق این تارنما متعلق به فرا دانشنامه ویکی بین است.