فرایند دیریکله
در نظریه احتمالات فرایند دیریکله، که به یاد پیتر گاستاو دریکله نامیده شده است، یک دسته ازفرایند تصادفی است. این فرایند یک توزیع روی توزیع هاست. به عبارت دیگر یک فرایند دریکله یک توزیع احتمالاتی است که بازه آن خود یک مجموعه از احتمالات است. این فرایند غالباً در استنتاج بیزی استفاده میشود که اطلاعات اولیه در مورد توزیع متغیرهای تصادفی را توصیف میکند. -احتمال این که متغیرهای تصادفی با یک یا چند توزیع مشخص توزیع شوند.
یک فرایند دیریکله با
توجه کنید که فرایند دیریکله یک فرایند تصادفی است؛ یعنی تشکیل شده از بینهایت متغیر تصادفی است. حال میتوان یک فرایند دیریکله را به اینصورت ایجاد کرد: یک توزیع تصادفی انتخاب میکنیم و بینهایت متغیر تصادفی را در نظر بگیرید که بینهایت مقدار تصادفی از آن را مشخص میکنند. میتوان این فرایند را توسط سناریوهای دیگری نیز تصویر کرد؛ مانند فرایند رستوران چینی یا فرایند شکستن چوب.
راه دیگر برای تصور فرایند دیریکله تصور یک توزیع دیریکله بینهایت است. با میل دادن ابعاد یک توزیع دیریکله متقارن
اولین بار فرایند دیریکله توسط توماس فرگوسن در سال ۱۹۷۳معرفی شدهاست. از آن پس در دادهکاوی، یادگیری ماشین، پردازش زبان طبیعی، بینایی کامپیوتر و بیوانفورماتیک استفاده شدهاست.
مقدمه
توزیع مخلوط زیر را در نظر بگیرید:
مجموعه
کاربردهای فرایند دریکله
فرایندهای دریکله در آمار بیزی ناپارامتری استفاده میشود. «ناپارامتری» به مفهوم یک مدل بدون پارامتر نیست، بلکه مدلی است که در آن نمایشها با تعداد داده مشاهدهشده افزایش مییابد. مدلهای بیزی ناپارامتری در حوزه یادگیری ماشین به دلیل انعطافپذیری به خصوص در یادگیری بدونناظر، محبوبیت بیشتری کسب میکنند. در یک مدل بیزی ناپارامتری توزیع پیشین و پسین توزیعهای پارامتری نیستند اما فرایند تصادفی هستند. خاصیت ناپارامتری آن، این مدل را کاندید ایدهآل برای خوشهبندی که تعداد خوشهها از قبل نامشخص است میکند.
از آنجایی که کششهای فرایند دریکله مستقل هستند، یک استفاده مهم میتواند استفاده به عنوان احتمال پیشین در مدل ترکیبی نامتناهی باشد. در این مورد، S یک مجموعه پارامتری از توزیعهای مؤلفه است. در نتیجه فرایند تولیدی یک نمونه است که از فرایند دریکله گرفته شدهاست. این حقیقت که هیچ محدودیتی در تعداد مؤلفههای مستقلی که ممکن است تولید شوند این مدل را برای این استفاده وقتی تعداد مؤلفههای ترکببی از قبل مشخص نیست، مناسب میکند.
خاصیت نامتناهی این مدلها همچنین آنها را برای کاربردهای مختلف پردازش زبان طبیعی که با فرض کلمات نامتناهی و گسسته هستند، مناسب میکند. فرایند دریکله همچنین میتواند در تست فرضیه ناپارامتری، برای مثال برای تولید نسخههای کلاسیک تستهای فرضیه مثلاً تست علامت و… استفاده شود.
جستارهای وابسته
- فرایند پیتمن-یور تعمیم فرایند دیریکله است.
- فرایند دیریکله ی سلسله مراتبی تعمیمی از فرایند دیریکله است تا اینکه دادههای گروهی را نیز در نظر بگیرد.
منابع
- ↑ Ferguson، Thomas (۱۹۷۳). «Bayesian analysis of some nonparametric problems». Annals of Statistics. ۱ (۲): ۲۰۹&ndash, ۲۳۰. doi:10.1214/aos/1176342360. MR 0350949.
پیوند به بیرون
- Introduction to the Dirichlet Distribution and Related Processes by Frigyik, Kapila and Gupta
- Yee Whye Teh's overview of Dirichlet processes
- Webpage for the NIPS 2003 workshop on non-parametric Bayesian methods
- Michael Jordan's NIPS 2005 tutorial: Nonparametric Bayesian Methods: Dirichlet Processes, Chinese Restaurant Processes and All That
- Peter Green's summary of construction of Dirichlet Processes
- Peter Green's paper on probabilistic models of Dirichlet Processes with implications for statistical modelling and analysis
- Zoubin Ghahramani's UAI 2005 tutorial on Nonparametric Bayesian methods
- GIMM software for performing cluster analysis using Infinite Mixture Models
- A Toy Example of Clustering using Dirichlet Process. by Zhiyuan Weng