برآورد چگالی
در آمار و احتمال، برآورد چگالی (به انگلیسی: Density estimation) به فرایند تخمین تابع چگالی احتمال یک متغیر تصادفی با استفاده از نمونههای مشاهدهشده از آن متغیر گفتهمیشود. معمولاً فرض میشود نمونههای مشاهده شده به طور تصادفی و مستقل براساس تابع توزیع احتمال، توزیع شدهاند.
برای حل مسئله برآورد چگالی، روش های مختلفی استفاده شده است، از جمله پنجره پارزن ( به انگلیسی: Parzen Window) و تعدادی روش های مبتنی بر دسته بندی داده، از جمله کوانتیزاسیون برداری. ساده ترین روش برای برآورد چگالی، استفاده از یک بافتنگاشت تغییر مقیاس یافته است.
مثالی از برآورد چگالی
در این مثال نمونه های مربوط به بیماری دیابت را بررسی میکنیم. در زیر توضیحات مربوط به مجموعه داده آورده شده است:
جمعیتی از زنان بالای 20 سال از پیما که در Phoenix, Arizona زندگی میکردند، با شاخص سازمان جهانی بهداشت مورد ارزیابی دیابت شیرین قرار گرفتند. داده ها توسط موسسه ملی بیماری های دیابتی و گوارشی و کلیوی آمریکا (US National Institute of Diabetes and Digestive and Kidney Diseases) جمع آوری شده است. ما از 532 نمونه استفاده کردیم.
در این مثال، ما 3 برآورد چگالی برای "glu" (با تمرکز بر روی گلوکز پلاسما (به انگلیسی: plasma glucose)) انجام دادیم. یکی از آنها احتمال شرطی به شرط مبتلا بودن به دیابت، دومی به شرط مبتلا نبودن به دیابت و سومی بدون شرطی روی داشتن یا نداشتن دیابت است. سپس از برآورد هایی که برای احتمالات شرطی به دست آمد استفاده شد تا احتمال ابتلا به دیابت به شرط "glu" بدست بیاید.
داده های مربوط به "glu" از پکیچ MASS موجود در زبان برنامه نویسی آر بدست آمد. داده ها به طور کامل تر از طریق Pima.tr?
و Pima.te?
در زبان آر، قابل دسترسی است.
میانگین و انحراف معیار "glu" در کیس های مبتلا به دیابت به ترتیب برابر 143.1 و 31.26 است. در کیس های بدون دیابت، این مقادیر به ترتیب برابر 110.0 و 24.29 است. با توجه به این مقادیر، میتوان دریافت که نمونه های مبتلا به دیابت دارای مقادیر بالاتری از "glu" هستند. این نکته با بررسی نمودارهای برآورد شده از توابع چگالی قابل فهم تر است.
شکل اول برآورد چگالی از احتمالات p(glu | diabetes=1) و p(glu | diabetes=0) و p(glu) را نشان میدهد. چگالی های برآورد شده، برآورد های چگالی هسته هستند که با استفاده از هستهی گاوسی به دست آمده اند. به بیان دیگر، یک تابع چگالی گاوسی بر روی هر نقطه از داده قرار داده شده است، به طوری که مرکز تابع چگالی نقطه مدنظر باشد، سپس مجموع توابع چگالی روی گستره داده ها محاسبه شده است.
از چگالی "glu" در حالت مشروط به دیابت (احتمال مربوط به p(glu | diabetes=1))، میتوانیم با استفاده از قانون بیز، احتمال دیابت داشتن مشروط به "glu" را محاسبه کنیم. برای اختصار عبارت "db" به جای "diabetes" در فرمول زیر نوشته شده است:
شکل دوم احتمال پسین p(diabetes=1 | glu) برآورد شده را نشان میدهد. از این داده ها، پیداست که افزایش مقادیر "glu"، ارتباط مستقیمی با ابتلا به دیابت دارد
کاربرد و اهداف
یک کاربرد معمول برآورد چگالی، بررسی شهودی (و نه لزوما خیلی دقیق) ویژگی های مختلف یک مجموعه داده است. برآورد چگالی میتواند اطلاعات ارزشمندی از داده ها از جمله چولگی و چندوجهی بودن بدهد. در برخی مواقع استفاده از برآورد چگالی ممکن است منجر به دریافت بدست آوردن نتایجی شود که بعضا بدیهی تلقی میشوند، اما در برخی دیگر از مواقع، میتوانند مشخص کنند که نیاز به جمع آوری بیشتر داده است.
یک جنبهی مهم از علم آمار معمولا ارائه داده ها به همراه نتایج حاصل از بررسی روی آن ها به مشتری است و لازم است که این ارائه به گونهی ساده و قابل فهمی برای مشتری باشد. برآورد چگالی برای این هدف بسیار مناسب است، چرا که بسیار ساده و قابل درک برای افراد نه لزوما حرفه ای در علم ریاضی و آمار است.
برآورد چگالی همچنین مکررا در مبحث تشخیص ناهنجاری استفاده میشود: اگر یکی از مشاهدات در ناحیهای کم-چگال قرار بگیرد، محتمل است که این نمونه ناهنجار باشد.
- در آب شناسی، از بافت نگاشت و تابع چگالی برآورد شده از داده های مربوط به بارش باران و دبی رودخانه که با یک توزیع احتمالی مورد تجزیه و تحلیل قرار گرفته اند، استفاده میشود تا رفتار و تناوب رخداد آن ها بهتر شناخته شود. مثالی در شکل آبی از این کاربرد نشان داده شده است:
منابع
- ↑ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). The Elements of Statistical Learning (به انگلیسی). Springer. p. ۲۰۸-۲۰۹.
- ↑ "Diabetes in Pima Indian Women - R documentation".
- ↑ Smith, J. W., Everhart, J. E., Dickson, W. C., Knowler, W. C. and Johannes, R. S. (1988). R. A. Greenes (ed.). "Using the ADAP learning algorithm to forecast the onset of diabetes mellitus". Proceedings of the Symposium on Computer Applications in Medical Care (Washington, 1988). Los Alamitos, CA: 261–265. PMC 2245318.
{{}}
: نگهداری یادکرد:نامهای متعدد:فهرست نویسندگان (link) - ↑ Ripley, Brian; Venables, Bill; Bates, Douglas M.; ca 1998), Kurt Hornik (partial port; ca 1998), Albrecht Gebhardt (partial port; Firth, David (2022-08-03), MASS: Support Functions and Datasets for Venables and Ripley's MASS, retrieved 2022-12-30
- ↑ Silverman، B. W. (۱۹۸۶). Density Estimation for Statistics and Data Analysis. شابک ۹۷۸-۰۴۱۲۲۴۶۲۰۳.
- ↑ Pimentel, Marco A. F.; Clifton, David A.; Clifton, Lei; Tarassenko, Lionel (2014-06-01). "A review of novelty detection". Signal Processing (به انگلیسی). 99: 215–249. doi:10.1016/j.sigpro.2013.12.026. ISSN 0165-1684.
- ↑ «CumFreq, free calculator, probability density function histogram». www.waterlog.info. دریافتشده در ۲۰۲۲-۱۲-۳۰.
- ↑ «CumFreq, distribution fitting of probability, free calculator». www.waterlog.info. دریافتشده در ۲۰۲۲-۱۲-۳۰.