توزیع خیدو
توزیع خیدو (و یا کیدو یا
تابع چگالی احتمال | |||
تابع توزیع تجمعی | |||
پارامترها |
| ||
---|---|---|---|
تکیهگاه |
| ||
تابع چگالی احتمال |
| ||
تابع توزیع تجمعی |
| ||
میانگین |
| ||
میانه |
تقریباً | ||
مُد |
| ||
واریانس |
| ||
چولگی |
| ||
کشیدگی |
| ||
آنتروپی |
| ||
تابع مولد گشتاور |
| ||
تابع مشخصه |
|
درتئوری آمار و احتمال chi-square distribution با k درجه آزادی توزیعی است از یک سری مجموع مربعات متغیرهای تصادفی نرمال مستقل از هم (یعنی شما یه توزیع نرمال داری ازش بهطور تصادفی متغیرهایی رو برمیداری اینا رو به توان دو میرسونی و با هم جمع میکنی این میشه chi-square distribution)
chi-square distribution یک نمونه خاصی از توزیع گاماست؛ و در توزیعهای احتمال در آمار استنباطی کاربرد زیادی دارد؛ به ویژه در hypothesis testing و ساختن نواحی اطمینان (یک سیگما دو سیگما و…). این توزیع اغلب توزیع کای-اسکور مرکزی نامیده میشود؛ مورد خاصی از توزیع کای-اسکور عام غیر مرکزی است. chi-square distribution در تستهای متداول فیتینگ از یک توزیع مشاهده شده با یک توزیع تیوریکال استفاده میشود.
مستقل از دو معیار: طبقهبندی کیفیت دادهها و برآورد فاصلهٔ اطمینان (همون یک سیگما دو سیگما) برای جمعیتی که انحراف استاندارش از یک توزیع نرمال برای یک نمونه انحراف استاندارد. بسیاری از آزمونهای آماری نیز از این توزیع استفاده میکنند مانند تحلیل فریدمان براساس رتبهها.
رتبهبندی به کار میرود و نیز برای مقایسه میانگین رتبهبندی گروههای مختلف کاربرد دارد)
اگر Z1، … ، Zk متغیرهای تصادفی نرمال استاندارد و مستقل باشند، پس حاصل جمع مربعات آنها:
standard normal random variables
برطبق توزیع کای-اسکور با k درجه آزادی توزیع میشود. این معمولاً به صورت زیر نشان داده میشود:
توزیع کای-اسور دارای یک پارامتر است: یک عدد صحیح مثبت k که تعداد درجات آزادی (تعداد Ziها) را مشخص میکند.
معرفی
توزیع کای-اسکور در درجه اول در hypothesis testing و به میزان کمتری برای فواصل اطمینان confidence intervals برای واریانس جمعیت هنگامی که توزیع نرمال هستند، استفاده میشود. برخلاف توزیعهای مشهورتر مانند توزیع نرمال و توزیع نمایی، توزیع کای-اسکور بهطور معمول در مدلسازی مستقیم پدیدههای طبیعی اعمال نمیشود. این در آزمون فرضیه زیر وجود دارد:
۱- تست کای-اسکور مستقل در جداول احتمالی contingency tables
(جدول پیشایندی نوعی جدول در شکل ماتریس است، که توزیع فراوانی متغییرها را نشان میدهد. فرض کنید ما دو متغیر داریم، جنسیت و راستدستی و چپدستی. سپس فرض کنید، میخواهیم برای مطالعه اختلاف راستدستی یا چپدستی با توجه به جنس، ۱۰۰ نفر را به عنوان نمونه از جامعه آماری بسیار بزرگ انتخاب کنیم. میتوان برای نشان دادن تعداد افراد مذکر و راستدست، مذکر و چپدست، مؤنث راستدست و مؤنث چپدست، از یک جدول پیشایندی استفاده کرد)
- تست کای-اسکور برای برازش دادههای مشاهده شده با توزیعهای فرضی
- Likelihood-ratio test برای مدلهای تو در تو
- Log-rank test در تجزیه و تحلیل بقا
- آزمون Cochran – Mantel – Haenszel برای جداول احتمالی طبقه ای stratified contingency tables
این همچنین مولفه ای از تعریف توزیع t و توزیع F است که در آزمونهای t، تحلیل واریانس و تحلیل رگرسیون استفاده میشود.
دلیل اصلی استفاده از توزیع کای-اسکور در hypothesis testing، ارتباط آن با توزیع طبیعی است. در بسیاری از hypothesis testing آماری یک تست آماری استفاده میشود مانند آمار t در آزمون t t-statistic in a t-test. برای این hypothesis testing، با سایز نمونه n با افزایش توزیع نمونه تست به توزیع طبیعی نزدیک میشود (قضیه حد مرکزی).
از آنجا که آمار آزمون (مانند t) بصورت مجانبی به توزیع نرمال میل میکند، به شرط آنکه اندازه نمونه به اندازه کافی بزرگ باشد، توزیع مورد استفاده برای hypothesis testing ممکن است تقریباً توزیع نرمال باشد. hypothesis testing با استفاده از توزیع نرمال کاملاً شناخته شده و نسبتاً آسان است. سادهترین توزیع کای-اسکور؛ مربع یک توزیع نرمال استاندارد است؛ بنابراین هر جا یک توزیع نرمال داشتیم میتوان از hypothesis testing استفاده کرد و میتوان از توزیع کای-اسکور استفاده کرد.
فرض کنید Z یک متغیر تصادفی است که از توزیع نرمال استاندارد نمونه برداری شدهاست standard normal distribution، که میانگین برابر با ۰ و واریانس: 1 Z ∼ N (0، ۱). اکنون متغیر تصادفی Q = Z ^ {2} را در نظربگیرید. توزیع متغیر تصادفی Q نمونه ای از توزیع کای-اسکور است: Q ∼ χ ۱ ۲. زیرنویس ۱ نشان میدهد این توزیع کای-اسکور خاص فقط از ۱ توزیع نرمال استاندارد ساخته شده. یک توزیع کای-اسکور ساخته شده از مربع یک توزیع نرمال استاندارد واحد استاندارد که دارای ۱ درجه آزادی است؛ بنابراین، با افزایش سایز نمونه برای یک hypothesis testing، توزیع آماری به یک توزیع طبیعی نزدیک میشود. همانطور که مقادیر شدید توزیع نرمال احتمال کمی دارند (و پی ولیو آنها کوچک است)، مقادیر شدید توزیع کای-اسکور نیز احتمال کمی دارند.
یک دلیل دیگر که توزیع کای-اسکور بهطور گستردهای مورد استفاده قرار میگیرد این است که به عنوان توزیع نمونه زیادی از تست هایlikelihood ratio tests (LRT) تبدیل میشود. LRT چندین خاصیت مطلوب دارد. بهطور خاص، LRT ساده معمولاً بالاترین قدرت را برای رد فرضیه صفر (لیمای نیمان-پیرسون) فراهم میکند و این امر به خصوصیات بهینهسازی LRTهای تعمیم یافته نیز منجر میشود. با این حال، تقریبهای کای-اسکور نرمال فقط به صورت مجانبی معتبر هستند. به همین دلیل، استفاده از توزیع t به جای تقریب نرمال یا تقریب کای-اسکور برای نمونههای کوچک ترجیح داده میشود. به همین ترتیب، در تجزیه و تحلیل جداول احتمالی contingency tables، تقریب کای-اسکور برای نمونه کوچک ضعیف خواهد بود و استفاده از آزمون دقیق فیشر ترجیح داده میشود. رمزی نشان میدهد که تست دو جمله ای همیشه قدرتمندتر از تقریب طبیعی است. [۷]
لنکستر ارتباطات بین توزیع دوجمله ای، توزیع نرمال و توزیع کای-اسکور را به شرح زیر نشان میدهد. دی موایر و لاپلاس ثابت کردند که یک توزیع دوجمله ای میتواند تقریباً یک توزیع نرمال باشد. آنها بهطور خاص نرمال مجانبی متغیر تصادفی را نشان دادند.
- در نتیجه توزیع دوجمله ای (پرتاب یک سکه) ، توزیع دوجمله ای ممکن است با یک توزیع عادی تقریبی شود (برای n به اندازه کافی بزرگ). چرا که مربع یک توزیع نرمال استاندارد همان توزیع کای-اسکور با یک درجه آزادی است، احتمال یک نتیجه از جمله ۱ در ۱۰ آزمایش میتوان با استفاده از توزیع نرمال به طور مستقیم تقریب زد یا توزیع کای-اسکور؛ مربع اختلافات بین مقدار مشاهده شده و مقدار واقعی. با این حال، بسیاری از مسایل بیش از دو نتیجه احتمالی یعنی یک دو جمله ای را شامل می شوند و در عوض به ۳ دسته یا بیشتر نیاز دارند که منجر به توزیع چند جمله ای میشود. درست همانطور که دو مویر و لاپلاس تقریب نرمال را با تقریب دوجمله یافتند و یافتند، پیرسون تقریب نرمال چند متغیره منحط به توزیع چند جمله ای را جستجو و پیدا کرد (اعداد در هر گروه به کل اندازه نمونه اضافه می شوند که ثابت در نظر گرفته میشود) . پیرسون نشان داد که توزیع کای-اسکور از چنین تقریب نرمال چند متغیره به توزیع چند جمله ای بوجود آمدهاست، با در نظر گرفتن دقیق وابستگی آماری (همبستگی های منفی) بین تعداد مشاهدات در دستههای مختلف.
- (در آمار و احتمال، به بیان ساده، تابعِ چگالیِ احتمالِ یک متغیر تصادفی پیوسته به تابعی گفته میشود که انتگرال آن در هر بازهٔ معین، برابر با احتمال قرار داشتن متغیر تصادفی در آن بازه است؛ بنابراین، احتمال اینکه یک متغیر تصادفی پیوسته، یک مقدار معیّن اختیار کند، صفر است. مقدار تابع چگالی احتمال همواره غیرمنفی است )
تابع چگالی احتمال
تابع چگالی احتمال یا (pdf) عبارت است:
در اینجا
جدول توزیع و ضریب p
- p-value احتمال مشاهده یک تست آماری حداقل در حد یک توزیع کای-اسکور است. بر این اساس، از آنجا که تابع توزیع تجمعی (CDF)cumulative distribution function برای درجات آزادی مناسب (df) احتمال به دست آوردن مقداری شدیدتر از این نقطه را میدهد، با کسر مقدار CDF از ۱ مقدار p-value به دست میآید. p-value کم ، زیر سطح معنادار انتخاب شده، نشانگر اهمیت آمار است، یعنی شواهد کافی برای رد فرضیه صفر. از سطح معناداری ۰٫۰۵ اغلب به عنوان قطع نتایج قابل توجه و غیر معنادار استفاده میشود. جدول زیر تعدادی از p-value مطابق با χ ۲ را برای ۱۰ درجه آزادی ارائه میدهد.
مقدار ضریب p در پایین بر اساس χ برای ۱۰ درجهٔ ضریب آزادی تعیین میشود.
درجه آزادی (df) | مقدار χ | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
۱ | ۰٫۰۰۴ | ۰٫۰۲ | ۰٫۰۶ | ۰٫۱۵ | ۰٫۴۶ | ۱٫۰۷ | ۱٫۶۴ | ۲٫۷۱ | ۳٫۸۴ | ۶٫۶۳ | ۱۰٫۸۳ |
۲ | ۰٫۱۰ | ۰٫۲۱ | ۰٫۴۵ | ۰٫۷۱ | ۱٫۳۹ | ۲٫۴۱ | ۳٫۲۲ | ۴٫۶۱ | ۵٫۹۹ | ۹٫۲۱ | ۱۳٫۸۲ |
۳ | ۰٫۳۵ | ۰٫۵۸ | ۱٫۰۱ | ۱٫۴۲ | ۲٫۳۷ | ۳٫۶۶ | ۴٫۶۴ | ۶٫۲۵ | ۷٫۸۱ | ۱۱٫۳۴ | ۱۶٫۲۷ |
۴ | ۰٫۷۱ | ۱٫۰۶ | ۱٫۶۵ | ۲٫۲۰ | ۳٫۳۶ | ۴٫۸۸ | ۵٫۹۹ | ۷٫۷۸ | ۹٫۴۹ | ۱۳٫۲۸ | ۱۸٫۴۷ |
۵ | ۱٫۱۴ | ۱٫۶۱ | ۲٫۳۴ | ۳٫۰۰ | ۴٫۳۵ | ۶٫۰۶ | ۷٫۲۹ | ۹٫۲۴ | ۱۱٫۰۷ | ۱۵٫۰۹ | ۲۰٫۵۲ |
۶ | ۱٫۶۳ | ۲٫۲۰ | ۳٫۰۷ | ۳٫۸۳ | ۵٫۳۵ | ۷٫۲۳ | ۸٫۵۶ | ۱۰٫۶۴ | ۱۲٫۵۹ | ۱۶٫۸۱ | ۲۲٫۴۶ |
۷ | ۲٫۱۷ | ۲٫۸۳ | ۳٫۸۲ | ۴٫۶۷ | ۶٫۳۵ | ۸٫۳۸ | ۹٫۸۰ | ۱۲٫۰۲ | ۱۴٫۰۷ | ۱۸٫۴۸ | ۲۴٫۳۲ |
۸ | ۲٫۷۳ | ۳٫۴۹ | ۴٫۵۹ | ۵٫۵۳ | ۷٫۳۴ | ۹٫۵۲ | ۱۱٫۰۳ | ۱۳٫۳۶ | ۱۵٫۵۱ | ۲۰٫۰۹ | ۲۶٫۱۲ |
۹ | ۳٫۳۲ | ۴٫۱۷ | ۵٫۳۸ | ۶٫۳۹ | ۸٫۳۴ | ۱۰٫۶۶ | ۱۲٫۲۴ | ۱۴٫۶۸ | ۱۶٫۹۲ | ۲۱٫۶۷ | ۲۷٫۸۸ |
۱۰ | ۳٫۹۴ | ۴٫۸۷ | ۶٫۱۸ | ۷٫۲۷ | ۹٫۳۴ | ۱۱٫۷۸ | ۱۳٫۴۴ | ۱۵٫۹۹ | ۱۸٫۳۱ | ۲۳٫۲۱ | ۲۹٫۵۹ |
مقدار p (احتمال) | ۰٫۹۵ | ۰٫۹۰ | ۰٫۸۰ | ۰٫۷۰ | ۰٫۵۰ | ۰٫۳۰ | ۰٫۲۰ | ۰٫۱۰ | ۰٫۰۵ | ۰٫۰۱ | ۰٫۰۰۱ |
- این مقادیر را میتوان با ارزیابی عملکرد کمی (همچنین به عنوان "CDF معکوس" یا "ICDF" شناخته میشود) از توزیع کای-اسکور محاسبه کرد. ، ICDF χ۲ برای p = ۰٫۰۵ و df = ۷ بازده ۱۴٫۰۶۷۱۴ ≈ ۱۴٫۰۷ را نشان میدهد مانند جدول بالا.
توزیعهای مرتبط
- وقتی خواهیم داشت
- اگر آنگاهدارای توزیع کیدوِخواهد بود.
- اگر آنگاهدارای توزیع کیدوِخواهد بود.
- اگروآنگاه.
- اگر آنگاه.
- اگر آنگاهدارای توزیع نمایی خواهد بود.
منابع
- ↑ «توزیع خیدو» [آمار، ریاضی] همارزِ «chi square distribution»؛ منبع: گروه واژهگزینی. جواد میرشکاری، ویراستار. دفتر ششم. فرهنگ واژههای مصوب فرهنگستان. تهران: انتشارات فرهنگستان زبان و ادب فارسی. شابک ۹۷۸-۹۶۴-۷۵۳۱-۸۵-۶ (ذیل سرواژهٔ توزیع خیدو)
- ↑ NIST (2006). Engineering Statistics Handbook - Chi-Square Distribution
- ↑ Jonhson, N.L. (1994), Continuous Univariate Distributions (Second Ed. , Vol. 1, Chapter 18) (به انگلیسی), S. Kotz, , N. Balakrishnan, John Willey and Sons
- ↑ Mood, Alexander (1974), Introduction to the Theory of Statistics (Third Edition, p. 241-246) (به انگلیسی), Franklin A. Graybill, Duane C. Boes, McGraw-Hill
- ↑ Chi-Squared Test Table B.2. Dr. Jacqueline S. McLaughlin at The Pennsylvania State University. In turn citing: R. A. Fisher and F. Yates, Statistical Tables for Biological Agricultural and Medical Research, 6th ed. , Table IV. Two values have been corrected, 7.82 with 7.81 and 4.60 with 4.61