آزمون مربع کای
آزمون توزیع نرمال یا ازمون مربع کای یا آزمون خی 2 که به صورت
- مقدار کای-۲ طبق رابطه زیر محاسبه میشود
که در آن
- O = مقدار مشاهده شده ( فراوانی هر داده)
- E = فراوانیهای مورد انتظار
پس از محاسبه جدول فراوانی های مورد انتظار و محاسبه مقدار درجه آزادی با مقایسه مقدار های به دست آمده با جدول توزیع مربع کای میتوان در مورد اینکه دو متغیر با هم ارتباط دارند یا خیر نتیجه گیری کرد
این آزمون تنها راه حل موجود برای آزمون همگنی در مورد متغیرهای مقیاس اسمی با بیش از دو مقوله است؛ بنابراین، کاربرد خیلی زیادتری نسبت به آزمونهای دیگر دارد. این آزمون نسبت به حجم نمونه حساس است.
آزمون مربع کای برای تعیین تفاوتها میان چند چیز هم بکار میرود. که یکی از اساسی ترین کاربرد های آن در علوم کامپیوتر به خصوص مبحث یادگیری ماشین و یادگیری عمیق است.
نمونه عملی ازمون کای 2 یک داده طبقه ای
فرض کنید یک شهر 1،000،000 نفری با چهار محله: A ، B ، C ، و D. وجود دارد. یک نمونه تصادفی از 650 نفر از ساکنان شهر انتخاب شده و شغل آنها شامل کارگر یقهسفید ، کارگر یقهآبی یا کارگر یقهصورتی بودند. فرضیه صفر این است که محل زندگی هر شخص مستقل از طبقه بندی شغلی فرداست. جدول مشاهداتی به صورت ذیل آورده شده است:
A B C D جمع یقه سفید 90 60 104 95 349 یقه آبی 30 50 51 20 151 یقه صورتی 30 40 45 35 150 جمع 150 150 200 150 650
حال براساس محله A، 150، تخمین بزنید که چه نسبتی از کل 1،000،000 در محله زندگی می کنند A به همین ترتیب 349/ 650 را برآورد کنید که نسبت آن بر 1،000،000 نفر یقه سفید نشان می دهد. با فرض مستقل بودن، طبق این فرضیه باید "انتظار داشته باشیم" تعداد کارگران یقه سفید در محله A بصورت زیر باشد باشد.
سپس در آن "سلول" جدول، خواهیم داشت:
مجموع این مقادیر در کل سلول ها ، آماره کای 2 است. در این حالت حدود
اگر آماره آزمون با توجه به آن توزیع مجذور کای 2 مورد انتظار زیاد باشد ، فرضیه صفر مستقل رد می شود.
یک مسئله مرتبط، آزمون هم توزیعی است. فرض کنید به جای اینکه به هر ساکن از هر چهار محله فرصت برابری برای درج در نمونه بدهیم ، از قبل تصمیم بگیریم که تعداد ساکنان هر محله تعیین شود. پس از آن هر ساکن همان شانس انتخاب را دارد که همه ساکنان یک محله یکسان هستند ، اما اگر چهار اندازه نمونه متناسب با جمعیت چهار محله نباشد ، ساکنان محله های مختلف احتمال انتخاب آنها متفاوت است. در چنین شرایطی ، ما "هم توزیعی" را آزمایش می کنیم تا "مستقل بودن". سئوال این است که آیا نسبت کارگران یقه آبی ، یقه سفید و یقه صورتی در چهار محله یکسان است؟ با این حال ، آزمایش به همان روش انجام می شود.