اندازه نمونه
اندازهٔ نمونه (به انگلیسی: sample size) یا حجم نمونه در آمار، یکی از مفاهیم اصلی و مرکزی در علم آمار و آمار کاربردی است.
از ارکان روش علمی، تکرار آزمایشها و تکرارپذیری آزمایشها است. یک آزمایش از تعدادی اعداد و کمیتهای اندازهگیری شده تشکیل شده که به مجموعهٔ آن اندازهگیریها یک نمونه آماری گفته میشود. این در معنای مفرد بکار میرود و اعداد تکرار مربوط، تحت عنوان اندازه نمونه یا حجم آن نمونه نام گذاری میشود. هرچه تعداد بیشتر باشد، دقت تخمین و نتیجهگیری بیشتر خواهد بود.
چالش نمونههای آماری کوچک
در بعضی موارد، برای معنی دار بودن نتایج یک آزمایش، یک حداقل تعداد تکرار آزمایش لازم است، تا به درجه معنا داری از اطمینان به نتیجه (و عدم تصادفی بودن آن) رسید؛ بنابراین طبیعتاً نه تنها یک تمایل برای افزایش حجم نمونه برای بهبود دقت وجود دارد (برای تعیین بهینه این حجم به تعیین اندازه نمونه مراجعه شود)، بلکه گاهی نیاز به این افزایش هست تا کافی برای اینکه به درجه دقت لازم در نتیجهٔ تخمین رسید. در غیر این صورت، این باعث نه تنها عدم دقت در نتیجهٔ تخمین میشود، بلکه منجر به عدم اطمینان کافی از صحت نتیجه خواهد شد.
از سوی دیگر، در آزمایشهای علمی، همیشه تعداد اندازهگیریها یا تکرارهای آزمایش (trials) که میتوان گرفت نه تنها هزینه بر است، بلکه محدود است؛ بنابراین، این مانعی در اثبات فرضیه ایجاد میکند و لازم است روشها و متدهای پیشرفته تری اتخاذ کرد. دلایل این محدودیت شامل این موارد است: گران بودن تجهیزات، محدود بودن وقت (یا وقت گیر بودن آزمایش)، محدود بودن منابع و بودجه، عملی نبودن زمان طولانی آزمایش، دشواری در بکار گرفتن یا یافتن تعداد زیاد افراد داوطلب، و غیره. (برای تعیین بهینه این حجم به تعیین اندازه نمونه مراجعه شود).
این مسئلهٔ محدودیتهای عملی، خصوصاً برای مسایل دشوارتر و پیچیدهتر (با فاکتورهای بیشتر، یا مسایل غیر خطی)، برجسته میشود. گاهی تعداد تکرارهای لازم (حجم نمونه آماری لازم) چنان زیاد است که رشد نمایی دارد و منوط به تعداد لازم در مقایسهای نجومی است (مثلا زمان آزمایش لازم به هزاران سال میرسد، یا اینکه تعداد متغیرهای درگیر در آزمایش چنان زیادند که برای اینکه بتوان حرفی از فرضیه مورد نظر زد، لازم است ثبت الکتریکی از مغز موش حداقل به مدت یک روز، یک هفته، یا تا میلیاردها سال بطول میکشد: در حالیکه بهطور نوعی، این ثبت الکتریکی بیشتر از مدت یک ساعت عملی نیست و منجر به خطا میشود). همچنین گاهی مسئله نوعاً پیچیده و چند فاکتوری است. متدهای تخمینی آماری قدرتمندی برای مدلسازی آماری یا تخمین کمیتهای آماری، یا بررسی فرضیههای علمی وجود دارند (مانند روشهای چند متغیره چند بعدی، و غیره)، اما مسئلهٔ مهم این است که با افزایش تعداد متغیرها، اندازه یا حجم نمونه آماری لازم برای این منظور به صورت رشد نمایی بزرگ میشود.
ازنظر کمی، یک صورت بندی این مسئله این است که معمولاً وقتی تخمین یک کمیت مد نظر باشد، ابن کمیت دچار بایاس (سوگیری یا اوریب شدگی) میشود (به بخش مربوط در زیر مراجعه شود).
چالش اندازه نمونه، یا کوچک بودن اندازه نمونه یا حجم نمونه، موجب نتایج غلط در تخمین بعضی کمیتهای آماری و احتمالاتی میشود. این مسئله شبیه مسئلهٔ اورفیتینگ (و عدم تعمیم پذیری، یا سوء تعمیم) در مدل (در حضور تعداد نمونههای کوچک) است که منجر به سویگری (بایاس) در نتایج میشود.
این موضوع به مسئلهٔ محدودیت تعداد نمونه در آزمایشهای علمی برمیگردد، که در آن با مانعی برای بهبود تخمینهای مربوط، خصوصاً وقتی با سیگنالهای پیوسته مواجهیم. در سیگنالهای پیوسته، متغیر تصادفی چند متغیره ای داریم که:
- تعداد متغیرها زیاد هستند
- این متغیرها دارای همبستگی (کوریلیشن) هستند.
سوگیری ناشی از تعداد کمتعداد نمونه (sample size problem)، در حوزههای مختلف علوم، یک چالش عمده برای تحلیل دادههای آزمایشگاهی است. بطور خاص، این مسئله، موجب مانع عمده میشود در راه بهکارگیری تکنیکهای قدرتمندتر، مانند روشهای چند متغیره، روشهای آزمون فرضیه مبتنی بر اینفورمیشن تئوری (که ابزاری تعمیم یافته برای بررسی فرضیهها و هایپوتزهای علمی است، مثلاً برای شناخت مغز که در آن، سیگنالها، پرتعداد و تصادفی و نویزی هستند).
این چالش، بیانی ریاضی از یکی از موانع عمده بر سر راه شناخت بشر و پیشرفت علم و موزه درمان و علوم پایه و غیره است عمیقاً؛ بنابراین این چالش به فلسفهٔ علم مرتبط میشود. مسئلهٔ سوگیری برای نمونههای کوچک، با یک رویکرد ریاضی و محاسباتی به، این چالش مهم در فهم بشر میپردازد.
صورت بندی بر اساس بایاس
وقتی تخمین یک کمیت در یک آزمایش بر اساس تعداد تکرار یک کمیت اندازهگیری شده مد نظر باشد، ابن کمیت دچار بایاس (سوگیری یا اوریب شدگی) میشود. این بایاس به چند صورت نمود میابد. مساله سختتر این است که اگر آزمایش کلی تکرار شود (که خود متشکل از تعدادی ترایال است)، هربار این بایاس متفاوت خواهد بود؛ بنابراین از منظر عددی، مقدار تخمین یافته خودش یک متغیر تصادفی است که چند نوع چالش عددی مواجهیم:
- مقدار متوسط این بایاس
- پراکندگی و واریانس بایاس
برای حل چالش سوگیری ناشی از تعداد کمتعداد نمونه در بهکارگیری متدهای تخمین آماری، علاوه بر تخمین بایاس این رویکردها بکار میروند:
- مسئلهٔ «تخمین بایاس»، به مورد اول میپردازد.
- بسته به کاربرد، تستهای آماری مختلفی برای چالش دوم پیشنهاد شدهاند.
مسالهٔ تخمین بایاس
مسالهٔ تخمین بایاس، مقدار متوسط انحراف مقدار تخمین زده شده از مقدار واقعی است. به روشهای تخمین این بایاس (تخمین بایاس متوسط یک تخمین)، روشهای تصحیح سوگیری یا بایاس کورکشن میگویند. روشهای تحلیلی و امپیریکال برای تصحیح سوگیری وجود دارد.
برای مثال، در محاسبهٔ واریانس، مخرج کسر واریانس n-1 است. این نمونه ای از یک روش تحلیلی است.
همچنین برای تخمین انتروپی یک توزیع امپیریکال، مقدار جذر تعداد اعضای مجموعه (تعداد مقادیر مختلفی که متفیر مورد اندازهگیری گرفته)، از انتروپی بدست آمده کم میشود (روش Treves و Panzeri در ۱۹۹۵).
مرتبط
منابع
- ↑ «اندازهٔ نمونه» [آمار] همارزِ «Sample size» (انگلیسی)؛ منبع: گروه واژهگزینی. جواد میرشکاری، ویراستار. دفتر ششم. فرهنگ واژههای مصوب فرهنگستان. تهران: انتشارات فرهنگستان زبان و ادب فارسی. شابک ۹۷۸-۹۶۴-۷۵۳۱-۸۵-۶.
- ↑ Alessandro Treves and Stefano Panzeri. .The Upward Bias in Measures of Information Derived from Limited Data Samples .Neural Computation. Volume 7, Issue 2, March 1995. p.399-407 https://doi.org/10.1162/neco.1995.7.2.399
مقالۀ اصلی در این رده عبارتاست از: آمار