اندازه نمونه

اندازهٔ نمونه (به انگلیسی: sample size) یا حجم نمونه در آمار، یکی از مفاهیم اصلی و مرکزی در علم آمار و آمار کاربردی است.

از ارکان روش علمی، تکرار آزمایش‌ها و تکرارپذیری آزمایشها است. یک آزمایش از تعدادی اعداد و کمیت‌های اندازه‌گیری شده تشکیل شده که به مجموعهٔ آن اندازه‌گیری‌ها یک نمونه آماری گفته می‌شود. این در معنای مفرد بکار می‌رود و اعداد تکرار مربوط، تحت عنوان اندازه نمونه یا حجم آن نمونه نام گذاری می‌شود. هرچه تعداد بیشتر باشد، دقت تخمین و نتیجه‌گیری بیشتر خواهد بود.

چالش نمونه‌های آماری کوچک

در بعضی موارد، برای معنی دار بودن نتایج یک آزمایش، یک حداقل تعداد تکرار آزمایش لازم است، تا به درجه معنا داری از اطمینان به نتیجه (و عدم تصادفی بودن آن) رسید؛ بنابراین طبیعتاً نه تنها یک تمایل برای افزایش حجم نمونه برای بهبود دقت وجود دارد (برای تعیین بهینه این حجم به تعیین اندازه نمونه مراجعه شود)، بلکه گاهی نیاز به این افزایش هست تا کافی برای اینکه به درجه دقت لازم در نتیجهٔ تخمین رسید. در غیر این صورت، این باعث نه تنها عدم دقت در نتیجهٔ تخمین می‌شود، بلکه منجر به عدم اطمینان کافی از صحت نتیجه خواهد شد.

از سوی دیگر، در آزمایشهای علمی، همیشه تعداد اندازه‌گیری‌ها یا تکرارهای آزمایش (trials) که می‌توان گرفت نه تنها هزینه بر است، بلکه محدود است؛ بنابراین، این مانعی در اثبات فرضیه ایجاد می‌کند و لازم است روش‌ها و متدهای پیشرفته تری اتخاذ کرد. دلایل این محدودیت شامل این موارد است: گران بودن تجهیزات، محدود بودن وقت (یا وقت گیر بودن آزمایش)، محدود بودن منابع و بودجه، عملی نبودن زمان طولانی آزمایش، دشواری در بکار گرفتن یا یافتن تعداد زیاد افراد داوطلب، و غیره. (برای تعیین بهینه این حجم به تعیین اندازه نمونه مراجعه شود).

این مسئلهٔ محدودیت‌های عملی، خصوصاً برای مسایل دشوارتر و پیچیده‌تر (با فاکتورهای بیشتر، یا مسایل غیر خطی)، برجسته می‌شود. گاهی تعداد تکرارهای لازم (حجم نمونه آماری لازم) چنان زیاد است که رشد نمایی دارد و منوط به تعداد لازم در مقایسه‌ای نجومی است (مثلا زمان آزمایش لازم به هزاران سال می‌رسد، یا اینکه تعداد متغیرهای درگیر در آزمایش چنان زیادند که برای اینکه بتوان حرفی از فرضیه مورد نظر زد، لازم است ثبت الکتریکی از مغز موش حداقل به مدت یک روز، یک هفته، یا تا میلیاردها سال بطول می‌کشد: در حالیکه به‌طور نوعی، این ثبت الکتریکی بیشتر از مدت یک ساعت عملی نیست و منجر به خطا می‌شود). همچنین گاهی مسئله نوعاً پیچیده و چند فاکتوری است. متدهای تخمینی آماری قدرتمندی برای مدلسازی آماری یا تخمین کمیت‌های آماری، یا بررسی فرضیه‌های علمی وجود دارند (مانند روش‌های چند متغیره چند بعدی، و غیره)، اما مسئلهٔ مهم این است که با افزایش تعداد متغیرها، اندازه یا حجم نمونه آماری لازم برای این منظور به صورت رشد نمایی بزرگ می‌شود.

ازنظر کمی، یک صورت بندی این مسئله این است که معمولاً وقتی تخمین یک کمیت مد نظر باشد، ابن کمیت دچار بایاس (سوگیری یا اوریب شدگی) می‌شود (به بخش مربوط در زیر مراجعه شود).

چالش اندازه نمونه، یا کوچک بودن اندازه نمونه یا حجم نمونه، موجب نتایج غلط در تخمین بعضی کمیت‌های آماری و احتمالاتی می‌شود. این مسئله شبیه مسئلهٔ اورفیتینگ (و عدم تعمیم پذیری، یا سوء تعمیم) در مدل (در حضور تعداد نمونه‌های کوچک) است که منجر به سویگری (بایاس) در نتایج می‌شود.

این موضوع به مسئلهٔ محدودیت تعداد نمونه در آزمایشهای علمی برمیگردد، که در آن با مانعی برای بهبود تخمین‌های مربوط، خصوصاً وقتی با سیگنالهای پیوسته مواجهیم. در سیگنالهای پیوسته، متغیر تصادفی چند متغیره ای داریم که:

تعداد متغیرها زیاد هستند
این متغیرها دارای همبستگی (کوریلیشن) هستند.

سوگیری ناشی از تعداد کم‌تعداد نمونه (sample size problem)، در حوزه‌های مختلف علوم، یک چالش عمده برای تحلیل داده‌های آزمایشگاهی است. بطور خاص، این مسئله، موجب مانع عمده می‌شود در راه به‌کارگیری تکنیک‌های قدرتمندتر، مانند روشهای چند متغیره، روش‌های آزمون فرضیه مبتنی بر اینفورمیشن تئوری (که ابزاری تعمیم یافته برای بررسی فرضیه‌ها و هایپوتزهای علمی است، مثلاً برای شناخت مغز که در آن، سیگنال‌ها، پرتعداد و تصادفی و نویزی هستند).

این چالش، بیانی ریاضی از یکی از موانع عمده بر سر راه شناخت بشر و پیشرفت علم و موزه درمان و علوم پایه و غیره است عمیقاً؛ بنابراین این چالش به فلسفهٔ علم مرتبط می‌شود. مسئلهٔ سوگیری برای نمونه‌های کوچک، با یک رویکرد ریاضی و محاسباتی به، این چالش مهم در فهم بشر می‌پردازد.

صورت بندی بر اساس بایاس

وقتی تخمین یک کمیت در یک آزمایش بر اساس تعداد تکرار یک کمیت اندازه‌گیری شده مد نظر باشد، ابن کمیت دچار بایاس (سوگیری یا اوریب شدگی) می‌شود. این بایاس به چند صورت نمود میابد. مساله سخت‌تر این است که اگر آزمایش کلی تکرار شود (که خود متشکل از تعدادی ترایال است)، هربار این بایاس متفاوت خواهد بود؛ بنابراین از منظر عددی، مقدار تخمین یافته خودش یک متغیر تصادفی است که چند نوع چالش عددی مواجهیم:

مقدار متوسط این بایاس
پراکندگی و واریانس بایاس

برای حل چالش سوگیری ناشی از تعداد کم‌تعداد نمونه در به‌کارگیری متدهای تخمین آماری، علاوه بر تخمین بایاس این رویکردها بکار می‌روند:

مسئلهٔ «تخمین بایاس»، به مورد اول می‌پردازد.
بسته به کاربرد، تست‌های آماری مختلفی برای چالش دوم پیشنهاد شده‌اند.

مسالهٔ تخمین بایاس

مسالهٔ تخمین بایاس، مقدار متوسط انحراف مقدار تخمین زده شده از مقدار واقعی است. به روشهای تخمین این بایاس (تخمین بایاس متوسط یک تخمین)، روشهای تصحیح سوگیری یا بایاس کورکشن می‌گویند. روشهای تحلیلی و امپیریکال برای تصحیح سوگیری وجود دارد.

برای مثال، در محاسبهٔ واریانس، مخرج کسر واریانس n-1 است. این نمونه ای از یک روش تحلیلی است.

همچنین برای تخمین انتروپی یک توزیع امپیریکال، مقدار جذر تعداد اعضای مجموعه (تعداد مقادیر مختلفی که متفیر مورد اندازه‌گیری گرفته)، از انتروپی بدست آمده کم می‌شود (روش Treves و Panzeri در ۱۹۹۵).

مرتبط

تعیین اندازه نمونه

منابع

↑ «اندازهٔ نمونه» [آمار] هم‌ارزِ «Sample size» (انگلیسی)؛ منبع: گروه واژه‌گزینی. جواد میرشکاری، ویراستار. دفتر ششم. فرهنگ واژه‌های مصوب فرهنگستان. تهران: انتشارات فرهنگستان زبان و ادب فارسی. شابک ۹۷۸-۹۶۴-۷۵۳۱-۸۵-۶.
↑ Alessandro Treves and Stefano Panzeri. .The Upward Bias in Measures of Information Derived from Limited Data Samples .Neural Computation. Volume 7, Issue 2, March 1995. p.399-407 https://doi.org/10.1162/neco.1995.7.2.399

مقالۀ اصلی در این رده عبارت‌است از: آمار

[1] «اندازهٔ نمونه» [آمار] هم‌ارزِ «Sample size» (انگلیسی)؛ منبع: گروه واژه‌گزینی. جواد میرشکاری، ویراستار. دفتر ششم. فرهنگ واژه‌های مصوب فرهنگستان. تهران: انتشارات فرهنگستان زبان و ادب فارسی. شابک ۹۷۸-۹۶۴-۷۵۳۱-۸۵-۶.

[2] Alessandro Treves and Stefano Panzeri. .The Upward Bias in Measures of Information Derived from Limited Data Samples .Neural Computation. Volume 7, Issue 2, March 1995. p.399-407 https://doi.org/10.1162/neco.1995.7.2.399