پی-مقدار

در آزمون معناداری فرض صفر، مقدار احتمال (p-value)، احتمال بدست آوردن نتایج آزمون تحت فرض صفر است (با فرض درست بودن آن). اگر p-مقدار بسیار کوچک باشد، بدین معنیست که تحت فرض صفر، خروجی‌های مشاهده شده بسیار غیر محتمل اند. گزارش p-مقدار آزمون‌های آماری در نشریات دانشگاهی بسیاری از شاخه‌های علمی، امری رایج است. از آنجا که دریافت معنای دقیق p-مقدار مشکل است، از آن در حد وسیعی سوء استفاده شده و موضوعی اصلی در فرا-علم (metascience، که با کمک روش-شناسی علمی، به مطالعه خود علم می‌پردازد) بوده‌است.

مفاهیم پایه

در آمار، به هر حدس مرتبط با توزیع احتمالاتی مجهولِ گردایه ای از متغیرهای تصادفی، فرض آماری گفته شده، که متغیرهای مذکور، نماینده داده‌های مشاهده شده X در یک مطالعات تحقیقاتی می‌باشند. اگر ما صرفاً یک فرض را بیان کرده و هدف آزمون آماری هم بررسی درستی آن باشد تا در صورت نادرستی به سراغ فرض‌های دیگری رود، در این صورت به آن آزمون آماری، آزمون معناداری گفته می‌شود. توجه کنید که فرض به خودی خود ممکن است قادر باشد تا توزیع مجهول X را به‌طور دقیق مشخص کند، یا ممکن است تنها چیزی که بگوید این باشد که این توزیع به دسته ای از توزیع‌ها متعلق است. اغلب، ما داده‌ها را به یک آماره عددی T تقلیل می‌دهیم که توزیع احتمالاتی حاشیه ای آن ارتباط نزدیکی با سؤال اصلی مد نظر در مطالعات دارد.

مفهوم ساده

فرض کنیم از یک جامعه نمونه برداری کنیم. مقدار پی (P-Value) می‌گوید که این نمونه چه مقدار نماینده جامعه است؛ مثلاً اگر مقدار پی از یک مقدار آستانه کمتر شد، باید پذیرفت که نمونه از توزیع جامعه پیروی نمی‌کند.

مثال‌های ساده کاربردی

مثال۱

فرض کنید در تهران «میانگین» و «انحراف استاندارد» نمرات نهایی درس علوم دانش آموزان پایه پنجم دبستان به ترتیب ۱۶ و ۷ اعلام می‌شود. معلم علوم کلاس پنجم دبستان یکی از مدارس تهران که ۲۱ دانش آموز دارد، با اعلام میانگین و انحراف استاندارد ۱۸ و ۴ پاداش آموزشی درخواست می‌کند. ما را جهت بررسی پرونده می‌گمارند.

فرض پوچ (صفر): این کلاس هم مانند مدارس دیگر است و این نمرات چندان شگفت‌انگیز نیستند.

فرض مقابل: نمرات این کلاس استثنایی هستند؛ زیرا از توزیع آماری جامعه پیروی نمی‌کند.

فرض اولیه: سطح معناداری ۵٪ باشد.

راه حل در متلب

چون شمار دانش آموزان پایه پنجم تهران از سی بیشتر است و میانگین و انحراف معیار موجودند، از آزمون Z استفاده می‌کنیم. ابتدا مقدار دهی اولیه را انجام می‌دهیم:

ns=21;ms=18;sdp=7;mp=16;

که به ترتیب شمار نمونه‌ها، میانگین نمونه‌ها، انحراف معیار جامعه و میانگین جامعه هستند. سپس از کد زیر خطای استاندارد ۱٫۵۲۷۵ و نمره استاندارد ۱٫۳۰۹۳ به‌دست می‌رسند:

SE=sdp/sqrt(ns),Z_Score=(mp-ms)/SE,

توسط P-Value = normcdf (Z_Score,0,1) مقدار پی برابر ۰٫۰۹۵۲ محاسبه می‌شود.

چون پی-مقدار (P-Value) از سطح معناداری بیشتر شده، پس نمی‌توان فرض پوچ (صفر) را مردود دانست.

پیشنهاد به معلم: برای اینکه کلاس جزو مدارس استثنایی علوم تهران قرار گیرند؛ دو پیشنهاد داریم:

بالا بردن نمرات دانش آموزان
افزایش شمار دانش آموزان کلاس

مثال۲

در یک روزنامه معتبر ادعا شده که ۲۷ درصد ایرانیان زیر خط فقر هستند. یک کنشگر اجتماعی به این موضوع شک می‌کند. او از ۳۰۰ نفر پرسجو می‌کند و فقط ۳۳ درصدشان را زیر خط فقر می‌یابد. در کد متلب زیر مقدار پی محاسبه شده‌است:

aN=300; am=0.33; sm=0.27;

Z=(am-sm)*sqrt(aN)/sqrt(sm*(1-sm)); p_value=1-normcdf(Z); fprintf('P value = %g%s\n',p_value*100,'%')

که ۰٫۹۶٪ حاصل می‌شود. حال این کنشگر می‌تواند معیار یک درصد را لحاظ کند و رسماً اعلام کند که این خبر نادرست بوده‌است. اما اگر او فقط از ۱۴۰ نفر پرسجو می‌کرد (و همین میانگین و پراکنش موجود بود) مقدار پی بیش از ۵ درصد می‌شد، که برای رد حتی یک مجله معمولی هم کفایت نمی‌کرد.

یادداشت‌ها

↑ ایتالیک شدگی، بزرگی و کوچکی حروف و خط فاصله در این عبارت بین منابع مختلف متفاوت است. به عنوان مثال در سبک نوشتاری AMA، از "P value" استفاده شده در حالی که سبک APA به صورت "p value" و انجمن آمار آمریکا آن را به صورت "p-value" می‌نویسد.

منابع

↑ http://magazine.amstat.org/wp-content/uploads/STATTKadmin/style%5B1%5D.pdf
↑ Aschwanden, Christie (2015-11-24). "Not Even Scientists Can Easily Explain P-values". FiveThirtyEight. Archived from the original on 25 September 2019. Retrieved 11 October 2019.
↑ Wasserstein, Ronald L.; Lazar, Nicole A. (7 March 2016). "The ASA's Statement on p-Values: Context, Process, and Purpose". The American Statistician. 70 (2): 129–133. doi:10.1080/00031305.2016.1154108.
↑ Hubbard, Raymond; Lindsay, R. Murray (2008). "Why P Values Are Not a Useful Measure of Evidence in Statistical Significance Testing". Theory & Psychology. 18 (1): 69–88. doi:10.1177/0959354307086923.
↑ Ioannidis, John P. A.; et al. (January 2017). "A manifesto for reproducible science" (PDF). Nature Human Behaviour (به انگلیسی). 1: 0021. doi:10.1038/s41562-016-0021. S2CID 6326747.

برای مطالعهٔ بیشتر

Lydia Denworth, "A Significant Problem: Standard scientific methods are under fire. Will anything change?", Scientific American, vol. 321, no. 4 (اکتبر ۲۰۱۹), pp. 62–67. "The use of p values for nearly a century [since 1925] to determine statistical significance of experimental results has contributed to an illusion of certainty and [to] reproducibility crises in many scientific fields. There is growing determination to reform statistical analysis... Some [researchers] suggest changing statistical methods, whereas others would do away with a threshold for defining "significant" results." (p. 63.)
Elderton, William Palin (1902). "Tables for Testing the Goodness of Fit of Theory to Observation". Biometrika. 1 (2): 155–163. doi:10.1093/biomet/1.2.155.
Fisher, Ronald (1925). Statistical Methods for Research Workers. Edinburgh, Scotland: Oliver & Boyd. ISBN 978-0-05-002170-5.
Fisher, Ronald A. (1971) [1935]. The Design of Experiments (9th ed.). Macmillan. ISBN 978-0-02-844690-5.
Fisher, R. A.; Yates, F. (1938). Statistical tables for biological, agricultural and medical research. London, England.
Stigler, Stephen M. (1986). The history of statistics: the measurement of uncertainty before 1900. Cambridge, Mass: Belknap Press of Harvard University Press. ISBN 978-0-674-40340-6.
Hubbard, Raymond; Armstrong, J. Scott (2006). "Why We Don't Really Know What Statistical Significance Means: Implications for Educators" (PDF). Journal of Marketing Education. 28 (2): 114–120. doi:10.1177/0273475306288399. hdl:2092/413. Archived from the original on May 18, 2006.
Hubbard, Raymond; Lindsay, R. Murray (2008). "Why P Values Are Not a Useful Measure of Evidence in Statistical Significance Testing" (PDF). Theory & Psychology. 18 (1): 69–88. doi:10.1177/0959354307086923. Archived from the original (PDF) on 2016-10-21. Retrieved 2015-08-28.
Stigler, S. (December 2008). "Fisher and the 5% level". Chance. 21 (4): 12. doi:10.1007/s00144-008-0033-3.
Dallal, Gerard E. (2012). The Little Handbook of Statistical Practice.
Biau, D.J.; Jolles, B.M.; Porcher, R. (March 2010). "P value and the theory of hypothesis testing: an explanation for new researchers". Clin Orthop Relat Res. 463 (3): 885–892. doi:10.1007/s11999-009-1164-4. PMC 2816758. PMID 19921345.
Reinhart, Alex (2015). Statistics Done Wrong: The Woefully Complete Guide. No Starch Press. p. 176. ISBN 978-1-59327-620-1.

پیوند به بیرون

Free online p-values calculators for various specific tests (chi-square, Fisher's F-test, etc.).
Understanding p-values, including a Java applet that illustrates how the numerical values of p-values can give quite misleading impressions about the truth or falsity of the hypothesis under test.
StatQuest: P Values, clearly explained در یوتیوب
StatQuest: P-value pitfalls and power calculations در یوتیوب
Science Isn’t Broken - Article on how p-values can be manipulated and an interactive tool to visualize it.

[2] ایتالیک شدگی، بزرگی و کوچکی حروف و خط فاصله در این عبارت بین منابع مختلف متفاوت است. به عنوان مثال در سبک نوشتاری AMA، از "P value" استفاده شده در حالی که سبک APA به صورت "p value" و انجمن آمار آمریکا آن را به صورت "p-value" می‌نویسد.

[1] ttp://magazine.amstat.org/wp-content/uploads/STATTKadmin/style%5B1%5D.pdf

[3] Aschwanden, Christie (2015-11-24). "Not Even Scientists Can Easily Explain P-values". FiveThirtyEight. Archived from the original on 25 September 2019. Retrieved 11 October 2019.

[ASA-4] Wasserstein, Ronald L.; Lazar, Nicole A. (7 March 2016). "The ASA's Statement on p-Values: Context, Process, and Purpose". The American Statistician. 70 (2): 129–133. doi:10.1080/00031305.2016.1154108.

[5] Hubbard, Raymond; Lindsay, R. Murray (2008). "Why P Values Are Not a Useful Measure of Evidence in Statistical Significance Testing". Theory & Psychology. 18 (1): 69–88. doi:10.1177/0959354307086923.

[6] Ioannidis, John P. A.; et al. (January 2017). "A manifesto for reproducible science" (PDF). Nature Human Behaviour (به انگلیسی). 1: 0021. doi:10.1038/s41562-016-0021. S2CID 6326747.