امتیاز اف ۱
در تجزیه و تحلیل طبقهبندهای آماری، امتیاز اف (به انگلیسی: F-score) معیاری برای ارزیابی دقت یک مدل طبقهبندی آماری است. این معیار با توجه به میزان دقت و بازیابی (به انگلیسی: Precision and recall) یک طبقهبند محاسبه میشود که در آن دقت، نسبت تعداد نمونههای مثبت صادق به تعداد کل نمونههایی که مثبت پیشبینی شدهاند است و بازیابی، نسبت تعداد نمونههای مثبت صادق به تعداد کل نمونههای مثبت است. امتیاز F1 برابر با میانگین همساز دقت و بازیابی است. امتیاز عمومیتر
تعریف ریاضی
اندازه گیری سنتی امتیاز اف، برابر با میانگین هارمونیک دقت و بازیابی است.
- .
امتیاز Fβ
با توجه به خطای نوع اول و دوم این مقدار برابر خواهد بود با:
دو مقدار رایج برای
تست تشخیصی
واقعیت | ||||||
جامعه آماری | در واقعیت مثبت | در واقعیت منفی | شیوع = Σ Condition positive/Σ Total population | صحت (ACC) = Σ True positive + Σ True negative/Σ Total population | ||
پیشبینی | پیشبینی مثبت | مثبت صادق | مثبت کاذب خطای نوع اول | Positive predictive value (PPV), دقت و بازیابی = Σ True positive/Σ Predicted condition positive | میزان کشف اشتباه (FDR) = Σ False positive/Σ Predicted condition positive | |
پیشبینی منفی | منفی کاذب خطای نوع دوم | منفی صادق | False omission rate (FOR) = Σ False negative/Σ Predicted condition negative | Negative predictive value (NPV) = Σ True negative/Σ Predicted condition negative | ||
حساسیت و ویژگی (TPR), دقت و بازیابی، حساسیت و ویژگی، probability of detection, توان آماری = Σ True positive/Σ Condition positive | False positive rate (FPR), بازیابی اطلاعات، probability of false alarm = Σ False positive/Σ Condition negative | Positive likelihood ratio (LR+) = TPR/FPR | Diagnostic odds ratio (DOR) = LR+/LR− | امتیاز اف ۱ = 2 · Precision · Recall/Precision + Recall | ||
False negative rate (FNR), Miss rate = Σ False negative/Σ Condition positive | حساسیت و ویژگی (SPC), Selectivity, حساسیت و ویژگی (TNR) = Σ True negative/Σ Condition negative | Negative likelihood ratio (LR−) = FNR/TNR |
وابستگی امتیاز اف به عدم تعادل کلاس
منحنی دقت و بازیابی و در نتیجه امتیاز اف، به شدت نسبت به تعداد نمونههای مثبت به منفی در دادهها وابسته هستند.
این بدان معناست که مقایسه امتیاز اف در مسائل مختلف با نسبتهای کلاس متفاوت، مشکلساز است. یکی از راههای رفع این مشکل، استفاده از نسبت کلاس استاندارد
کاربردها
امتیاز اف اغلب در زمینه بازیابی اطلاعات برای اندازه گیری عملکرد جستجو، طبقه بندی اسناد و طبقه بندی پرس و جو استفاده می شود. اکثر مطالعات قبلی بر روی امتیاز
امتیاز اف در یادگیری ماشین هم کاربرد وسیعی دارد. با این حال، امتیاز اف، منفیهای صادق را در نظر نمی گیرد، در نتیجه در برخی از مسائل، معیارهای ضریب همبستگی متیو و کاپای کوهن ممکن است برای ارزیابی عملکرد یک طبقهبند دودویی ترجیح داده شوند.
انتقادها
دیوید هند و دیگران از استفاده گسترده از امتیاز
تعمیم به طبقهبندی چند کلاسه (به انگلیسی: multi-class classification)
امتیاز اف، برای ارزیابی مسائل طبقهبندی با بیش از دو کلاس هم استفاده میشود. در این تنظیمات، امتیاز نهایی با میانگینگیری خرد (با در نظر گرفتن فراوانی کلاس) یا میانگینگیری کلان (با در نظر گرفتن همهی کلاسها به صورت یکسان) به دست میآید. برای میانگین گیری کلان، دو فرمول مختلف توسط متقاضیان استفاده شده است. یکی امتیاز اف برای میانگین دقت و بازیابی کلاسها، و یکی میانگین امتیاز اف که برای هر کلاس به صورت جداگانه محاسبه شده است.
جستارهای وابسته
- دقت و بازیابی
- جایگزین ارزشیابی دوزبانه
- منحنی مشخصه عملکرد سیستم
- ضریب همبستگی متیو
- ماتریس درهمریختگی
منابع
- ↑ Aziz Taha, Abdel (2015). "Metrics for evaluating 3D medical image segmentation: analysis, selection, and tool". BMC Medical Imaging. 15 (29): 1–28. doi:10.1186/s12880-015-0068-x. PMC 4533825. PMID 26263899.
- ↑ Brabec, Jan; Komárek, Tomáš; Franc, Vojtěch; Machlica, Lukáš (2020). "On model evaluation under non-constant class imbalance". International Conference on Computational Science. Springer. pp. 74–87. arXiv:2001.05571. doi:10.1007/978-3-030-50423-6_6.
- ↑ Beitzel., Steven M. (2006). On Understanding and Classifying Web Queries (Ph.D. thesis). IIT. CiteSeerX 10.1.1.127.634.
- ↑ X. Li; Y.-Y. Wang; A. Acero (July 2008). Learning query intent from regularized click graphs. Proceedings of the 31st SIGIR Conference. p. 339. doi:10.1145/1390334.1390393. ISBN 9781605581644. S2CID 8482989.
- ↑ See, e.g., the evaluation of the [۱].
- ↑ Powers, David M. W (2015). "What the F-measure doesn't measure". arXiv:1503.06410 [cs.IR].
- ↑ Hand, David. "A note on using the F-measure for evaluating record linkage algorithms - Dimensions". app.dimensions.ai (به انگلیسی). doi:10.1007/s11222-017-9746-6. hdl:10044/1/46235. S2CID 38782128. Retrieved 2018-12-08.
- ↑ Chicco D, Jurman G (January 2020). "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation". BMC Genomics. 21 (6): 6. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.