امتیاز اف ۱

در تجزیه و تحلیل طبقه‌بندهای آماری، امتیاز اف (به انگلیسی: F-score) معیاری برای ارزیابی دقت یک مدل طبقه‌بندی آماری است. این معیار با توجه به میزان دقت و بازیابی (به انگلیسی: Precision and recall) یک طبقه‌بند محاسبه می‌شود که در آن دقت، نسبت تعداد نمونه‌های مثبت صادق به تعداد کل نمونه‌هایی که مثبت پیش‌بینی شده‌اند است و بازیابی، نسبت تعداد نمونه‌های مثبت صادق به تعداد کل نمونه‌های مثبت است. امتیاز F₁ برابر با میانگین همساز دقت و بازیابی است. امتیاز عمومی‌تر $F_{\beta }$

یک پارامتر وزن هم دارد که یکی از معیارهای دقت و یا بازیابی را بیش از دیگری تاثیر می‌دهد. بیشترین مقدار ممکن برای امتیاز اف، 1 و کمترین مقدار ممکن برای این معیار 0 است.

دقت و بازیابی

تعریف ریاضی

اندازه گیری سنتی امتیاز اف، برابر با میانگین هارمونیک دقت و بازیابی است.

F_{1}={\frac {2}{\mathrm {recall} ^{-1}+\mathrm {precision} ^{-1}}}=2{\frac {\mathrm {precision} \cdot \mathrm {recall} }{\mathrm {precision} +\mathrm {recall} }}={\frac {2\mathrm {tp} }{2\mathrm {tp} +\mathrm {fp} +\mathrm {fn} }}

.

امتیاز F_β

$F_{\beta }$

یک امتیاز

F

عمومی‌تر است که از یک فاکتور مثبت حقیقی

\beta

استفاده می‌کند و در این معیار

\beta

طوری تعیین شده است که اهمیت بازیابی

\beta

برابر اهمیت دقت باشد.

$F_{\beta }=(1+\beta ^{2})\cdot {\frac {\mathrm {precision} \cdot \mathrm {recall} }{(\beta ^{2}\cdot \mathrm {precision} )+\mathrm {recall} }}$

با توجه به خطای نوع اول و دوم این مقدار برابر خواهد بود با:

$F_{\beta }={\frac {(1+\beta ^{2})\cdot \mathrm {true\ positive} }{(1+\beta ^{2})\cdot \mathrm {true\ positive} +\beta ^{2}\cdot \mathrm {false\ negative} +\mathrm {false\ positive} }}\,$

دو مقدار رایج برای $\beta$

مقادیر

2

و

0.5

هستند که مقدار

2

به بازیابی وزن بیشتر و مقدار

0.5

به دقت وزن بیشتری می‌دهد.

تست تشخیصی

		واقعیت
	جامعه آماری	در واقعیت مثبت	در واقعیت منفی	شیوع = Σ Condition positive/Σ Total population	صحت (ACC) = Σ True positive + Σ True negative/Σ Total population
پیش‌بینی	پیش‌بینی مثبت	مثبت صادق	مثبت کاذب خطای نوع اول	Positive predictive value (PPV), دقت و بازیابی = Σ True positive/Σ Predicted condition positive	میزان کشف اشتباه (FDR) = Σ False positive/Σ Predicted condition positive
	پیش‌بینی منفی	منفی کاذب خطای نوع دوم	منفی صادق	False omission rate (FOR) = Σ False negative/Σ Predicted condition negative	Negative predictive value (NPV) = Σ True negative/Σ Predicted condition negative
		حساسیت و ویژگی (TPR), دقت و بازیابی، حساسیت و ویژگی، probability of detection, توان آماری = Σ True positive/Σ Condition positive	False positive rate (FPR), بازیابی اطلاعات، probability of false alarm = Σ False positive/Σ Condition negative	Positive likelihood ratio (LR+) = TPR/FPR	Diagnostic odds ratio (DOR) = LR+/LR−	امتیاز اف ۱ = 2 · Precision · Recall/Precision + Recall
		False negative rate (FNR), Miss rate = Σ False negative/Σ Condition positive	حساسیت و ویژگی (SPC), Selectivity, حساسیت و ویژگی (TNR) = Σ True negative/Σ Condition negative	Negative likelihood ratio (LR−) = FNR/TNR

وابستگی امتیاز اف به عدم تعادل کلاس

منحنی دقت و بازیابی و در نتیجه امتیاز اف، به شدت نسبت به تعداد نمونه‌های مثبت به منفی در داده‌ها وابسته هستند. این بدان معناست که مقایسه امتیاز اف در مسائل مختلف با نسبت‌های کلاس متفاوت، مشکل‌ساز است. یکی از راه‌های رفع این مشکل، استفاده از نسبت کلاس استاندارد $r_{0}$

هنگام انجام چنین مقایسه‌هایی است.

کاربردها

امتیاز اف اغلب در زمینه بازیابی اطلاعات برای اندازه گیری عملکرد جستجو، طبقه بندی اسناد و طبقه بندی پرس و جو استفاده می شود. اکثر مطالعات قبلی بر روی امتیاز $F_{1}$

متمرکز بودند اما با گسترش موتورهای جستجو در مقیاس بزرگ، اهداف و عملکردها تغییر کردند تا تأکید بیشتری بر دقت یا بازیابی قرار گیرد. در نتیجه

F_{\beta }

کاربرد وسیعی دارد.

امتیاز اف در یادگیری ماشین هم کاربرد وسیعی دارد. با این حال، امتیاز اف، منفی‌های صادق را در نظر نمی گیرد، در نتیجه در برخی از مسائل، معیارهای ضریب همبستگی متیو و کاپای کوهن ممکن است برای ارزیابی عملکرد یک طبقه‌بند دودویی ترجیح داده شوند.

انتقادها

دیوید هند و دیگران از استفاده گسترده از امتیاز $F_{1}$

انتقاد می کنند زیرا به دقت و بازیابی اهمیت یکسانی می‌دهد. در عمل، انواع مختلف طبقه‌بندی‌های نادرست، هزینه‌های متفاوتی را به همراه دارد. به عبارت دیگر، اهمیت نسبی دقت و بازیابی جنبه‌ای از مشکل است. طبق گفته‌های Davide Chicco و Giuseppe Jurman، ضریب همبستگی متیو در ارزیابی طبقه‌بندهای دودویی صادقانه و آموزنده‌تر است.

تعمیم به طبقه‌بندی چند کلاسه (به انگلیسی: multi-class classification)

امتیاز اف، برای ارزیابی مسائل طبقه‌بندی با بیش از دو کلاس هم استفاده می‌شود. در این تنظیمات، امتیاز نهایی با میانگین‌گیری خرد (با در نظر گرفتن فراوانی کلاس) یا میانگین‌گیری کلان (با در نظر گرفتن همه‌ی کلاس‌ها به صورت یکسان) به دست می‌آید. برای میانگین گیری کلان، دو فرمول مختلف توسط متقاضیان استفاده شده است. یکی امتیاز اف برای میانگین دقت و بازیابی کلاس‌ها، و یکی میانگین امتیاز اف که برای هر کلاس به صورت جداگانه محاسبه شده است.

جستارهای وابسته

منابع

↑ Aziz Taha, Abdel (2015). "Metrics for evaluating 3D medical image segmentation: analysis, selection, and tool". BMC Medical Imaging. 15 (29): 1–28. doi:10.1186/s12880-015-0068-x. PMC 4533825. PMID 26263899.
↑ Brabec, Jan; Komárek, Tomáš; Franc, Vojtěch; Machlica, Lukáš (2020). "On model evaluation under non-constant class imbalance". International Conference on Computational Science. Springer. pp. 74–87. arXiv:2001.05571. doi:10.1007/978-3-030-50423-6_6.
↑ Beitzel., Steven M. (2006). On Understanding and Classifying Web Queries (Ph.D. thesis). IIT. CiteSeerX 10.1.1.127.634.
↑ X. Li; Y.-Y. Wang; A. Acero (July 2008). Learning query intent from regularized click graphs. Proceedings of the 31st SIGIR Conference. p. 339. doi:10.1145/1390334.1390393. ISBN 9781605581644. S2CID 8482989.
↑ See, e.g., the evaluation of the [۱].
↑ Powers, David M. W (2015). "What the F-measure doesn't measure". arXiv:1503.06410 [cs.IR].
↑ Hand, David. "A note on using the F-measure for evaluating record linkage algorithms - Dimensions". app.dimensions.ai (به انگلیسی). doi:10.1007/s11222-017-9746-6. hdl:10044/1/46235. S2CID 38782128. Retrieved 2018-12-08.
↑ Chicco D, Jurman G (January 2020). "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation". BMC Genomics. 21 (6): 6. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.

[1] Aziz Taha, Abdel (2015). "Metrics for evaluating 3D medical image segmentation: analysis, selection, and tool". BMC Medical Imaging. 15 (29): 1–28. doi:10.1186/s12880-015-0068-x. PMC 4533825. PMID 26263899.

[brabec2020-model-2] Brabec, Jan; Komárek, Tomáš; Franc, Vojtěch; Machlica, Lukáš (2020). "On model evaluation under non-constant class imbalance". International Conference on Computational Science. Springer. pp. 74–87. arXiv:2001.05571. doi:10.1007/978-3-030-50423-6_6.

[3] Beitzel., Steven M. (2006). On Understanding and Classifying Web Queries (Ph.D. thesis). IIT. CiteSeerX 10.1.1.127.634.

[4] X. Li; Y.-Y. Wang; A. Acero (July 2008). Learning query intent from regularized click graphs. Proceedings of the 31st SIGIR Conference. p. 339. doi:10.1145/1390334.1390393. ISBN 9781605581644. S2CID 8482989.

[5] See, e.g., the evaluation of the [۱].

[6] Powers, David M. W (2015). "What the F-measure doesn't measure". arXiv:1503.06410 [cs.IR].

[7] Hand, David. "A note on using the F-measure for evaluating record linkage algorithms - Dimensions". app.dimensions.ai (به انگلیسی). doi:10.1007/s11222-017-9746-6. hdl:10044/1/46235. S2CID 38782128. Retrieved 2018-12-08.

[8] Chicco D, Jurman G (January 2020). "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation". BMC Genomics. 21 (6): 6. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.