اندیس ژاکار
اندیس ژاکار (به انگلیسی: Jaccard index) یا ضریب شباهت ژاکار (به فرانسوی: coefficient de communauté) معیاری برای مقایسه شباهت یا تفاوت مجموعه نمونههای آماری است.
میزان شباهت دو مجموعه نمونه با توجه به اندیس ژاکار
همچنین، فاصله ژاکار
اندیس ژاکار یک تابع استاندارد فاصله (متریک) است.
شباهت صفتهای دودویی نامتقارن
دو شیء A و B را در نظر میگیریم که هر کدام شامل n صفت دودویی هستند. با استفاده از ضریب ژاکار میتوان میزان صفتهای مشترک بین A و B را محاسبه کرد. هر صفتی از A و B میتواند دارای مقدار ۰ یا ۱ باشد. تعداد کل شیوههای مختلف ترکیب صفات در A و B به شکل زیر مشخص میشود:
- نشان دهنده تعداد کل صفاتی است که در آن A و B هر دو مقدار ۱ دارند.
- نشان دهنده تعداد کل صفاتی است که صفت A برابر ۰ و صفت B برابر ۱ است.
- نشان دهنده تعداد کل صفاتی است که صفت A برابر ۱ و صفت B برابر ۰ است.
- نشان دهنده تعداد کل صفاتی است که در آن A و B هر دو مقدار ۰ دارند.
هر صفت میبایست در یکی از چهار گروه فوق قرار بگیرد؛ بنابراین:
ضریب شباهت ژاکار به این طریق بدست میآید:
همچنین فاصله ژاکار به شکل زیر محاسبه میشود:
جستارهای وابسته
- فاصله همینگ
- ضریب تاس که معادل است باو
- ضریب همبستگی
پانویس
منابع
- Tan, Pang-Ning; Steinbach, Michael; Kumar, Vipin (2005), Introduction to Data Mining, ISBN 0-321-32136-7.
- Jaccard, Paul (1901), "Étude comparative de la distribution florale dans une portion des Alpes et des Jura", Bulletin de la Société Vaudoise des Sciences Naturelles, 37: 547–579.
- Tanimoto, Taffee T. (November 17, 1957), IBM Internal Report .