حساب کاربری
​
زمان تقریبی مطالعه: 2 دقیقه
لینک کوتاه

اندیس ژاکار

اندیس ژاکار (به انگلیسی: Jaccard index) یا ضریب شباهت ژاکار (به فرانسوی: coefficient de communauté) معیاری برای مقایسه شباهت یا تفاوت مجموعه نمونه‌های آماری است.

میزان شباهت دو مجموعه نمونه با توجه به اندیس ژاکار J ( A , B )

، از تقسیم تعداد اشتراک دو مجموعه بر تعداد اجتماع دو مجموعه به دست می‌آید.

J ( A , B ) = | A ∩ B | | A ∪ B | .

همچنین، فاصله ژاکار J δ ( A , B )

که میزان تفاوت دو مجموعه نمونه را می‌سنجند، با کم کردن میزان شباهت ژاکار از یک بدست می‌آید. همین‌طور با کسر تعداد اشتراک از تعداد اجتماع دو مجموعه و تقسیم آن به تعداد اجتماع دو مجموعه می‌توان فاصله ژاکار بین آن دو مجموعه را محاسبه کرد.

J δ ( A , B ) = 1 − J ( A , B ) = | A ∪ B | − | A ∩ B | | A ∪ B | .

اندیس ژاکار یک تابع استاندارد فاصله (متریک) است.

فهرست

  • ۱ شباهت صفت‌های دودویی نامتقارن
  • ۲ جستارهای وابسته
  • ۳ پانویس
  • ۴ منابع

شباهت صفت‌های دودویی نامتقارن

دو شیء A و B را در نظر می‌گیریم که هر کدام شامل n صفت دودویی هستند. با استفاده از ضریب ژاکار می‌توان میزان صفت‌های مشترک بین A و B را محاسبه کرد. هر صفتی از A و B می‌تواند دارای مقدار ۰ یا ۱ باشد. تعداد کل شیوه‌های مختلف ترکیب صفات در A و B به شکل زیر مشخص می‌شود:

M 11
نشان دهنده تعداد کل صفاتی است که در آن A و B هر دو مقدار ۱ دارند.
M 01
نشان دهنده تعداد کل صفاتی است که صفت A برابر ۰ و صفت B برابر ۱ است.
M 10
نشان دهنده تعداد کل صفاتی است که صفت A برابر ۱ و صفت B برابر ۰ است.
M 00
نشان دهنده تعداد کل صفاتی است که در آن A و B هر دو مقدار ۰ دارند.

هر صفت می‌بایست در یکی از چهار گروه فوق قرار بگیرد؛ بنابراین:

M 11 + M 01 + M 10 + M 00 = n .

ضریب شباهت ژاکار به این طریق بدست می‌آید:

J = M 11 M 01 + M 10 + M 11 .

همچنین فاصله ژاکار به شکل زیر محاسبه می‌شود:

J ′ = M 01 + M 10 M 01 + M 10 + M 11 .

جستارهای وابسته

  • فاصله همینگ
  • ضریب تاس D
    که معادل است با J = D / ( 2 − D )
    و D = 2 J / ( 1 + J )
  • ضریب همبستگی

پانویس

  1. ↑ Lipkus, Alan H (1999), "A proof of the triangle inequality for the Tanimoto distance", J Math Chem, 26 (1–3): 263–265
  2. ↑ Levandowsky, Michael; Winter, David (1971), "Distance between sets", Nature, 234 (5): 34–35

منابع

  • Tan, Pang-Ning; Steinbach, Michael; Kumar, Vipin (2005), Introduction to Data Mining, ISBN 0-321-32136-7.
  • Jaccard, Paul (1901), "Étude comparative de la distribution florale dans une portion des Alpes et des Jura", Bulletin de la Société Vaudoise des Sciences Naturelles, 37: 547–579.
  • Tanimoto, Taffee T. (November 17, 1957), IBM Internal Report .
آخرین نظرات
کلیه حقوق این تارنما متعلق به فرا دانشنامه ویکی بین است.