یادگیری قانون وابستگی
در دادهکاوی، یادگیری قانون وابستگی (به انگلیسی: association rule learning) یک متد مناسب برای یافتن روابط جذاب بین متغیرهای موجود در پایگاه دادههای بزرگ است. پیاتتسکی-شاپیرو در چگونگی تحلیل و ارائه قوانین قوی یافته شده را در پایگاههای داده با استفاده از معیارهای متفاوت جذابیت توضیح میدهد. بر مبنای مفهوم قوانین قوی، راکش اگرول و همکارانش در قوانین وابستگی را برای کشف قاعدههای موجود بین مصحولات در دادههای تراکنشی با مقیاس بالا معرفی میکنند. به عنوان مثال، قانون وابستگی
تعریف
ID | milk | bread | butter | drink |
---|---|---|---|---|
۱ | ۱ | ۱ | ۰ | ۰ |
۲ | ۰ | ۰ | ۱ | ۰ |
۳ | ۰ | ۰ | ۰ | ۱ |
۴ | ۱ | ۱ | ۱ | ۰ |
۵ | ۰ | ۱ | ۰ | ۰ |
در ادامه، تعریف اصلی کاوش قانون وابستگی، ارائه شده توسط اگرول و همکارانش آمده است: مجموعه
برای توضیح مفهوم، ما از یک مثال کوچک در مورد سبد خرید در سوپرمارکت استفاده میکنیم. مجموعه آیتمهای
تذکر: مثال فوق مطرح شده بسیار کوچک است. در عمل یک قانون نیازمند پشتیبانی صدها تراکنش است تا بتواند به صورت آماری مهم باشد. از طرفی، معمولاً یک پایگاه داده شامل صدها یا هزاران تراکنش است.
مفاهیم کاربردی
برای انتخاب قوانین جذاب از بین مجموعه قوانین ممکن، محدودیتهای مختلف روی معیارهای سنجش اهمیت و جذابیت به کار میرود. معروفترین محدودیتها شامل آستانه کمینه برای پشتیبان و اطمینان است.
- پشتیبان مجموعه آیتم که به صورتنشان داده میشود، نسبت تراکنشهای شامل مجموعه آیتماست. در پایگاه داده مثال، مجموعه آیتمدارای پشتیباناست، چرا که این مجموعه آیتم در بیست درصد تراکنشها اتفاق میافتد.
- اطمینان یک قانون به این صورت تعریف میشود: . برای مثال، قانوندارای اطمیناندر پایگاه داده است، به این معنا که قانون فوق برای پنجاه درصد تراکنشهای شامل شیر (milk) و نان (bread) صدق میکند.
فرایند
تاریخچه
مفهوم قوانین وابستگی در سال ۱۹۹۳ پس از انتشار مقاله اگرول مورد توجه خاص قرار گرفت. با توجه به اطلاعات آماری سرویس Google Scholar، در مارس ۲۰۰۸ این مقاله بیش از ۶۰۰۰ نقل قول (citation) دریافت کردهاست که آن را در صدر بیشترین تعداد نقل قولها در گرایش داده کاوی قرار میدهد. اگرچه ممکن است آنچه که امروزه قوانین وابستگی نامیده میشود، همان مفهوم مطرح شده در مقاله سال 1966 تحت عنوان GUHA (یک متد عمومی داده کاوی) مطرح شدهاست.
سایر معیارهای سنجش جذابیت
علاوه بر اطمینان، معیارهای دیگری نیز برای سنجش جذابیت قوانین مطرح شدهاست که از مهمترین آنها میتوان به موارد زیر اشاره کرد:
- اطمینان-کامل
- توان جمعی
- عقیده
- نفوذ
- بالابری
الگوریتمها
در طول زمان، الگوریتمهای متعددی برای تولید قوانین وابستگی پیشنهاد شدهاند.
بعضی الگوریتمهای معروف در این زمینه عبارتند از: آپریوری، اکلات (Eclat) و FP-Growth. تمامی این الگوریتمها تنها انجام دهنده نیمی از مسیر تولید قوانین وابستگی هستند. چرا که این الگوریتمها برای کاوش مجموعه آیتمهای مکرر (به انگلیسی: Frequent item-set mining) ساخته شدهاند و پروسه دیگری روی مجموعه آیتمهای مکرر باید انجام شود تا منتهی به قوانین وابستگی شوند.
الگوریتم آپریوری
آپریوری بهترین الگوریتم برای کاوش قوانین وابستگی است. این الگوریتم از استراتژی جستجوی اول-سطح برای شمارش پشتیبان مجموعه آیتمها استفاده میکند و با استفاده از یک تابع تولید کاندید، از خصوصیت بستار رو به پایین پشتیبان بهره میبرد.
الگوریتم اکلات
اکلات یک الگوریتم جستجوی اول-عمق با استفاده از اشتراک مجموعه است.
جستارهای وابسته
- داده کاوی
- دنباله کاوی
منابع
- ↑ Piatetsky-Shapiro, Gregory (1991), Discovery, analysis, and presentation of strong rules, in Piatetsky-Shapiro, Gregory; and Frawley, William J. ; eds. , Knowledge Discovery in Databases, AAAI/MIT Press, Cambridge, MA.
- ↑ Agrawal, Rakesh; Imieliński, Tomasz; Swami, Arun (1993). "Mining association rules between sets of items in large databases": 207–216. doi:10.1145/170035.170072.
- ↑ Hájek, Petr; Havel, Ivan; Chytil, Metoděj; The GUHA method of automatic hypotheses determination, Computing 1 (1966) 293-308
- ↑ Omiecinski, Edward R. ; Alternative interest measures for mining associations in databases, IEEE Transactions on Knowledge and Data Engineering, 15(1):57-69, Jan/Feb 2003
- ↑ Aggarwal, Charu C. ; and Yu, Philip S. ; A new framework for itemset generation, in PODS 98, Symposium on Principles of Database Systems, Seattle, WA, USA, 1998, pages 18-24
- ↑ Brin, Sergey; Motwani, Rajeev; Ullman, Jeffrey D. ; and Tsur, Shalom; Dynamic itemset counting and implication rules for market basket data, in SIGMOD 1997, Proceedings of the ACM SIGMOD International Conference on Management of Data (SIGMOD 1997), Tucson, Arizona, USA, May 1997, pp. 255-264
- ↑ Piatetsky-Shapiro, Gregory; Discovery, analysis, and presentation of strong rules, Knowledge Discovery in Databases, 1991, pp. 229-248
- ↑ Brin, Sergey; Motwani, Rajeev; Ullman, Jeffrey D. ; and Tsur, Shalom; Dynamic itemset counting and implication rules for market basket data, in SIGMOD 1997, Proceedings of the ACM SIGMOD International Conference on Management of Data (SIGMOD 1997), Tucson, Arizona, USA, May 1997, pp. 265-276