روششناسی کریسپ
متدولوژی کریسپ (به انگلیسی: Cross-industry standard process for data mining as CRISP-DM) فرآیند استاندارد صنعتی متقاطع برای دادهکاوی یا به صورت مصطلح کریسپ، یک مدل فرآیندی استاندارد باز است که رویکردهای عمومی متخصصان دادهکاوی را تشریح میکند، این روششناسی پرکاربردترین مدل تحلیلی میباشد.
کریسپ یک مدل فرآیند دادهکاوی است که راهبردهای معمولی که توسط دادهکاوان خبره برای غلبه بر مشکلات دادهکاوی استفاده میشود را شرح میدهد. این متدولوژی در سال ۲۰۱۵ میلادی توسط شرکت آیبیام به نام روش متحد شده راهبردهای تحلیلی برای دادهکاوی یا به اصطلاح آسوم (به انگلیسی: ASUM-DM) تغییر نام داد و منتشر شد.
مراحل الگوریتم کریسپ
- فهم تجاری (به انگلیسی: Business Understanding)
- درک داده (به انگلیسی: Data Understanding)
- آمادهسازی داده (به انگلیسی: Data Preparation)
- مدلسازی (به انگلیسی: Modeling)
- ارزیابی (به انگلیسی: Evaluation)
- توسعه (به انگلیسی: Deployment)
فهم تجاری: شامل گردآوری موارد مورد نیاز و گفتگو با مدیران ارشد برای تعیین اهداف.
درک داده: نگاه نزدیک و بررسی دسترسی به دادهها برای فرایند دیتاماینینگ که شامل گردآوری، توصیف، کشف و تأیید کیفیت دادهها میشود.
آمادهسازی داده: این مرحله یکی از مهمترین و همچنین زمانبرترین بخشهای دادهکاوی است که شامل انتخاب، پاکسازی، ساخت، ادغام و قالب بندی دادهها میشود.
مدلسازی: هماکنون دادهها آمادهٔ فرایند دادهکاویاند و نتایج راه حلهایی را برای مشکل تجاری مطرح شده نشان میدهند، تکنیکهای انتخاب مدلسازی، ایجاد یک طراحی آزمون، ساخت مدلها، و ارزیابی مدل این مرحله را میسازند.
ارزیابی: در این مرحله نتایج ارزیابی شده، فرایند انجام کار بازبینی و مراحل بعدی انجام میشوند.
توسعه: نتایج بهدست آمده توسعه یافته و برای بهبود عملکرد سازمان به کار گرفته میشوند.
به نقل از همیار آی تی (۱۹ تیر ۱۳۹۶) بازبینی ۲۳ تیر ۱۳۹۶
مشکلات پیش روی الگوریتم
روشهای خوشهبندی نمیتوانند تمام نیاز یک مسئله را بهطور موازی و همزمان برطرف کنند، در دادههای بزرگ به دلیل وجود مشکل پیچیدگی زمانی، الگوریتم قابل اجرا برای هر دادهای نیست و همچنین در دادههایی که دارای ویژگیهای زیادی هستند امکان بروز نتایج با تفسیرهای مختلف وجود دارد.
تاریخچه
CRISP-DM در سال ۱۹۹۶ به تصویب رسید و در سال ۱۹۹۷، اتحادیه اروپا آن را به عنوان یک پروژه تحت برنامه ابتکاری ESPRIT آغاز کرد. این پروژه توسط پنج شرکت SPSS, Teradata, Daimler AG, NCR Corporation و OHRA، یک شرکت بیمه رهبری گردید.
این کنسرسیوم اصلی تجربیات مختلفی را برای پروژه به ارمغان آورد، ISL، بعداً به SPSS وارد و ادغام شد. غول کامپیوتری NCR Corporation انبار داده Teradata و نرمافزار داده کاوی خود را تولید کرد.
اولین نسخه این روش در چهارمین گردهمایی CRISP-DM SIG در بروکسل در مارس ۱۹۹۹ ارائه شد و در همان سال به عنوان یک راهنمای گام به گام داده کاوی منتشر شد.
جستارهای وابسته
منابع
پیوند به بیرون
- دبیرخانه دائمی کنفرانس داده کاوی ایران بایگانیشده در ۲۰۱۷-۱۰-۲۱ توسط Wayback Machine
- گروه داده کاوی ایران
- آکادمی دادهکاوی