روش تشخیص ناهنجاری
تشخیص ناهنجاری (به انگلیسی: anomaly detection) که به عنوان تشخیص دورافتاده (به انگلیسی: outlier detection) نیز شناخته شده، به تشخیص الگوهای موجود در یک مجموعه اطلاعات داده شده، که با رفتار بهنجار (نرمال) از پیش مقررشده، مطابقت ندارد، اشاره دارد؛ بنابراین الگوهای تشخیص داده شده، ناهنجاریها نامیده میشوند و اغلب به اطلاعات حیاتی و کارآمد، در چندین حوزهٔ کاربرد، ترجمه میشوند. همچنین ناهنجاریها به عنوان دورافتادگی، تغییر، انحراف، تعجب، نابجایی، صفات عجیب، نفوذ و غیره ارجاع میشوند.
بهطور خاص، در زمینه تشخیص سوءاستفاده و نفوذ به شبکه، موارد جالب اغلب موارد نادر نیستند، اما انفجارات غیرمنتظره درکار است. این الگو به یک تعریف آماری مشترک از دورافتادگی، به عنوان به عنوان یک شیء نادر پایبند نیست؛ و بسیاری از روشهای تشخیص دورافتادگی (بویژه در روش بدون نظارت)، بر روی تعدادی دادهها ناموفق است، مگر آنکه بهطور مناسب توزیع شده باشد. در عوض، یک الگوریتم تجزیه و تحلیل خوشهای ممکن است قادر به تشخیص خردخوشههای تشکیل شده توسط این الگوها، باشد.
سه دستهٔ گسترده از فنون تشخیص ناهنجاری وجود دارد. فنون تشخیص نابهنجاری بدون ناظر، ناهنجاریها را در یک مجموعهٔ دادهٔ تست بدون برچسب، تحت این فرض که اکثریت موارد در مجموعه دادهها بهنجار هستند و با گشتن به دنبال مواردی که حداقل تناسب را با بقیه مجموعه داده هادارند، تشخیص میدهند. فنون تشخیص نابهنجاری باناظر، نیاز به یک مجموعهٔ دادهها دارند که که با عنوان بهنجار و نابهنجار نشان دار شده و شامل آموزش طبقهبندی شده (تفاوت کلیدی بسیاری از مسایل طبقهبندی آماری، ماهیت نامتعادل ذاتی، ناشی از تشخیص دورافتادگی است) باشند. فنون تشخیص نابهنجاری نیمهنظارتی یک مدل که نشان دهنده رفتار طبیعی با توجه به یک مجموعه دادهاست، میسازند و سپس، احتمال یک مورد تست تولیدی بوسیلهٔ مدل آموخته شده را میسنجند.
کاربرد
تشخیص ناهنجاری، در حوزههای مختلف، مانند سامانه تشخیص نفوذ، تشخیص تقلب، عیبیابی، نظارت بر سلامت سامانه، تشخیص رویداد در شبکههای حسگر، و تشخیص اختلالات سیستم سازگار با محیط زیست قابل اجرا است. این روش اغلب در پردازش به منظور حذف دادههای غیرعادی از مجموعه دادهها، بکار میرود. در یادگیری تحت نظارت، حذف دادههای غیرعادی از مجموعه داده، اغلب منجر به افزایش معنی دار آماری در دقت میشود.
روشهای رایج
چندین روش تشخیص ناهنجاری در متون ارائه شدهاست. بعضی از روشهای رایج عبارت اند از:
- روشهای مبتنی بر فاصله
- ماشینهای پشتیبانی بردار با یک کلاس
- تکرارگر شبکههای عصبی
- تجزیه و تحلیل خوشه برپایه تشخیص دورافتادگی
- تأکید بر سوابق انحراف از قوانین انجمن
- مفهوم ناهنجاری مشروط
- روشهای مبتنی بر تنسور (چندوجهی)
کاربرد در امنیت داده
تشخیص ناهنجاری برای سامانههای تشخیص نفوذ (IDS) در سال ۱۹۸۶ توسط دوروتی دنینگ ارائه شد. پیش از آن، تشخیص ناهنجاری برای IDSها بهطور معمول با آستانهها و آمار انجام میشدهاست. اما با محاسبات نرمافزاری و یادگیری استقرایی نیز میتواند انجام شود. انواع آمار ارائه شده در ۱۹۹۹، شامل پروفایلهای کاربران، ایستگاههای کاری، شبکهها، میزبانهای کنترل شده از راه دور، گروههای کاربران و برنامههای بر اساس فرکانس، میانگین، واریانس، کووراریانس (همبستگی) و انحراف استاندارد بود. همتای دیگر روش تشخیص ناهنجاری در تشخیص نفوذ، تشخیص سوءاستفاده است.