روش تشخیص ناهنجاری

تشخیص ناهنجاری (به انگلیسی: anomaly detection) که به عنوان تشخیص دورافتاده (به انگلیسی: outlier detection) نیز شناخته شده، به تشخیص الگوهای موجود در یک مجموعه اطلاعات داده شده، که با رفتار بهنجار (نرمال) از پیش مقررشده، مطابقت ندارد، اشاره دارد؛ بنابراین الگوهای تشخیص داده شده، ناهنجاری‌ها نامیده می‌شوند و اغلب به اطلاعات حیاتی و کارآمد، در چندین حوزهٔ کاربرد، ترجمه می‌شوند. همچنین ناهنجاری‌ها به عنوان دورافتادگی، تغییر، انحراف، تعجب، نابجایی، صفات عجیب، نفوذ و غیره ارجاع می‌شوند.

به‌طور خاص، در زمینه تشخیص سوءاستفاده و نفوذ به شبکه، موارد جالب اغلب موارد نادر نیستند، اما انفجارات غیرمنتظره درکار است. این الگو به یک تعریف آماری مشترک از دورافتادگی، به عنوان به عنوان یک شیء نادر پایبند نیست؛ و بسیاری از روش‌های تشخیص دورافتادگی (بویژه در روش بدون نظارت)، بر روی تعدادی داده‌ها ناموفق است، مگر آنکه به‌طور مناسب توزیع شده باشد. در عوض، یک الگوریتم تجزیه و تحلیل خوشه‌ای ممکن است قادر به تشخیص خردخوشه‌های تشکیل شده توسط این الگوها، باشد.

سه دستهٔ گسترده از فنون تشخیص ناهنجاری وجود دارد. فنون تشخیص نابهنجاری بدون ناظر، ناهنجاری‌ها را در یک مجموعهٔ دادهٔ تست بدون برچسب، تحت این فرض که اکثریت موارد در مجموعه داده‌ها بهنجار هستند و با گشتن به دنبال مواردی که حداقل تناسب را با بقیه مجموعه داده هادارند، تشخیص می‌دهند. فنون تشخیص نابهنجاری باناظر، نیاز به یک مجموعهٔ داده‌ها دارند که که با عنوان بهنجار و نابهنجار نشان دار شده و شامل آموزش طبقه‌بندی شده (تفاوت کلیدی بسیاری از مسایل طبقه‌بندی آماری، ماهیت نامتعادل ذاتی، ناشی از تشخیص دورافتادگی است) باشند. فنون تشخیص نابهنجاری نیمه‌نظارتی یک مدل که نشان دهنده رفتار طبیعی با توجه به یک مجموعه داده‌است، می‌سازند و سپس، احتمال یک مورد تست تولیدی بوسیلهٔ مدل آموخته شده را می‌سنجند.

کاربرد

تشخیص ناهنجاری، در حوزه‌های مختلف، مانند سامانه تشخیص نفوذ، تشخیص تقلب، عیب‌یابی، نظارت بر سلامت سامانه، تشخیص رویداد در شبکه‌های حسگر، و تشخیص اختلالات سیستم سازگار با محیط زیست قابل اجرا است. این روش اغلب در پردازش به منظور حذف داده‌های غیرعادی از مجموعه داده‌ها، بکار می‌رود. در یادگیری تحت نظارت، حذف داده‌های غیرعادی از مجموعه داده، اغلب منجر به افزایش معنی دار آماری در دقت می‌شود.

روش‌های رایج

چندین روش تشخیص ناهنجاری در متون ارائه شده‌است. بعضی از روش‌های رایج عبارت اند از:

روش‌های مبتنی بر فاصله
ماشین‌های پشتیبانی بردار با یک کلاس
تکرارگر شبکه‌های عصبی
تجزیه و تحلیل خوشه برپایه تشخیص دورافتادگی
تأکید بر سوابق انحراف از قوانین انجمن
مفهوم ناهنجاری مشروط
روش‌های مبتنی بر تنسور (چندوجهی)

کاربرد در امنیت داده

تشخیص ناهنجاری برای سامانه‌های تشخیص نفوذ (IDS) در سال ۱۹۸۶ توسط دوروتی دنینگ ارائه شد. پیش از آن، تشخیص ناهنجاری برای IDSها به‌طور معمول با آستانه‌ها و آمار انجام می‌شده‌است. اما با محاسبات نرم‌افزاری و یادگیری استقرایی نیز می‌تواند انجام شود. انواع آمار ارائه شده در ۱۹۹۹، شامل پروفایل‌های کاربران، ایستگاه‌های کاری، شبکه‌ها، میزبان‌های کنترل شده از راه دور، گروه‌های کاربران و برنامه‌های بر اساس فرکانس، میانگین، واریانس، کووراریانس (همبستگی) و انحراف استاندارد بود. همتای دیگر روش تشخیص ناهنجاری در تشخیص نفوذ، تشخیص سوءاستفاده است.

منابع

↑ micro clusters
↑ Intrusion Detection System
↑ Fanaee-T, H.; Gama, J. (2016). "Tensor-based anomaly detection: An interdisciplinary survey". Knowledge-Based Systems. - (-): 1–29. doi:10.1016/j.knosys.2016.01.027.
↑ Dorothy Denning

[1] ro clusters

[2] Intrusion Detection System

[3] Fanaee-T, H.; Gama, J. (2016). "Tensor-based anomaly detection: An interdisciplinary survey". Knowledge-Based Systems. - (-): 1–29. doi:10.1016/j.knosys.2016.01.027.

[4] Dorothy Denning