دستهبندی اسناد
دسته بندی اسناد یک مفهوم در سیستمهای اطلاعاتی است.در دسته بندی اسناد یک سند را به یک رده بر اساس محتوای آن اختصاص می دهیم.
انواع
سه نوع دسته بندی برای اطلاعات داریم:
- دسته بندی نظارت شده : از یک منبع خارجی مثل بازخورد کاربر برای تصحیح استفاده می کنیم.
- دسته بندی نظارت نشده : بدون هیچ منبع خارجی دسته بندی را انجام می دهیم.
- دسته بندی شبه نظارت شده : ترکیبی از دو شیوه بالاست که تنها بخشی از اسناد توسط منبع خارجی دسته بندی می شوند.
شیوهها
دسته بندی انواع زیادی دارند:
- k امین نزدیکترین همسایه (KNN)
- فراوانی وزنی (tf-idf)
- شبکه عصبی مصنوعی
کاربردها
کاربردهای بسیار متنوعی برای طبقهبندی موضوعی اسناد وجود دارد، مثلاً شناسایی هرزنامهی الکترونیکی، موتورهای جستجو، تحلیل محتوای دیجیتال و ...