پاکسازی داده
پاک کردن (تمیز کردن) دادهها در انگلیسی Data cleaning یا Data cleansing گفته میشود. فرایندی برای داشتن مجموعهای دادههای تمیز و صحیح برای آنالیز کردن
پاکسازی دادهها یا تمیز کردن دادهها فرایند پیدا کردن، اصلاح کردن (یا حتی حذف کردن) دادههای بی ارزش و اشتباه از مجموعه داده (دیتاست) یا پایگاه داده (دیتابیس) است. فرایند تمیز کردن دادهها ممکن است که از طریق ابزارهای دادهکاوی یا پردازش دستهای از طریق اسکریپتها انجام شود. بعد از پاکسازی، مجموعه داده باید با سایر مجموعه دادههای مشابه در سیستم سازگار باشد. ناسازگاری دادهها شناسایی و حذف (اصلاح) شده ممکن است بر اثر اشتباه انسانی هنگام ورود اطلاعات، انحراف در هنگام انتقال و ذخیره سازی اطلاعات یا به دلیل واژه نامههای داده مختلف باشد.
منابع
- Han, J., Kamber, M. Data Mining: Concepts and Techniques, Morgan Kaufmann, 2001. شابک ۱−۵۵۸۶۰−۴۸۹−۸.
- Kimball, R., Caserta, J. The Data Warehouse ETL Toolkit, Wiley and Sons, 2004. شابک ۰−۷۶۴۵−۶۷۵۷−۸.
- Muller H., Freytag J., Problems, Methods, and Challenges in Comprehensive Data Cleansing, Humboldt-Universitat zu Berlin, Germany.
- Rahm, E., Hong, H. Data Cleaning: Problems and Current Approaches, University of Leipzig, Germany.