آموزش، اعتبارسنجی و مجموعههای آزمایشی
در بحث یادگیری ماشین، مطالعه و ساخت الگوریتمهایی که میتواند بر اساس مجموعه داده، یادگیری و پیشگیری کند، مرسوم است. این الگوریتمها از طریق پیشبینی یا تصمیمگیری مبتنی بر داده، از طریق ساختن یک مدل ریاضی بر اساس دادههای ورودی عمل میکنند.
دادههای مورد استفاده برای ساخت مدل نهایی معمولاً از مجموعه دادههای متعدد تهیه میشود. بهطور خاص، معمولاً از سه مجموعه داده در مراحل مختلف ایجاد مدل، استفاده میشود.
این مدل در ابتدا بر روی یک مجموعه داده آموزشی ساخته میشود، تا یا استفاده از مجموعه ای از مثالها، توانایی متناسب کردن پارامترهای مدل فراهم شود. (به عنوان مثال وزن اتصالات بین سلولهای عصبی در شبکههای عصبی مصنوعی) این مدل (به عنوان مثال یک شبکه عصبی) با استفاده از یک روش یادگیری نظارت شده، مانند روشهای بهینهسازی همچون نزول گرادیان یا نزول شیب تصادفی، روی مجموعه دادههای آموزشی، آموزش داده میشود. در عمل، مجموعه دادههای آموزشی اغلب متشکل از جفتهای یک بردار ورودی (یا اسکالر) و بردار خروجی مربوطه (یا اسکالر) است، جایی که کلید پاسخ معمولاً به عنوان متغیر هدف (یا برچسب) نشان داده میشود. مدل فعلی از روی مجموعه دادههای آموزشی ساخته میشود و برای هر بردار ورودی در مجموعه دادههای آموزشی، نتیجه ای حاصل میشود که سپس با هدف مقایسه میشود. پارامترهای مدل، بر اساس نتیجه مقایسه و الگوریتم یادگیری خاص مورد استفاده، تنظیم میشوند. نتیجه به دست آمده مدل میتواند شامل انتخاب متغیر و برآورد پارامتر باشد.
بهطور پیوسته، از مدل ساخته شده بر اساس مجموعه داده، برای پیشبینی نتایج مشاهدات در یک مجموعه داده دوم به نام مجموعه داده اعتبار سنجی استفاده میشود. مجموعه دادههای اعتبارسنجی، ارزیابی بی طرفانه ای از مدل ساخته شده متناسب که بر روی مجموعه دادههای آموزشی، در زمان تنظیم مدل ابرپارامترها ارایه میدهد. (به عنوان مثال تعداد واحدهای پنهان در یک شبکه عصبی). مجموعه دادههای اعتبار سنجی را میتوان برای منظم سازی با توقف زودهنگام استفاده کرد. (متوقف کردن آموزش هنگامی که خطای مجموعه داده اعتبار سنجی افزایش مییابد، استفاده میشود، زیرا این نشانه بیش برازش است). این مراحل در عمل با پیچیدگیهایی مواجه است که ناشی از نوسان میزان خطا در مجموعه اعتبار سنجی است. این پیچیدگی موجب به وجود آمدن قوانینی مبتنی بر هدف است که این قوانینی میتواند تصمیم بگیرد آیا بیش برازش اتفاق افتادهاست یا خیر.
سرانجام، مجموعه داده آزمایشی مجموعه دادهای است که برای ارائه ارزیابی بی طرفانه از مدل نهایی متناسب با مجموعه دادههای آموزشی استفاده میشود. اگر دادههای مجموعه دادههای آزمایشی هرگز در آموزش استفاده نشده باشد، (به عنوان مثال در اعتبارسنجی متقابل)، مجموعه دادههای آزمون نیز مجموعه دادههای نگهداری نامیده می شود.
مجموعه دادههای آموزشی
یک م مجموعه داده آموزشی، مجموعه ای از نمونهها است که در طول فرایند یادگیری استفاده میشود و برای ساخت مدلهای پیشگو استفاده میشود. به عنوان مثال برای یک الگوریتم طبقهبندی کننده استفاده میشود.
بیشتر رویکردهایی که از طریق دادههای آموزشی برای روابط علمی جستجو میشوند، منجر به بیش برازش میشوند، به این معنی که آنها میتوانند روابط آشکار را در دادههای آموزشی که بهطور کلی نگهداری نمیشوند، شناسایی و بهرهبرداری کنند.
مجموعه دادههای اعتبار سنجی
مجموعه داده اعتبارسنجی، مجموعه داده ای از مثالها است که برای تنظیم ابرپارامترها (hyperparameters یعنی معماری) یک الگوریتم طبقهبندی کننده استفاده میشود. گاهی اوقات به آن مجموعه توسعه یا "dev set" نیز گفته میشود. نمونه ای از ابرپارامتر برای شبکههای عصبی مصنوعی شامل تعداد واحدهای پنهان در هر لایه است. این مجموعه، و همچنین مجموعه تست، باید از توزیع احتمال مشابه مجموعه داده آموزش پیروی کند.
برای جلوگیری از بیش برازش، در صورت نیاز به تنظیم هر پارامتر طبقهبندی کننده، لازم است علاوه بر مجموعه دادههای آموزش و مجموعه دادههای آزمون، یک مجموعه داده اعتبار سنجی نیز داشته باشید. به عنوان مثال، اگر مناسبترین طبقهبندی کننده مسئله را جستجو کنیم، از مجموعه دادههای آموزشی برای آموزش الگوریتمهای نامزد استفاده میشود، از مجموعه دادههای اعتبار سنجی برای مقایسه عملکرد آنها و تصمیمگیری در مورد انتخاب یکی از آنها استفاده میشود و در نهایت، از مجموعه دادههای آزمایشی برای به دست آوردن ویژگیهای عملکردی مانند دقت، حساسیت، ویژگی، اندازهگیری F و غیره استفاده میشود. مجموعه داده اعتبارسنجی به صورت ترکیبی عمل میکند: این دادههای آموزشی است که برای آزمایش استفاده میشود، اما نه به عنوان بخشی از آموزش سطح پایین و نه به عنوان بخشی از آزمایش نهایی.
فرایند اساسی استفاده از یک مجموعه دادههای اعتبار سنجی برای انتخاب مدل: (به عنوان بخشی از مجموعه دادههای آموزشی، مجموعه دادههای اعتبار سنجی و مجموعه دادههای آزمون)
استفاده و کاربرد این فرایند در توقف زودهنگام است، جایی که مدلهای کاندیدا تکرارهای پی در پی یک شبکه هستند و با بزرگ شدن خطای مجموعه اعتبار سنجی، با انتخاب مدل قبلی (مدل با حداقل خطا)، آموزش متوقف میشود.
مجموعه داده آزمایش
مجموعه داده ای است که مستقل از مجموعه آموزش است، اما از توزیع احتمال مشابه مجموعه داده آموزش پیروی میکند. اگر مدل ساخته شده بر اساس دادههای آموزشی عملکرد خوبی بر دادههای آزمایشی نیز داشته باشد، میزان بیش برازش به حداقل می رشد. برازش بهتر مجموعه داده آموزش بر خلاف مجموعه داده آزمون معمولاً به بیش برازش اشاره دارد.
بنابراین یک مجموعه آزمون مجموعه ای از مثالها است که فقط برای ارزیابی عملکرد (به عنوان مثال تعمیم) یک طبقهبندی کننده کاملاً مشخص استفاده میشود.
مجموعه داده Holdout
بخشی از مجموعه داده اصلی را میتوان کنار گذاشت و به عنوان مجموعه آزمایشی استفاده کرد: این روش را Holdout مینامند.
سردرگمی در اصطلاحات
مجموعه اصطلاحات آزمون و مجموعه اعتبارسنجی، گاهی اوقات به گونه ای به کار میروند که معنای آنها هم در صنعت و هم در محیطهای آموزشی به صورت اشتباه به کار میروند. در کاربرد اشتباه، «مجموعه آزمون» به «مجموعه توسعه» تبدیل میشود و «مجموعه اعتبار سنجی» مجموعه مستقلی است که برای ارزیابی عملکرد یک طبقهبندی کننده کاملاً مشخص استفاده میشود.
ادبیات مربوط به یادگیری ماشین اغلب معنای مجموعههای «اعتبار سنجی» و «آزمون» را برعکس میکند. این نمونه آشکارترین آشفتگی اصطلاحی است که در تحقیقات هوش مصنوعی وجود دارد.
اعتبار سنجی متقابل
یک مجموعه داده را میتوان بهطور مکرر به یک مجموعه داده آموزشی و یک مجموعه داده اعتبار سنجی تقسیم کرد: این به اعتبارسنجی متقابل معروف است. این تقسیمبندیهای مکرر را میتوان به روشهای مختلف انجام داد، مانند تقسیم به ۲ کردن یک مجموعه داده و استفاده از آنها به عنوان آموزش و اعتبار سنجی، و بعد از آن اعتبار سنجی و آموزش، یا انتخاب مکرر یک زیر مجموعه تصادفی به عنوان مجموعه داده اعتبار سنجی. برای تأیید عملکرد مدل، گاهی اوقات از یک مجموعه داده آزمون اضافی که از اعتبار سنجی Holdout استفاده میشود.
طبقهبندی سلسله مراتبی
مثال دیگر از تنظیم پارامترها طبقهبندی سلسله مراتبی است (که بعضاً به عنوان تجزیه فضای نمونه نامیده میشود)، که یک مسئله کامل چند کلاسه با چندین متغیر هدف را به مجموعه ای از مشکلات طبقهبندی کوچکتر تقسیم میکند. در این روش طبقهبندی استفاده از الگوریتمهای طبقهبندی کننده و مرزهای طبقهبندی سادهتر و همچنین انتخاب ویژگیها سبب شدهاست تا عملکردی با دقت بالا ارایه شود.. هنگام انجام تجزیه طبقهبندی، انتخاب اصلی ترتیب ترکیب مراحل طبقهبندی کوچکتر است که مسیر طبقهبندی نامیده میشود. بسته به نوع کاربرد، میتوان آن را از ماتریس سردرگمی استخراج کرد و با کشف دلایل خطاهای معمول و یافتن راههایی برای جلوگیری از ایجاد سیستم در آینده این موارد را ایجاد کرد. به عنوان مثال، در مجموعه اعتبار سنجی، میتوان فهمید که کدام کلاسها بهطور اشتباه تشخیص داده شدهاند و سپس تجزیه فضای نمونه به صورت زیر انجام میشود: کلاسها به عنوان یک کلاس مشترک واحد در نظر گرفته میشوند و سرانجام، به عنوان مرحله دوم طبقهبندی، کلاس مشترک در دو کلاس که در ابتدا اشتباه تشخیص داده شدهاند، طبقهبندی میشود.
جستارهای وابسته
- طبقهبندی آماری
- لیست مجموعه دادهها برای تحقیقات یادگیری ماشین
منابع
- ↑ Ron Kohavi; Foster Provost (1998). "Glossary of terms". Machine Learning. 30: 271–274. doi:10.1023/A:1007411609915.
- ↑ Brownlee, Jason (2017-07-13). "What is the Difference Between Test and Validation Datasets?". Retrieved 12 October 2017.
- ↑ Ripley, B.D. (1996) Pattern Recognition and Neural Networks, Cambridge: Cambridge University Press, p. 354
- ↑ "Subject: What are the population, sample, training set, design set, validation set, and test set?", Neural Network FAQ, part 1 of 7: Introduction (txt), comp.ai.neural-nets, Sarle, W.S. , ed. (1997, last modified 2002-05-17)
- ↑ Bishop, C.M. (1995), Neural Networks for Pattern Recognition, Oxford: Oxford University Press, p. 372
- ↑ Kohavi, Ron (2001-03-03). "A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection". 14.
- ↑ Cohen, S.; Rokach, L.; Maimon, O. (2007). "Decision-tree instance-space decomposition with grouped gain-ratio". Information Sciences. Elsevier. 177 (17): 3592–3612. doi:10.1016/j.ins.2007.01.016.
- ↑ Sidorova, J. , Badia, T. "ESEDA: tool for enhanced speech emotion detection and analysis". The 4th International Conference on Automated Solutions for Cross Media Content and Multi-Channel Distribution (AXMEDIS 2008). Florence, November, 17-19, pp. 257–260. IEEE press.