در ریاضیات و آمار، خطای میانگین مربعات (انگلیسی: Mean squared error یا بهطور مخفف MSE) روشی برای برآورد میزان خطاست که در واقع تفاوت بین مقادیر تخمینی و آنچه تخمین زده شده، است. MSE به دو دلیل تقریباً همه جا مثبت است (صفر نیست) یک اینکه تصادفی است و دوم به این دلیل که تخمینگر اطلاعاتی که قابلیت تولید تخمین دقیق تری دارد را حساب نمیکند. پس این شاخص که مقداری همواره نامنفی دارد، هرچقدر مقدار آن به صفر نزدیکتر باشد، نشان دهنده میزان کمتر خطاست.
MSE شامل واریانس تخمینگر و بایاس (سوگیری) است. برای یک برآوردگر غیر بایاس، MSE همان واریانس برآوردگر است. مثل واریانس، MSE همان واحدهای اندازهگیری را به عنوان مربع مقادیر تخمین زده شده، دارد. در مقایسه با انحراف معیار ریشه دوم گرفتن از MSE، خطای ریشه میانگین مربع یا انحراف معیار میانگین ریشه (خطای جذر میانگین مربعات) را ارایه میدهد.
برای هر برآوردگر غیر بایاس،RSME ریشه دوم واریانس است که به عنوان خطای استاندارد شناخته میشود.
تعریف MSE بر اساس توصیف تخمینگر یا پیشبینی کننده متفاوت است.
برای بدست آوردن خطای میانگین مربعات از یک مجموعه یا n داده میتوان از رابطه زیر استفاده کرد:
که در آن عمل میانگینگیری را انجام میدهد و مقدار مربع خطای هر داده را محاسبه میکند. پس MSE میانگین مربع خطاها است.
تخمینگر
MSE از یک تخمینگر با توجه به پارامتر نامعلوم به صورت زیر تعریف میشود:
.
این تعریف وابسته به پارامتر نامعلوم و MSE یک ویژگی برای تخمینگر است. از آنجا که MSE امید ریاضی است پس نمیتواند متغیر تصادفی باشد. MSE میتواند یک تابع از پارامترهای نامشخص باشد که در این صورت هر تخمینگر MSE یک تابع داده بر اساس تخمین پارامترها است، پس یک متغیر تصادفی است. این شاخص را میتواند به صورت جمع واریانس تخمینگر و مربع بایاس نیز نوشت:
رابطه با واریانس و بایاس یک برآوردگر
در زیر اثبات رابطه خطای میانگین مربعات با واریانس و بایاس یک برآوردگر آورده شدهاست.
رگرسیون
در تجزیه و تحلیل رگرسیون، این شاخص گاهی برای مقدار غیربایاس واریانس خطا مورد استفاده قرار میگیرد و این به معنای باقیمانده تقسیم مربعات بر درجه آزادی است. در تجزیه و تحلیل رگرسیون از MSE به عنوان میانگین خطای مربع پیشبینی یا خطای مربع میانگین بیرون از نمونه یاد میشود و این میتواند اشاره ای به میانگین مقدار انحراف مربعات پیشبینیها از مقادیر واقعی داشته باشد. این را میتوان در یک فضای آزمایش خارج از نمونه بررسی کرد.
میانگین
فرض کنید یک نمونه تصادفی تایی از داشته باشیم. این نمونهها را از جامعه ای انتخاب کردیم که واحدهای نمونه با جایگزینی انتخاب شدهاند. این واحدها در یک زمان انتخاب شدهاند و واحدهای قبلاً انتخاب شده نیز هنوز معتبر هستند. در این حالت تخمینگر معمولی برای میانگین نمونه است:
که مقدار مورد انتظار برابر با میانگین واقعی است و MSE برابر است با:
جایی که واریانس جامعه است.
برای توزیع گوسی این بهترین تخمینگر غیربایاس است.
واریانس
تخمینگر معمولی برای واریانس، واریانس نمونه تصحیح شدهاست:
و MSE:
که در آن چهارمین نقطه توزیع مرکزی یا جامعه است.
با این حال میتوان از تخمینگرهای دیگری برای استفاده کرد که متناسب با هستند و یک انتخاب مناسب همیشه میتواند کمترین میزان خطای مینگین مربع را داشته باشد. اگر داشته باشیم:
آنگاه:
و این دارای کمترین مقدار است زمانی که:
در یک توزیع گوسی زمانی که میزان MSE به حداقل میرسد.
توزیع گوسی
در جدول زیر میتوانید چندین تخمینگر از مقادیر صحیح جامعه برای حالت گوسی ببینید.
مقدار واقعی
| تخمینگر
| خطای میانگین مربعات
|
---|
| =تخمینگر بدون سوگیری میانگین،
|
|
| = تخمینگر بدون سوگیری واریانس،
|
|
| = تخمینگر بدون سوگیری واریانس،
|
|
| = تخمینگر بدون سوگیری واریانس،
|
|