آنالیز افتراقی خطی
آنالیز تشخیصی خطی (به انگلیسی: Linear Discriminant Analysis، به طور مخفف LDA) و تشخیص خطی فیشر روشهای آماری هستند که از جمله در یادگیری ماشین و بازشناخت الگو برای پیدا کردن ترکیب خطی خصوصیاتی که به بهترین صورت دو یا چند کلاس از اشیا را از هم جدا میکند، استفاده میشوند.
آنالیز تشخیصی خطی بسیار به تحلیل واریانس و تحلیل رگرسیونی نزدیک است؛ در هر سهٔ این روشهای آماری متغیر وابسته به صورت یک ترکیب خطی از متغیرهای دیگر مدلسازی میشود. با این حال دو روش آخر متغیر وابسته را از نوع فاصلهای در نظر میگیرند در حالی که آنالیز افتراقی خطی برای متغیرهای وابستهی اسمی یا رتبهای به کار میرود. از این رو آنالیز افتراقی خطی به رگرسیون لجستیک شباهت بیشتری دارد.
آنالیز تشخیصی خطی همچنین با تحلیل مؤلفههای اصلی و تحلیل عاملی هم شباهت دارد؛ هر دوی این روشهای آماری برای ترکیب خطی متغیرها به شکلی که داده را به بهترین نحو توضیح بدهد به کار میروند یک کاربرد عمدهی هر دوی این روشها، کاستن تعداد بعدهای داده است. با این حال این روشها تفاوت عمدهای با هم دارند: در آنالیز افتراقی خطی، تفاوت کلاسها مدلسازی میشود در حالی که در تحلیل مؤلفههای اصلی تفاوت کلاسها نادیده گرفته میشود.
LDA ارتباط نزدیکی با تحلیل واریانس و تحلیل رگرسیون دارد که سعی دارند یک متغیر مستقل را به عنوان ترکیبی خطی از ویژگیهای دیگر بیان کنند. این متغیر مستقل در LDA به شکل برچسب یک کلاس است. همچنین LDA ارتباطی تنگاتنگ با تحلیل مؤلفههای اصلی PCA دارد. چرا که هر دو متد به دنبال ترکیبی خطی از متغیرهایی هستند که به بهترین نحو دادهها را توصیف میکنند. LDA همچنین سعی در مدلسازی تفاوت بین کلاسهای مختلف دادهها دارد. از LDA زمانی استفاده میشود که اندازههای مشاهدات، مقادیر پیوسته باشند.
LDA برای دو کلاس
مجموعهای از مشاهدات را به نام
LDA با این فرض که تابع چگالی احتمال شرطی
بدون هیچ فرض اضافهای دستهبندیکننده حاصل به عنوان QDA (Quadratic discriminant analysis) شناخته میشود. LDA علاوه براینها فرض ساده کننده همواریانسی(Homoscedasticity) (یعنی برابری کوواریانس کلاسها) و کوواریانسها رتبه کامل هستند. در این مورد، اصطلاحات گوناگون باطل میشوند و معیار تصمیم آستانه ضرب نقطه ای زیر خواهد بود:
برای آستانه معین ثابتی به نام c، در حالی که:
بدین معنی است که معیار یک ورودی که در یک کلاس y جای دارد، تابعی ناب از ترکیب خطی مشاهدات شناخته شدهاست.
دیدن این نتیجه از نظر هندسی اغلب مفید است: معیار یک ورودی که در یک کلاس y جای دارد تابعی ناب از پروجکشن فضای چند بعدی نقطه بر روی بردار است (بنابراین، تنها جهت آن را در نظر میگیریم). به بیانی دیگر، مشاهده به کلاس y تعلق دارد اگر متناظرش در یک طرف معین از ابر صفحه عمود بر واقع شده باشد. موقعیت صفحه توسط مقدار آستانه c تعریف میشود.
LDA استاندارد برای k کلاس
CDA آنالیز افتراقی استاندارد محورهای مختصاتی (K-1 مختصات استاندارد، K تعداد کلاسها را نشان میدهد) را که به بهترین شکل دستهها را از هم مجزا میکند، پیدا خواهد کرد. این توابع خطی ناهمبسته هستند و k-1 فضا را از طریق ابر n بعدی از دادهها که به بهترین شکل k گروه را از هم مجزا میکند. برای جزئیات بیشتر LDA چند کلاسه را ببینید.
افتراقدهندهی خطی فیشر
هرچند مقاله اصلی فیشر رویکرد متفاوتی برای تعریف یک افتراقدهنده به کار میگیرد و بعضی فرضیات LDA مانند کلاسهای دارای توزیع نرمال یا کوواریانس برابر کلاس را ندارد، واژههای افتراق خطی فیشر و LDA معمولاً به جای یکدیگر به کار میروند.
دو کلاس از مشاهدات را با میانگینها و کوواریانسها در نظر بگیرید. حالا ترکیب خطی دارای میانگین و واریانس هستند. افتراقدهنده فیشر بین این دو توزیع را به صورت نسبت واریانس بین دو کلاس به واریانس درون دو کلاس تعریف کرد:
به عبارت دیگر این مقدار، مقیاسی از نسبت سیگنال به نویز برای برچسب گذاری کلاس است. میتوان نشان داد که حداکثر جداسازی زمانی اتفاق میافتد که:
وقتی که فرضیات LDA ارضا شد، معادله بالا معادل با LDA خواهد بود. حتماً به یاد داشته باشید که بردار بردار نرمال ابرصفحه جداکننده است. به عنوان یک مثال، در یک مسئله دوبعدی، خطی که دو گروه را به بهترین شکل تقسیم میکند عمودمنصف است.
بهطور کلی، نقاط دادهای که باید جدا شوند باید بر روی بردار
LDA چند کلاسه
وقتی که بیش از یک کلاس وجود داشته باشد، همان معادلات و روابطی که در تکنیک افتراقی فیشر به کار میروند را میتوان برای پیدا کردن آن زیرفضایی به کار برد که بهنظر میرسد میتواند تمام دامنهی تغییرپذیری دادهها در کلاسهای گوناگون را نشان دهد. چنین تعمیمی به واسطهی کارهای C.R. Rao به دست آمده است. فرض کنید هر کلاس از C کلاس یک میانگین
در حالی که میانگین، میانگین، کلاسها است. جداسازی کلاس در یک جهت در این مورد با عبارت زیر داده خواهد شد:
معنی اش این است که وقتی یک بردار ویژه از باشد جداسازی، معادل با مقدار ویژه متناظرش خواهد بود.
اگر
اگر به جای کاهش ابعاد دستهبندی موردنیاز باشد، تعدادی تکنیک جایگزین وجود دارد. برای مثال، کلاسها را میتوان پارتیشنبندی کرد و آنالیز افتراقی فیشر استاندارد یا LDA را برای دستهبندی هر پارتیشن به کار برد. یک مثال رایج از این رویکرد "یکی در برابر بقیه" است، وقتی که نقاط از یک کلاس در یک گروه قرار میگیرند، و هر چیز دیگر در دیگری، سپس LDA اعمال میشود. که این کار به C classifier منتج میشود، که نتایج آن ترکیب میشود. روش رایج دیگری دستهبندی جفتی است، جایی که یک دستهبند جدید برای هر جفت از کلاسها ایجاد میشود (در مجموع C-1 دسته بندیکننده داده میشود)، با ترکیب دستهبندی کنندههای منفرد برای تولید یک دستهبندیکننده نهایی.
کاربرد عملی
در عمل، میانگین کلاسها و کوواریانسها معلوم نیست. هرچند میتوان آنها را از مجموعه آموزش تخمین زد. برآورد بیشترین درستنمایی (maximum likelihood estimate) یا برآورد پسین حداکثر(maximum a posteriori) را میتوان به جای مقدار دقیق در معادلات بالا به کار برد. اگرچه برآورد کوواریانس بعضی مواقع بهینه در نظر گرفته شدهاست، به این معنی نیست که افتراق بهدست آمده با جایگزینی این مقادیر همیشه بهینه باشد، حتی اگر فرض توزیع نرمال کلاسها درست باشد.
پیچیدگی دیگر در اعمال LDA و افتراقدهندهی فیشر به دادههای واقعی وقتی که تعداد مشاهدات هر نمونه از تعداد نمونهها کمتر باشد روی میدهد. در این مورد، برآورد کوواریانس full rank نیست، پس نمیتواند معکوس شود. روشهای گوناگونی برای حل این مشکل وجود دارد. یک روش استفاده از شبه معکوس به جای ماتریس معکوس معمولی در فرمول بالاست. به هر حال، پایداری بهتر عددی با پرتو اندازی (پروجکشن) مسئله بر زیرفضای گسترش یافته با ممکن است بهدست آید. راهبرد دیگر برای حل مشکل اندازه نمونه استفاده از یک برآوردگر انقباضی (Shrinkage estimator) از ماتریس کوواریانس است، به بیان ریاضی:
همچنین در بسیاری از موارد عملی افتراق خطی مفید نیست. LDA و افتراقدهندهی فیشر با استفاده از ترفند کرنل Kernel method قابل تعمیم به دستهبندی غیرخطی هستند. در اینجا مشاهدات اصلی به صورت مؤثر به یک فضای غیرخطی بالاتر نگاشت میشوند. دستهبندی خطی در این فضای غیرخطی معادل دستهبندی غیرخطی در فضای اصلی است. مثال بسیار رایج روش کرنل افتراقی فیشر kernel Fisher discriminant است.
LDA قابل تعمیم به آنالیز افتراقی چند دستهایی نیز است، وقتی که c یک متغیر رتبهای با N حالت ممکن به جای دو حالت باشد. بهطور مشابه، اگر چگالیهای شرطی کلاس با یک کوواریانس مشترک نرمال باشد، آماره بسنده برای مقادیری از N تصویر (پروجکشن) است، که زیرفضایی است که با N میانگین گسترش یافتهاست، با affine projected که به وسیله ماتریس کوواریانس معکوس. این پروجکشنها در حل یک مسئله مقدار ویژه تعمیم یافته یافت میشوند، جایی که صورت ماتریس کوواریانسی است که با درنظرگرفتن میانگینها به عنوان نمونهها تشکیل شدهاست، و مخرج ماتریس کوواریانس مشترک است.
جستارهای وابسته
منابع
- ↑ Fisher, R. A. (1936). "The Use of Multiple Measurements in Taxonomic Problems". Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227.
- ↑ McLachlan, G. J. (2004). Discriminant Analysis and Statistical Pattern Recognition. Wiley Interscience. ISBN 0-471-69115-1. MR 1190469.
- ↑ Analyzing Quantitative Data: An Introduction for Social Researchers, Debra Wetcher-Hendricks, p.288
- ↑ Martinez, A. M.; Kak, A. C. (2001). [/~aleix/pami01.pdf "PCA versus LDA"] (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 23 (=2): 228–233. doi:10.1109/34.908974.
- ↑ Abdi, H. (2007) "Discriminant correspondence analysis." In: N.J. Salkind (Ed.): Encyclopedia of Measurement and Statistic. Thousand Oaks (CA): Sage. pp. 270–275.
- ↑ Perriere, G.; & Thioulouse, J. (2003). "Use of Correspondence Discriminant Analysis to predict the subcellular location of bacterial proteins", Computer Methods and Programs in Biomedicine, 70, 99–105.
- ↑ Venables, W. N.; Ripley, B. D. (2002). Modern Applied Statistics with S (4th ed.). Springer Verlag. ISBN 0-387-95457-0.
- ↑ Rao, R. C. (1948). [/stable/2983775 "The utilization of multiple measurements in problems of biological classification"]. Journal of the Royal Statistical Society, Series B. 10 (2): 159–203.
- ↑ Yu, H.; Yang, J. (2001). "A direct LDA algorithm for high-dimensional data — with application to face recognition", Pattern Recognition, 34 (10), 2067–2069