لسو

لَسو یکی از روش‌های تنظیم مدل برای انتخاب ویژگی و جلوگیری از بیش‌برازش در رگرسیون است که باعث می‌شود بسیاری از پارامترهای مدل نهائی صفر شوند و مدل به اصطلاح خلوت شود. در روش لَسو نُرمِ $L_{1}$

به تابع هزینه اضافه می‌شود. در نهایت استفاده از این روش، می‌تواند منجر به افزایش دقت پیش‌بینی مدل شود.

تعریف ریاضی

اگر در مسئله رگرسیون، داده‌ها را به صورت $D=\{({x_{1}},y_{1}),\cdots ,({x_{N}},y_{N})\}$

نمایش دهیم، هدف بدست آوردن

y

به عنوان ترکیبی خطی از

x

است یعنی

x^{T}\beta +\beta _{0}

. رگرسیون خطی معمولی به شکل پایین در پی یافتن

\beta

و

\beta _{0}

بهینه است به طوری که خطای میانگین مربعات را کمینه کند:

$\min _{\beta _{0},\beta }\left\{{\frac {1}{N}}\sum _{i=1}^{N}(y_{i}-\beta _{0}-x_{i}^{T}\beta )^{2}\right\}$

حال اگر داده‌ها را در ماتریس $X$

و بردار

Y

بگنجانیم، مسئله به عبارت پایین تغییر شکل می‌دهد:

$\min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|Y-X\beta \right\|_{2}^{2}\right\}$

دو دلیل کلی برای تغییر و بهبود روش خطای میانگین مربعات وجود دارد. مورد اول اینکه پیچیدگی مدل‌های پارامتری با تعداد پارامترهای مدل و مقادیر آن‌ها سنجیده می‌شود. هرچه این پیچیدگی بیشتر باشد خطر بیش‌برازش برای مدل بیشتر است. پدیدهٔ بیش‌برازش زمانی رخ می‌دهد که مدل به‌جای یادگیری الگوهای موجود در داده، خود داده را به خاطر می‌سپارد. در این حالت، مدل برای آن مجموعه دادهٔ به‌خصوص خوب عمل می‌کند اما برای داده‌های مشابه دیگر عملکرد خوبی ندارد، که یعنی عمل یادگیری به خوبی انجام نشده‌است. در این حالت مدل، بایاس کم و واریانس زیادی دارد و در واقع بیش‌برازش اتفاق افتاده است. برای جلوگیری از بیش‌برازش در مدل‌های خطی مانند رگرسیون خطی یا رگرسیون لجستیک، یک «جریمه» به تابع هزینه اضافه می‌شود تا از افزایش پارامترها جلوگیری شود. به این کار تنظیم مدل گفته می‌شود.

در روش لَسو ضریبی از نُرمِ $L_{1}$

به تابع هزینه اضافه می‌شود:

$\min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|Y-X\beta \right\|_{2}^{2}+\lambda \|\beta \|_{1}\right\}$

اضافه کردن ضریبی از نُرمِ $L_{1}$

به تابع هزینه معادلِ ایجاد محدودیتی بر روی نُرمِ

L_{1}

است:

$\min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|Y-X\beta \right\|_{2}^{2}\right\}{\text{ subject to }}\|\beta \|_{1}\leq t$

که منظور از $\|v\|_{p}$

در واقع، نُرمِ

\ell ^{p}

است که به صورت زیر محاسبه می‌شود:

\|v\|_{p}=\left(\sum _{i=1}^{N}|v_{i}|^{p}\right)^{1/p}

استفاده از این باعث می‌شود بسیاری از پارامترهای مدل نهائی که دارای کم‌ترین میزان اهمیت هستند، صفر شده و مدل به اصلاح خلوت شود. بدین ترتیب بایاس مقداری افزایش یافته اما واریانس کاهش می‌یابد. بنابراین لَسو به طور کلی می‌تواند منجر به افزایش دقت مدل شود.

هدف دیگری که استفاده از این روش دنبال می‌کند، افزایش قابلیت تبیین مدل است که با کاهش تعداد پارامترهای تخمین‌گر انجام می‌شود.

مصورسازی

برای مصورسازی محدودیت‌های اعمال شده در دو مدل رگرسیون ریج و لَسو با پارامترهای $\beta _{1}$

و

\beta _{2}

را توجه کنید که جمع خطای مربعات، به شکل خطوط تراز بیضوی نمایش داده می‌شود. به علاوه در مسألۀ رگرسیون ریج، ناحیه‌ای که ضرایب مدل را مشخص می‌کند از رابطه زیر به‌ دست می‌آید:

$\beta _{1}^{2}+\beta _{2}^{2}\leq t^{2}$

(شکل 1) برخورد خطوط تراز با محدوده ضرایب در رگرسیون ریج

که دایره‌ای به شعاع $t$

را نمایش می‌دهد. تصویر برخورد خطوط تراز با محدوده ضرایب در رگرسیون ریج در تصویر روبه‌رو نمایش داده شده است (شکل 1).

اما در لَسو، محدودیت اعمال شده روی ضرایب به صورت زیر است:

$|\beta _{1}|+|\beta _{2}|\leq t$

(شکل 2) برخورد خطوط تراز با محدوده ضرایب در لسو

که در مختصات دوبعدی ناحیه‌ای به شکل لوزی را تشکیل می‌دهد (شکل 2).

در هر دو روش اولین محل برخورد این نواحی با خطوط تراز بیضوی به عنوان جواب مسأله در نظر گرفته‌ می‌شود.

از آن‌جایی که لوزی برخلاف دایره، دارای گوشه‌هایی است، امکان برخورد خطوط تراز با محدودۀ ضرایب در گوشه‌ها وجود دارد. اگر برخورد با خطوط تراز در یکی از این گوشه‌ها اتفاق افتاده باشد، یکی از ضرایب در مدل برابر با صفر می‌شود. محدودۀ ضرایب لَسو در ابعاد بالاتر، دارای گوشه‌ها و لبه‌های زیادی بوده و شانس برخورد خطوط تراز در این نقاط و درنتیجۀ آن، صفر شدن تعدادی از ضرایب بیشتر می‌شود. بدین ترتیب تعداد پارامترهای غیرصفر در مدل کاهش یافته و مدل به اصطلاح خلوت‌تر می‌شود.

پیاده‌سازی (پایتون)

با استفاده از کتابخانۀ Sickit-Learn زبان برنامه‌نویسی پایتون می‌توان مدل لَسو را به سادگی، به صورت زیر پیاده‌سازی کرد:

from sklearn.linear_model import Lasso

lasso = Lasso(alpha=0.1)
lasso.fit(X_train, y_train)
prediction= lasso.predict(X_test)

پارامتر تنظیم مدل در این مثال ساده برابر با $0.1$

در نظر گرفته‌ شده و پس از آموزش، از مدل برای پیشبینی روی دادۀ جدید استفاده شده است.

یادداشت‌ها

↑ LASSO مخفف least absolute shrinkage and selection operator
↑ Feature selection
↑ sparse
↑ overfitting
↑ penalty

منابع

↑ Natarajan, B. K. (1995). "Sparse Approximate Solutions to Linear Systems". SIAM Journal on Computing (به انگلیسی). 24 (2): 227–234. doi:10.1137/s0097539792240406. ISSN 0097-5397. Archived from the original on 24 May 2019. Retrieved 17 December 2019.
↑ Bühlmann, Peter; van de Geer, Sara (2011). "Statistics for High-Dimensional Data". Springer Series in Statistics (به انگلیسی). doi:10.1007/978-3-642-20192-9. ISSN 0172-7397. Archived from the original on 21 February 2019. Retrieved 5 October 2018.
↑ Bühlmann, Peter; van de Geer, Sara (2011). Theory for ℓ1/ℓ2-penalty procedures (به انگلیسی). Berlin, Heidelberg: Springer Berlin Heidelberg. pp. 249–291. doi:10.1007/978-3-642-20192-9_8. Archived from the original on 5 October 2018.
↑ Géron, A. (2022). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow (3rd ed.). O’Reilly Media. (به انگلیسی).
↑ Hastie, T., Tibshirani, R., & Wainwright, M. (2020). Statistical Learning with Sparsity (Chapman & Hall/CRC Monographs on Statistics and Applied Probability) (1st ed.). Routledge. (به انگلیسی).

[1] LASSO مخفف least absolute shrinkage and selection operator

[2] Feature selection

[3] sparse

[5] verfitting

[7] ty

[:1-4] Natarajan, B. K. (1995). "Sparse Approximate Solutions to Linear Systems". SIAM Journal on Computing (به انگلیسی). 24 (2): 227–234. doi:10.1137/s0097539792240406. ISSN 0097-5397. Archived from the original on 24 May 2019. Retrieved 17 December 2019.

[6] Bühlmann, Peter; van de Geer, Sara (2011). "Statistics for High-Dimensional Data". Springer Series in Statistics (به انگلیسی). doi:10.1007/978-3-642-20192-9. ISSN 0172-7397. Archived from the original on 21 February 2019. Retrieved 5 October 2018.

[:0-8] Bühlmann, Peter; van de Geer, Sara (2011). Theory for ℓ1/ℓ2-penalty procedures (به انگلیسی). Berlin, Heidelberg: Springer Berlin Heidelberg. pp. 249–291. doi:10.1007/978-3-642-20192-9_8. Archived from the original on 5 October 2018.

[9] Géron, A. (2022). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow (3rd ed.). O’Reilly Media. (به انگلیسی).

[10] Hastie, T., Tibshirani, R., & Wainwright, M. (2020). Statistical Learning with Sparsity (Chapman & Hall/CRC Monographs on Statistics and Applied Probability) (1st ed.). Routledge. (به انگلیسی).