حافظه طولانی کوتاه-مدت
حافظه کوتاهمدت طولانیمدت ( Long short-term memory یا به اختصار LSTM) یک معماری شبکه عصبی بازگشتی است که در سال ۱۹۹۷ میلادی توسط سپ هوخرایتر و یورگن اشمیدهوبر ارائه شد، و بعداً در سال ۲۰۰۰ میلادی توسط فیلیکس ژرس و دیگران بهبود داده شد.
ایده
یکی از مشکلات اصلی شبکههای عصبی بازگشتی، ناپدیدشدن مشتق(vanishing dradient) و انفجار مشتق (exploding gradient) است. در بلوک LSTM به منظورحل این دو مشکل، راههایی برای انتقال اطلاعات مهم پیشین در هنگام پیشروی ایجاد شدهاست. این مهم به طور کلی از طریق ضرب بردارهایی تحت عنوان دروازه، در ورودیهای بلوک صورت میپذیرد.
انواع
معماری پایه
معادلات مربوط به پیشروی (forward pass) در یک بلوک LSTM عبارتند از:
- عملگر نشان دهنده ضرب هادامارد است.
متغیرها
- : بردار ورودی
- : بردار دروازهی
- : بردار سلول
- : بردار مخفی سلول (با عنوان خروجی سلول نیز شناخته میشود.)
- ،و: وزنها و بایاسهای مدل که در پروسهی یادگیری، بهینه میشوند.
- : بردارهای دروازه
- : بردار دروازه فراموشی. وزن به یادداری اطلاعات قدیمی.
- : بردار دروازه ورودی. وزن اندوختن اطلاعات جدید.
- : بردار دروازه خروجی. کاندید خروجی.
بالانویسهای
توابع فعالسازی
- : تابع فعالسازی دروازهها(در LSTM پایه تابع سیگموئید است.)
- : تابع فعالسازی وضعیت سلول(در LSTM پایه تانژانت هذلولی است.)
- : تابع فعالسازی تابع اصلی یک تانژانت هذلولی است اما الاستیام روزنهای.
معماری روزنهای
بلوک LSTM با اتصالات روزنهای.
معماری پیچشی
در مسایل حاوی spatial data همچون تصویر به عنوان ورودی، معماریهای کاملا متصل(Fully Connected) عملکرد خوبی دارند، اما از لحاظ محاسباتی نابهینه هستند. معماری پیچشی با جایگزینی عملگر پیچش به جای ضرب ماتریسی، سعی در حذف این نابهینگی دارد.
- * نشاندهندهی عملگر پیچش(Convolution) است.
جستارهای وابسته
- کامپیوترهای عصبی مشتقپذیر
- شبکه عصبی مصنوعی
- Prefrontal Cortex Basal Ganglia Working Memory (PBWM)
- شبکههای عصبی بازگشتی
- Gated recurrent unit
- سریهای زمانی
- توانبخشی طولانی-مدت
- واحد بازگشتی دروازهای
منابع
- ↑ Sepp Hochreiter; Jürgen Schmidhuber (1997). "Long short-term memory". Neural Computation. 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276.
- ↑ Felix A. Gers; Jürgen Schmidhuber; Fred Cummins (2000). "Learning to Forget: Continual Prediction with LSTM". Neural Computation. 12 (10): 2451–2471. doi:10.1162/089976600300015015.
- ↑ Klaus Greff, Rupesh Kumar Srivastava, Jan Koutník, Bas R. Steunebrink, Jürgen Schmidhuber. "LSTM: A Search Space Odyssey". arXiv:1503.04069.
- ↑ Xingjian Shi; Zhourong Chen; Hao Wang; Dit-Yan Yeung; Wai-kin Wong; Wang-chun Woo (2015). "Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting". Proceedings of the 28th International Conference on Neural Information Processing Systems: 802–810.
پیوند به بیرون
- Recurrent Neural Network با بیش از ۳۰ مقاله الاستیام توسط گروه یورگن اشمیدهوبر در IDSIA
- تز دکترای ژرس در مورد شبکههای الاستیام.
- مقاله تشخیص تقلب با دو فصل اختصاص داده شده به توضیح شبکههای عصبی بازگشتی، به خصوص الاستیام.
- مقاله ای در مورد توسعه با کارایی بالای الاستیامها که به یک تک گره سادهسازی شده و میتواند معماری من درآوردی ای را آموزش دهد.
- خودآموز: چگونه در پایتون با ثینو (theano) الاستیام را پیادهسازی کنیم