حساب کاربری
​
زمان تقریبی مطالعه: 4 دقیقه
لینک کوتاه

حافظه طولانی کوتاه-مدت

حافظه کوتاه‌مدت طولانی‌مدت ( Long short-term memory یا به اختصار LSTM) یک معماری شبکه عصبی بازگشتی است که در سال ۱۹۹۷ میلادی توسط سپ هوخرایتر و یورگن اشمیدهوبر ارائه شد، و بعداً در سال ۲۰۰۰ میلادی توسط فیلیکس ژرس و دیگران بهبود داده شد.

یک بلوک حافظه طولانی کوتاه-مدت

فهرست

  • ۱ ایده
  • ۲ انواع
    • ۲.۱ معماری پایه
      • ۲.۱.۱ متغیرها
      • ۲.۱.۲ توابع فعال‌سازی
    • ۲.۲ معماری روزنه‌ای
    • ۲.۳ معماری پیچشی
  • ۳ جستارهای وابسته
  • ۴ منابع
  • ۵ پیوند به بیرون

ایده

یکی از مشکلات اصلی شبکه‌های عصبی بازگشتی، ناپدیدشدن مشتق(vanishing dradient) و انفجار مشتق (exploding gradient) است. در بلوک LSTM به منظورحل این دو مشکل، راه‌هایی برای انتقال اطلاعات مهم پیشین در هنگام پیشروی ایجاد شده‌است. این مهم به طور کلی از طریق ضرب بردارهایی تحت عنوان دروازه، در ورودی‌های بلوک صورت می‌پذیرد.

انواع

معماری پایه

معادلات مربوط به پیشروی (forward pass) در یک بلوک LSTM عبارتند از:

f t = σ g ( W f x t + U f h t − 1 + b f ) i t = σ g ( W i x t + U i h t − 1 + b i ) o t = σ g ( W o x t + U o h t − 1 + b o ) c t = f t ∘ c t − 1 + i t ∘ σ c ( W c x t + U c h t − 1 + b c ) h t = o t ∘ σ h ( c t )

  • c 0 = 0
  • h 0 = 0
  • عملگر ∘
    نشان دهنده ضرب هادامارد است.

متغیرها

  • x t ∈ R d
    : بردار ورودی
  • f t ∈ ( 0 , 1 ) h
    : بردار دروازه‌ی
  • c t ∈ R h
    : بردار سلول
  • h t ∈ ( − 1 , 1 ) h
    : بردار مخفی سلول (با عنوان خروجی سلول نیز شناخته می‌شود.)
  • W ∈ R h × d
    ، U ∈ R h × h
    و b ∈ R h
    : وزن‌ها و بایاس‌های مدل که در پروسه‌ی یادگیری، بهینه می‌شوند.
  • f t , i t , o t ∈ ( 0 , 1 ) h
    : بردارهای دروازه
    • f t
      : بردار دروازه فراموشی. وزن به یادداری اطلاعات قدیمی.
    • i t
      : بردار دروازه ورودی. وزن اندوختن اطلاعات جدید.
    • o t
      : بردار دروازه خروجی. کاندید خروجی.

بالانویس‌های d

و h
به ترتیب نشان‌دهنده بعد بردار ورودی و بعد بردار مخفی سلول هستند.

توابع فعال‌سازی

  • σ g
    : تابع فعال‌سازی دروازه‌ها(در LSTM پایه تابع سیگموئید است.)
  • σ c
    : تابع فعال‌سازی وضعیت سلول(در LSTM پایه تانژانت هذلولی است.)
  • σ h
    : تابع فعال‌سازی تابع اصلی یک تانژانت هذلولی است اما ال‌اس‌تی‌ام روزنه‌ای σ h ( x ) = x
    .

معماری روزنه‌ای

بلوک LSTM با اتصالات روزنه‌ای. h t − 1

استفاده نمی‌شود، در عوض از c t − 1
در بیش تر جاها استفاده می‌شود.

f t = σ g ( W f x t + U f c t − 1 + b f ) i t = σ g ( W i x t + U i c t − 1 + b i ) o t = σ g ( W o x t + U o c t − 1 + b o ) c t = f t ∘ c t − 1 + i t ∘ σ c ( W c x t + b c ) h t = o t ∘ σ h ( c t )

معماری پیچشی

در مسایل حاوی spatial data همچون تصویر به عنوان ورودی، معماری‌های کاملا متصل(Fully Connected) عملکرد خوبی دارند، اما از لحاظ محاسباتی نابهینه هستند. معماری پیچشی با جایگزینی عملگر پیچش به جای ضرب ماتریسی، سعی در حذف این نابهینگی دارد.

f t = σ g ( W f ∗ x t + U f ∗ h t − 1 + V f ∘ c t − 1 + b f ) i t = σ g ( W i ∗ x t + U i ∗ h t − 1 + V i ∘ c t − 1 + b i ) o t = σ g ( W o ∗ x t + U o ∗ h t − 1 + V o ∘ c t − 1 + b o ) c t = f t ∘ c t − 1 + i t ∘ σ c ( W c ∗ x t + U c ∗ h t − 1 + b c ) h t = o t ∘ σ h ( c t )

  • * نشان‌دهنده‌ی عملگر پیچش(Convolution) است.

جستارهای وابسته

  • کامپیوترهای عصبی مشتق‌پذیر
  • شبکه عصبی مصنوعی
  • Prefrontal Cortex Basal Ganglia Working Memory (PBWM)
  • شبکه‌های عصبی بازگشتی
  • Gated recurrent unit
  • سری‌های زمانی
  • توان‌بخشی طولانی-مدت
  • واحد بازگشتی دروازه‌ای

منابع

  1. ↑ Sepp Hochreiter; Jürgen Schmidhuber (1997). "Long short-term memory". Neural Computation. 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276.
  2. ↑ Felix A. Gers; Jürgen Schmidhuber; Fred Cummins (2000). "Learning to Forget: Continual Prediction with LSTM". Neural Computation. 12 (10): 2451–2471. doi:10.1162/089976600300015015.
  3. ↑ Klaus Greff, Rupesh Kumar Srivastava, Jan Koutník, Bas R. Steunebrink, Jürgen Schmidhuber. "LSTM: A Search Space Odyssey". arXiv:1503.04069.
  4. ↑ Xingjian Shi; Zhourong Chen; Hao Wang; Dit-Yan Yeung; Wai-kin Wong; Wang-chun Woo (2015). "Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting". Proceedings of the 28th International Conference on Neural Information Processing Systems: 802–810.

پیوند به بیرون

  • Recurrent Neural Network با بیش از ۳۰ مقاله ال‌اس‌تی‌ام توسط گروه یورگن اشمیدهوبر در IDSIA
  • تز دکترای ژرس در مورد شبکه‌های ال‌اس‌تی‌ام.
  • مقاله تشخیص تقلب با دو فصل اختصاص داده شده به توضیح شبکه‌های عصبی بازگشتی، به خصوص ال‌اس‌تی‌ام.
  • مقاله ای در مورد توسعه با کارایی بالای ال‌اس‌تی‌ام‌ها که به یک تک گره ساده‌سازی شده و می‌تواند معماری من درآوردی ای را آموزش دهد.
  • خودآموز: چگونه در پایتون با ثینو (theano) ال‌اس‌تی‌ام را پیاده‌سازی کنیم
آخرین نظرات
کلیه حقوق این تارنما متعلق به فرا دانشنامه ویکی بین است.