شتاب‌دهنده هوش مصنوعی

شتاب‌دهنده هوش مصنوعی (به انگلیسی: AI accelerator) یک کلاس از شتاب‌دهنده‌های سخت‌افزاری یا سیستم کامپیوتریاست که برای شتاب دهندگی به برنامه‌های هوش مصنوعی و یادگیری ماشین، از جمله شبکه‌های عصبی مصنوعی و بینایی ماشین طراحی شده‌است. برنامه‌های کاربردی معمولی شامل الگوریتم‌هایی برای رباتیک، اینترنت اشیا، و سایر وظایف مبتنی بر داده یا حسگر است. این برنامه‌ها اغلب طرح‌های چند هسته‌ای هستند و عموماً روی محاسبات با دقت پایین ، معماری‌های جدید جریان داده یا قابلیت محاسبات درون حافظه تمرکز می‌کنند. تا به امروز، سال ۲۰۱۸، یک تراشه مدار مجتمع هوش مصنوعی عادی حاوی میلیاردها ترانزیستور ماسفت است. چندین اصطلاح خاص تجاری برای دستگاه‌های این گروه به کار می‌رود و این فناوری، یک فناوری نوظهور بدون طراحی فراگیر است.

تاریخ

سیستم‌های رایانه‌ای اغلب واحد پردازش مرکزی را با شتاب‌دهنده‌های ویژه برای کارهای تخصصی تکمیل می‌کنند که به عنوان کمک پردازنده شناخته می‌شوند. واحدهای سخت‌افزاری ویژه برنامه کاربردی شامل کارت‌های گرافیکی، کارت‌های صدا، واحدهای پردازش گرافیکی و پردازنده‌های سیگنال دیجیتال هستند. همان‌طور که در دهه ۲۰۱۰ کاربردهای یادگیری عمیق و هوش مصنوعی افزایش یافت، واحدهای سخت‌افزاری تخصیص یافته نیز از محصولات موجود توسعه یافتند تا به اعمال این الگوریتم‌ها شتاب دهند

تلاش‌های ابتدایی

اولین طراحی‌ها مانند ETANN 80170NXاز شرکت اینتل، مدارهای آنالوگ را برای محاسبه توابع عصبی دخیل کرده بودند. نمونه دیگری از تراشه‌های این گروه، ANNA است که یک شتاب‌دهنده شبکه عصبی CMOS است که توسط Yann LeCun توسعه یافته‌است. بعداً نیز تمام تراشه‌های دیجیتال مانند Nestor/Intel Ni1000 از این تراشه الگو برداری کردند.

در اوایل سال ۱۹۹۳، پردازنده‌های سیگنال دیجیتال در زمینه‌هایی مانند سرعت بخشیدن به نرم‌افزار تشخیص کاراکتر نوری، به عنوان شتاب‌دهنده شبکه عصبی، مورد استفاده قرار گرفتند.

در دهه ۱۹۹۰ نیز تلاش‌هایی برای ایجاد سیستم‌های موازی با توان عملیاتی بالا برای محیط‌های کاری با هدف کاربردهای گوناگون از جمله شبیه‌سازی شبکه‌های عصبی صورت گرفت. شتاب‌دهنده‌های با مبنای FPGA نیز نخستین بار در دهه ۱۹۹۰ برای استدلال و استنباط و آموزش مورد بررسی قرار گرفتند. گوشی‌های هوشمند نیز شروع به توسعه شتاب‌دهنده‌های هوش مصنوعی کردند که اولین نمونه آن Qualcomm Snapdragon 820 بود که در سال ۲۰۱۵ میلادی طراحی شد.

محاسبات ناهمگن

محاسبات ناهمگن به معنی ترکیب تعدادی پردازنده تخصیص یافته در یک سیستم یا حتی یک تراشه واحد است که هر یک برای وظیفهٔ خاصی طراحی شده‌اند. معماری‌هایی مانند ریزپردازنده سلولی دارای خصوصیاتی هستند که دارای اشتراک‌های زیادی با شتاب‌دهنده‌های هوش مصنوعی هستند، از جمله: پشتیبانی از محاسبات با دقت محدود، معماری جریان داده، و اولویت دادن به «نتیجه» بر زمان مورد نیاز. ریزپردازنده سلولی بعداً برای تعدادی از وظایف از جمله هوش مصنوعی به کار گرفته شدند.

در دهه ۲۰۰۰، واحدهای پردازش مرکزی همچنان واحدهای SIMD گسترده‌تری را به دست آوردند که ناشی از کاربردشان در ویدئو و بازی و پشتیبانی از انواع داده‌های ساختار یافته با دقت پایین بود.

به دلیل افزایش کارایی واحدهای پردازش مرکزی، از آنها برای انجام وظایف الگوریتم‌های هوش مصنوعی نیز استفاده می‌شود. پردازنده‌های مرکزی برای DNNهای با موازی‌سازی در مقیاس کوچک یا متوسط نسبت به DNNهای پراکنده و در طراحی‌های با حجم کم، برتر هستند.

استفاده از GPU

این مقاله در حال ترجمه از ویکی انگلیسی است

لطفاً حذف نشود.

واحدهای پردازش گرافیکی یا GPUها، سخت‌افزارهای تخصیص یافته‌ای برای اعمال تغییرات بر روی تصاویر و محاسبه خصوصیات تصاویر هستند. اساس ریاضی شبکه‌های عصبی و الگوریتم‌های تغییر تصاویر، اعمال مشابه و مستقلاً موازی ای شامل ماتریس‌ها هستند که باعث شده‌اند پردازنده‌های گرافیکی به‌طور روزافزون برای راه اندازی الگوریتم‌های یادگیری ماشین استفاده شوند.

تا به امروز، سال ۲۰۱۶، واحدهای پردازش گرافیکی برای راه اندازی الگوریتم‌های هوش مصنوعی محبوب هستند و به تکامل خود ادامه می‌دهند تا یادگیری عمیق را، هم برای آموزش و هم برای استنباط در دستگاه‌هایی مانند ماشین‌های خودران، مجهزتر کنند. توسعه دهندگان GPUها مانند Nvidia NVLink، در حال توسعه توانایی اتصال این سخت‌افزارها به جریان داده‌هایی هستند که الگوریتم‌های هوش مصنوعی از آن بهره می‌برند. از آنجایی که واحدهای پردازش گرافیکی به‌طور روزافزون در شتاب دهندگی به الگوریتم‌های هوش مصنوعی به کار می‌روند، تولیدکنندگان واحدهای پردازش گرافیکی، سخت‌افزارهایی تخصیص یافته برای شبکه‌های عصبی مصنوعی را برای سرعت بخشیدن بیشتر به این الگوریتم‌ها در نظر گرفته‌اند. هسته‌های تانسوری برای سرعت بخشیدن به آموزش شبکه‌های عصبی در نظر گرفته شده‌اند.

بکارگیری FPGA

محیط‌های کاری یادگیری عمیق همچنان در حال تکامل و رشد هستند که باعث سخت شدن طراحی سخت‌افزارهای تخصیص یافته شده‌است. دستگاه‌های با قابلیت تنظیم مجدد مانند آرایه‌های دروازه قابل برنامه‌ریزی میدانی (FPGA)، تکامل سخت‌افزارها، محیط‌های کاری و نرم‌افزارها را در کنار یکدیگر آسان‌تر می‌کنند.

شرکت مایکروسافت نیز از تراشه‌های FPGA برای سرعت بخشیدن استنتاج بهره برده‌است.

ظهور شتاب‌دهنده‌های تخصیص یافتهٔ هوش مصنوعی

با اینکه که واحدهای پردازش گرافیکی و FPGA برای وظایف مرتبط با هوش مصنوعی عملکرد بسیار بهتری نسبت به CPUها دارند، اما همچنان ممکن است با طراحی‌های خاص تر بازدهی ای تا ۱۰ برابر از طریق یک مدار مجتمع مختص برنامه یا ASIC به دست آید.این شتاب‌دهنده‌ها از رویکردهایی مانند استفاده بهینه از حافظه یا انجام محاسبات با دقت محدودتر برای افزایش سرعت و توان عملیاتی محاسبات بهره می‌برند. برخی از چارچوب‌های ممیز شناور که با شتاب دهندگی هوش مصنوعی با دقت پایین استفاده می‌کنند، نیم-دقت و ممیز شناور bfloat16 هستند. شرکت‌هایی مانند گوگل، کوالکام، آمازون، اپل، فیس بوک، AMD و سامسونگ همگی در حال طراحی AI ASIC خود هستند.

معماری‌های محاسباتی درون حافظه ای

در ژوئن ۲۰۱۷، پژوهشگران IBM معماری ای را بر خلاف معماری فون نیومن معرفی کردند که متکی بر محاسبات درون حافظه ای و آرایه‌های حافظهٔ تغییر فاز دهنده است که برای تشخیص همبستگی زمانی اعمال می‌شود و قصد توسعه رویکرد محاسبات ناهمگن و سیستم‌های موازی حجیم را دارند.

همچنین در اکتبر ۲۰۱۸، محققان IBM معماری ای متکی بر پردازش درون حافظه ای و مدل‌سازی شده از شبکه سیناپسی مغز انسان را برای شتاب دهندگی به شبکه‌های عصبی عمیق معرفی کردند. این سیستم بر اساس آرایه‌های حافظهٔ تغییر فاز دهنده است.

محاسبات درون حافظه ای با حافظه‌های مقاومتی آنالوگ

در سال ۲۰۱۹، محققان از مؤسسه Politecnico di Milano راه حلی از طریق یک عملیات واحد برای حل سیستم‌های معادلات خطی در چند ده نانوثانیه یافتند. الگوریتم آنها متکی بر محاسبات درون حافظه ای با حافظه‌های مقاومتی آنالوگ بود که از طریق محاسبه ضرب ماتریس-بردار در یک گام با استفاده از قانون اهم و قانون کیرشهوف، کار می‌کرد که بازدهی بالایی در زمان و انرژی داشت.

پژوهشگران نشان دادند که یک مدار بازخوردی با حافظه‌های مقاومتی نقطه متقاطع می‌تواند مسائل جبری مانند سیستم‌های معادلات خطی، بردارهای ویژه ماتریس و معادلات دیفرانسیل را تنها در یک گام حل کند. چنین رویکردی زمان مورد نیاز برای محاسبات را در مقایسه با الگوریتم‌های دیجیتال به طرز چشم‌گیری کاهش می‌دهد.

نیمه رساناهای نازک اتمی

در سال ۲۰۲۰ میلادی، Marega و همکارانش. آزمایش‌هایی را با یک ماده تونل فعال با مساحت بزرگ برای توسعه دستگاه‌ها و مدارهای منطقی در حافظه بر اساس ترانزیستورهای اثر میدانی دروازه شناور (FGFET) معرفی کردند. چنین نیمه رساناهای نازک اتمی ای برای برنامه‌های پرکاربرد یادگیری ماشینی با انرژی کارا مورد استفاده قرار می‌گیرند، جایی که ساختار اصلی دستگاه برای عملیات منطقی و ذخیره داده‌ها استفاده می‌شود. این پژوهشگران مواد دو بعدی مانند دی سولفید مولیبدن که نیمه رسانا است را به کار گرفتند.

هسته مجتمع تانسور فوتونیک

در سال ۲۰۲۱ میلادی، J. Feldmann و همکارانش، یک شتاب‌دهنده سخت‌افزاری فوتونیک مجتمع برای پردازش کانولوشنی موازی ارائه کردند. نویسندگان دو مزیت کلیدی فوتونیک مجتمع را نسبت به همتایان الکترونیکی آن مورد بررسی قرار دادند که آنها عبارتند از: (۱) انتقال انبوه داده موازی از طریق مالتی پلکسی تقسیم طول موج در ترکیب با شانه‌های فرکانسی، و (۲) سرعت تلفیق بسیار بالای داده‌ها. سیستم آن‌ها می‌تواند تریلیون‌ها عملیات انباشته چند برابری را در ثانیه پردازش کند که نشان‌دهنده پتانسیل فوتونیک مجتمع در برنامه‌های کاربردی هوش مصنوعی با داده‌های حجیم است.

نامگذاری

از سال ۲۰۱۶ میلادی، این زمینه هنوز در جریان است و فروشندگان، اصطلاح تجاری خود را برای معادل «شتاب‌دهنده هوش مصنوعی» مطرح می‌کنند، به این امید که طرح‌ها و API‌هایشان به طرح غالب در این زمینه تبدیل شود. با وجود آنکه هیچ نقطه نظر مشترکی در مورد مرز بین این دستگاه‌ها و همچنین شکل دقیق آنها وجود ندارد، اما چندین نمونه به جهت پر کردن این فضای جدید، با مقدار قابل توجهی از همپوشانی در قابلیت‌ها، اختصاص یافته‌اند.

در نهایت، زمانی که شتاب‌دهنده‌های گرافیکی مصرف‌کننده روی کار آمدند، صنعت در نهایت اصطلاح به کار برده شده توسط شرکت Nvidia، یعنی "GPU" را به عنوان اسم جمع برای «شتاب‌دهنده‌های گرافیکی» سط Direct3D، شکل‌های مختلفی به خود گرفته بود.

کاربردهای بالقوه

ربات‌های کشاورزی، به عنوان مثال کنترل علف‌های هرز بدون علف کش.
وسایل نقلیه خودمختار: انویدیا بردهای سری Drive PX خود را در این برنامه هدف قرار داده‌است.
تشخیص به کمک کامپیوتر
ربات‌های صنعتی، با افزودن قابلیت انطباق به موقعیت‌های متغیر، دامنه کارهایی را که می‌توانند خودکار شوند را افزایش می‌دهند.
ترجمه ماشینی
روبات‌های نظامی
پردازش زبان طبیعی
موتورهای جستجو، افزایش بهره‌وری انرژی مراکز داده و توانایی استفاده از پرس و جو پیشرفته روزافزون.
وسایل نقلیه هوایی بدون سرنشین، به عنوان مثال سیستم‌های ناوبری، مثال دیگرMovidius Myriad 2 است که نشان داده شده‌است که با موفقیت هواپیماهای بدون سرنشین خودران را هدایت می‌کند.
رابط کاربری صوتی، به عنوان مثال در تلفن‌های همراه، هدف Qualcomm Zeroth.

جستارهای وابسته

کامپیوتر شناختی
پردازنده یادگیری عمیق
محاسبات نورومورفیک
شبکه عصبی نوری
شبکه عصبی فیزیکی

منابع

↑ "Intel unveils Movidius Compute Stick USB AI Accelerator". July 21, 2017. Archived from the original on August 11, 2017. Retrieved August 11, 2017.
↑ "Inspurs unveils GX4 AI Accelerator". June 21, 2017.
↑ Wiggers, Kyle (November 6, 2019) [2019], Neural Magic raises $15 million to boost AI inferencing speed on off-the-shelf processors, archived from the original on March 6, 2020, retrieved March 14, 2020
↑ "Google Designing AI Processors". Google using its own AI accelerators.
↑ "13 Sextillion & Counting: The Long & Winding Road to the Most Frequently Manufactured Human Artifact in History". Computer History Museum. April 2, 2018. Retrieved July 28, 2019.
↑ John C. Dvorak: Intel’s 80170 chip has the theoretical intelligence of a cockroach in PC Magazine Volume 9 Number 10 (May 1990), p. 77,, retrieved May 16, 2021
↑ "Application of the ANNA Neural Network Chip to High-Speed Character Recognition" (PDF).
↑ "convolutional neural network demo from 1993 featuring DSP32 accelerator".
↑ "design of a connectionist network supercomputer".
↑ "The end of general purpose computers (not)".This presentation covers a past attempt at neural net accelerators, notes the similarity to the modern SLI GPGPU processor setup, and argues that general purpose vector accelerators are the way forward (in relation to RISC-V hwacha project. Argues that NN's are just dense and sparse matrices, one of several recurring algorithms)
↑ "Space Efficient Neural Net Implementation".
↑ "Qualcomm Helps Make Your Mobile Devices Smarter With New Snapdragon Machine Learning Software Development Kit". Qualcomm.
↑ Rubin, Ben Fox. "Qualcomm's Zeroth platform could make your smartphone much smarter". CNET (به انگلیسی). Retrieved September 28, 2021.
↑ Gschwind, Michael; Hofstee, H. Peter; Flachs, Brian; Hopkins, Martin; Watanabe, Yukio; Yamazaki, Takeshi (2006). "Synergistic Processing in Cell's Multicore Architecture". IEEE Micro. 26 (2): 10–24. doi:10.1109/MM.2006.41.
↑ De Fabritiis, G. (2007). "Performance of Cell processor for biomolecular simulations". Computer Physics Communications. 176 (11–12): 660–664. arXiv:physics/0611201. doi:10.1016/j.cpc.2007.02.107.
↑ "Development of an artificial neural network on a heterogeneous multicore architecture to predict a successful weight loss in obese individuals" (PDF). Archived from the original (PDF) on 30 August 2017. Retrieved 2 January 2022.
↑ "Improving the performance of video with AVX". February 8, 2012.
↑ "microsoft research/pixel shaders/MNIST".
↑ "How GPU came to be used for general computation".
↑ "ImageNet Classification with Deep Convolutional Neural Networks" (PDF).
↑ "nvidia driving the development of deep learning". May 17, 2016.
↑ "Nvidia introduces supercomputer for self driving cars". January 6, 2016.
↑ "how nvlink will enable faster easier multi GPU computing". November 14, 2014.
↑ "A Survey on Optimized Implementation of Deep Learning Models on the NVIDIA Jetson Platform", 2019
↑ Harris, Mark (May 11, 2017). "CUDA 9 Features Revealed: Volta, Cooperative Groups and More". Retrieved August 12, 2017.
↑ Sefat, Md Syadus; Aslan, Semih; Kellington, Jeffrey W; Qasem, Apan (August 2019). "Accelerating HotSpots in Deep Neural Networks on a CAPI-Based FPGA". 2019 IEEE 21st International Conference on High Performance Computing and Communications; IEEE 17th International Conference on Smart City; IEEE 5th International Conference on Data Science and Systems (HPCC/SmartCity/DSS): 248–256. doi:10.1109/HPCC/SmartCity/DSS.2019.00048. ISBN 978-1-72812-058-4.
↑ "FPGA Based Deep Learning Accelerators Take on ASICs". The Next Platform. August 23, 2016. Retrieved September 7, 2016.
↑ "Project Brainwave". Microsoft Research (به انگلیسی). Retrieved June 16, 2020.
↑ "Google boosts machine learning with its Tensor Processing Unit". May 19, 2016. Retrieved September 13, 2016.
↑ "Chip could bring deep learning to mobile devices". www.sciencedaily.com. February 3, 2016. Retrieved September 13, 2016.
↑ "Deep Learning with Limited Numerical Precision" (PDF).
↑ Khari Johnson (May 23, 2018). "Intel unveils Nervana Neural Net L-1000 for accelerated AI training". VentureBeat. Retrieved May 23, 2018. ...Intel will be extending bfloat16 support across our AI product lines, including Intel Xeon processors and Intel FPGAs.
↑ Michael Feldman (May 23, 2018). "Intel Lays Out New Roadmap for AI Portfolio". TOP500 Supercomputer Sites. Retrieved May 23, 2018. Intel plans to support this format across all their AI products, including the Xeon and FPGA lines
↑ Lucian Armasu (May 23, 2018). "Intel To Launch Spring Crest, Its First Neural Network Processor, In 2019". Tom's Hardware. Retrieved May 23, 2018. Intel said that the NNP-L1000 would also support bfloat16, a numerical format that’s being adopted by all the ML industry players for neural networks. The company will also support bfloat16 in its FPGAs, Xeons, and other ML products. The Nervana NNP-L1000 is scheduled for release in 2019.
↑ "Available TensorFlow Ops | Cloud TPU | Google Cloud". Google Cloud. Retrieved May 23, 2018. This page lists the TensorFlow Python APIs and graph operators available on Cloud TPU.
↑ Elmar Haußmann (April 26, 2018). "Comparing Google's TPUv2 against Nvidia's V100 on ResNet-50". RiseML Blog. Archived from the original on April 26, 2018. Retrieved May 23, 2018. For the Cloud TPU, Google recommended we use the bfloat16 implementation from the official TPU repository with TensorFlow 1.7.0. Both the TPU and GPU implementations make use of mixed-precision computation on the respective architecture and store most tensors with half-precision.
↑ "Google Reveals a Powerful New AI Chip and Supercomputer". MIT Technology Review (به انگلیسی). Retrieved July 27, 2021.
↑ "What to Expect From Apple's Neural Engine in the A11 Bionic SoC – ExtremeTech". www.extremetech.com. Retrieved July 27, 2021.
↑ "Facebook has a new job posting calling for chip designers".
↑ "Facebook joins Amazon and Google in AI chip race". www.ft.com.
↑ Amadeo, Ron (May 11, 2021). "Samsung and AMD will reportedly take on Apple's M1 SoC later this year". Ars Technica (به انگلیسی). Retrieved July 28, 2021.
↑ Smith, Ryan. "The AI Race Expands: Qualcomm Reveals "Cloud AI 100" Family of Datacenter AI Inference Accelerators for 2020". www.anandtech.com. Retrieved September 28, 2021.
↑ Abu Sebastian; Tomas Tuma; Nikolaos Papandreou; Manuel Le Gallo; Lukas Kull; Thomas Parnell; Evangelos Eleftheriou (2017). "Temporal correlation detection using computational phase-change memory". Nature Communications. 8 (1): 1115. arXiv:1706.00511. doi:10.1038/s41467-017-01481-9. PMC 5653661. PMID 29062022.
↑ "A new brain-inspired architecture could improve how computers handle data and advance AI". American Institute of Physics. October 3, 2018. Retrieved October 5, 2018.
↑ Zhong Sun; Giacomo Pedretti; Elia Ambrosi; Alessandro Bricalli; Wei Wang; Daniele Ielmini (2019). "Solving matrix equations in one step with cross-point resistive arrays". Proceedings of the National Academy of Sciences. 116 (10): 4123–4128. doi:10.1073/pnas.1815682116. PMC 6410822. PMID 30782810.
↑ Marega, Guilherme Migliato; Zhao, Yanfei; Avsar, Ahmet; Wang, Zhenyu; Tripati, Mukesh; Radenovic, Aleksandra; Kis, Anras (2020). "Logic-in-memory based on an atomically thin semiconductor". Nature. 587 (2): 72–77. doi:10.1038/s41586-020-2861-0. PMC 7116757. PMID 33149289.
↑ Feldmann, J.; Youngblood, N.; Karpov, M.; et al. (2021). "Parallel convolutional processing using an integrated photonic tensor". Nature. 589 (2): 52–58. arXiv:2002.00281. doi:10.1038/s41586-020-03070-1. PMID 33408373.
↑ "NVIDIA launches the World's First Graphics Processing Unit, the GeForce 256".
↑ "Design of a machine vision system for weed control" (PDF). CiteSeerX 10.1.1.7.342. Archived from the original on June 23, 2010. Retrieved July 29, 2021.
↑ "Self-Driving Cars Technology & Solutions from NVIDIA Automotive". NVIDIA.
↑ "movidius powers worlds most intelligent drone". March 16, 2016.
↑ "Qualcomm Research brings server class machine learning to everyday devices–making them smarter [VIDEO]". October 2015.

پیوند به بیرون

انویدیا با Pascal.htm شتاب‌دهنده را به فلز تبدیل می‌کند، نسل بعدی پلتفرم
پروژه Eyeriss , MIT
https://alphaics.ai/

[1] "Intel unveils Movidius Compute Stick USB AI Accelerator". July 21, 2017. Archived from the original on August 11, 2017. Retrieved August 11, 2017.

[2] "Inspurs unveils GX4 AI Accelerator". June 21, 2017.

[3] Wiggers, Kyle (November 6, 2019) [2019], Neural Magic raises $15 million to boost AI inferencing speed on off-the-shelf processors, archived from the original on March 6, 2020, retrieved March 14, 2020

[4] "Google Designing AI Processors". Google using its own AI accelerators.

[computerhistory2018-5] "13 Sextillion & Counting: The Long & Winding Road to the Most Frequently Manufactured Human Artifact in History". Computer History Museum. April 2, 2018. Retrieved July 28, 2019.

[6] John C. Dvorak: Intel’s 80170 chip has the theoretical intelligence of a cockroach in PC Magazine Volume 9 Number 10 (May 1990), p. 77,, retrieved May 16, 2021

[7] "Application of the ANNA Neural Network Chip to High-Speed Character Recognition" (PDF).

[8] "convolutional neural network demo from 1993 featuring DSP32 accelerator".

[krste-9] "design of a connectionist network supercomputer".

[krste_general_purpose-10] "The end of general purpose computers (not)".This presentation covers a past attempt at neural net accelerators, notes the similarity to the modern SLI GPGPU processor setup, and argues that general purpose vector accelerators are the way forward (in relation to RISC-V hwacha project. Argues that NN's are just dense and sparse matrices, one of several recurring algorithms)

[fpga-inference-11] "Space Efficient Neural Net Implementation".

[12] "Qualcomm Helps Make Your Mobile Devices Smarter With New Snapdragon Machine Learning Software Development Kit". Qualcomm.

[13] Rubin, Ben Fox. "Qualcomm's Zeroth platform could make your smartphone much smarter". CNET (به انگلیسی). Retrieved September 28, 2021.

[cell-14] Gschwind, Michael; Hofstee, H. Peter; Flachs, Brian; Hopkins, Martin; Watanabe, Yukio; Yamazaki, Takeshi (2006). "Synergistic Processing in Cell's Multicore Architecture". IEEE Micro. 26 (2): 10–24. doi:10.1109/MM.2006.41.

[15] De Fabritiis, G. (2007). "Performance of Cell processor for biomolecular simulations". Computer Physics Communications. 176 (11–12): 660–664. arXiv:physics/0611201. doi:10.1016/j.cpc.2007.02.107.

[16] "Development of an artificial neural network on a heterogeneous multicore architecture to predict a successful weight loss in obese individuals" (PDF). Archived from the original (PDF) on 30 August 2017. Retrieved 2 January 2022.

[17] "Improving the performance of video with AVX". February 8, 2012.

[18] "microsoft research/pixel shaders/MNIST".

[19] "How GPU came to be used for general computation".

[20] "ImageNet Classification with Deep Convolutional Neural Networks" (PDF).

[21] "nvidia driving the development of deep learning". May 17, 2016.

[22] "Nvidia introduces supercomputer for self driving cars". January 6, 2016.

[23] "how nvlink will enable faster easier multi GPU computing". November 14, 2014.

[24] "A Survey on Optimized Implementation of Deep Learning Models on the NVIDIA Jetson Platform", 2019

[CUDA9-25] Harris, Mark (May 11, 2017). "CUDA 9 Features Revealed: Volta, Cooperative Groups and More". Retrieved August 12, 2017.

[26] Sefat, Md Syadus; Aslan, Semih; Kellington, Jeffrey W; Qasem, Apan (August 2019). "Accelerating HotSpots in Deep Neural Networks on a CAPI-Based FPGA". 2019 IEEE 21st International Conference on High Performance Computing and Communications; IEEE 17th International Conference on Smart City; IEEE 5th International Conference on Data Science and Systems (HPCC/SmartCity/DSS): 248–256. doi:10.1109/HPCC/SmartCity/DSS.2019.00048. ISBN 978-1-72812-058-4.

[27] "FPGA Based Deep Learning Accelerators Take on ASICs". The Next Platform. August 23, 2016. Retrieved September 7, 2016.

[28] "Project Brainwave". Microsoft Research (به انگلیسی). Retrieved June 16, 2020.

[29] "Google boosts machine learning with its Tensor Processing Unit". May 19, 2016. Retrieved September 13, 2016.

[30] "Chip could bring deep learning to mobile devices". www.sciencedaily.com. February 3, 2016. Retrieved September 13, 2016.

[lowprecision-31] "Deep Learning with Limited Numerical Precision" (PDF).

[32] Khari Johnson (May 23, 2018). "Intel unveils Nervana Neural Net L-1000 for accelerated AI training". VentureBeat. Retrieved May 23, 2018. ...Intel will be extending bfloat16 support across our AI product lines, including Intel Xeon processors and Intel FPGAs.

[top5_Inte-33] Michael Feldman (May 23, 2018). "Intel Lays Out New Roadmap for AI Portfolio". TOP500 Supercomputer Sites. Retrieved May 23, 2018. Intel plans to support this format across all their AI products, including the Xeon and FPGA lines

[toms_Inte-34] Lucian Armasu (May 23, 2018). "Intel To Launch Spring Crest, Its First Neural Network Processor, In 2019". Tom's Hardware. Retrieved May 23, 2018. Intel said that the NNP-L1000 would also support bfloat16, a numerical format that’s being adopted by all the ML industry players for neural networks. The company will also support bfloat16 in its FPGAs, Xeons, and other ML products. The Nervana NNP-L1000 is scheduled for release in 2019.

[clou_Avai-35] "Available TensorFlow Ops | Cloud TPU | Google Cloud". Google Cloud. Retrieved May 23, 2018. This page lists the TensorFlow Python APIs and graph operators available on Cloud TPU.

[blog_Comp-36] Elmar Haußmann (April 26, 2018). "Comparing Google's TPUv2 against Nvidia's V100 on ResNet-50". RiseML Blog. Archived from the original on April 26, 2018. Retrieved May 23, 2018. For the Cloud TPU, Google recommended we use the bfloat16 implementation from the official TPU repository with TensorFlow 1.7.0. Both the TPU and GPU implementations make use of mixed-precision computation on the respective architecture and store most tensors with half-precision.

[37] "Google Reveals a Powerful New AI Chip and Supercomputer". MIT Technology Review (به انگلیسی). Retrieved July 27, 2021.

[38] "What to Expect From Apple's Neural Engine in the A11 Bionic SoC – ExtremeTech". www.extremetech.com. Retrieved July 27, 2021.

[39] "Facebook has a new job posting calling for chip designers".

[40] "Facebook joins Amazon and Google in AI chip race". www.ft.com.

[41] Amadeo, Ron (May 11, 2021). "Samsung and AMD will reportedly take on Apple's M1 SoC later this year". Ars Technica (به انگلیسی). Retrieved July 28, 2021.

[42] Smith, Ryan. "The AI Race Expands: Qualcomm Reveals "Cloud AI 100" Family of Datacenter AI Inference Accelerators for 2020". www.anandtech.com. Retrieved September 28, 2021.

[43] Abu Sebastian; Tomas Tuma; Nikolaos Papandreou; Manuel Le Gallo; Lukas Kull; Thomas Parnell; Evangelos Eleftheriou (2017). "Temporal correlation detection using computational phase-change memory". Nature Communications. 8 (1): 1115. arXiv:1706.00511. doi:10.1038/s41467-017-01481-9. PMC 5653661. PMID 29062022.

[44] "A new brain-inspired architecture could improve how computers handle data and advance AI". American Institute of Physics. October 3, 2018. Retrieved October 5, 2018.

[45] Zhong Sun; Giacomo Pedretti; Elia Ambrosi; Alessandro Bricalli; Wei Wang; Daniele Ielmini (2019). "Solving matrix equations in one step with cross-point resistive arrays". Proceedings of the National Academy of Sciences. 116 (10): 4123–4128. doi:10.1073/pnas.1815682116. PMC 6410822. PMID 30782810.

[atomthin-46] Marega, Guilherme Migliato; Zhao, Yanfei; Avsar, Ahmet; Wang, Zhenyu; Tripati, Mukesh; Radenovic, Aleksandra; Kis, Anras (2020). "Logic-in-memory based on an atomically thin semiconductor". Nature. 587 (2): 72–77. doi:10.1038/s41586-020-2861-0. PMC 7116757. PMID 33149289.

[photonic-47] Feldmann, J.; Youngblood, N.; Karpov, M.; et al. (2021). "Parallel convolutional processing using an integrated photonic tensor". Nature. 589 (2): 52–58. arXiv:2002.00281. doi:10.1038/s41586-020-03070-1. PMID 33408373.

[48] "NVIDIA launches the World's First Graphics Processing Unit, the GeForce 256".

[49] "Design of a machine vision system for weed control" (PDF). CiteSeerX 10.1.1.7.342. Archived from the original on June 23, 2010. Retrieved July 29, 2021.

[50] "Self-Driving Cars Technology & Solutions from NVIDIA Automotive". NVIDIA.

[51] "movidius powers worlds most intelligent drone". March 16, 2016.

[52] "Qualcomm Research brings server class machine learning to everyday devices–making them smarter [VIDEO]". October 2015.