تشخیص دست خط
تشخیص دستنویس (HWR)، همچنین با عنوان تشخیص متن دست نویس (HTR) نیز شناخته میشود، توانایی رایانه برای دریافت و تفسیر ورودی دست نویس قابل فهم از منابع منبعی مانند اسناد کاغذی، عکس، صفحه نمایش لمسی و دستگاههای دیگر است. تصویر متن نوشته شده توسط اسکن نوری (تشخیص شخصیت نوری) یا تشخیص کلمه هوشمند میتواند «خارج از خط» باشد. از طرف دیگر، حرکات نوک قلم ممکن است «روی خط» احساس شود، به عنوان مثال توسط یک صفحه نمایش رایانه ای مبتنی بر قلم، یک کار معمولاً آسانتر است زیرا سرنخهای بیشتری در دسترس است. یک سیستم تشخیص دستخط، قالب بندی را انجام میدهد، تقسیمبندی صحیح را در کاراکترها انجام میدهد و محتملترین کلمات را پیدا میکند.
تشخیص خارج از خط
تشخیص دست نوشتههای خارج از خط شامل تبدیل خودکار متن در تصویر به کدهای حروف قابل استفاده در رایانه و برنامههای پردازش متن است. دادههای به دست آمده توسط این فرم به عنوان نمایشی استاتیک از دست نویس در نظر گرفته میشوند. تشخیص دست نوشتههای خارج از خط نسبتاً دشوار است، زیرا افراد مختلف دارای سبکهای مختلف نوشتاری هستند؛ و از امروز، موتورهای OCR در درجه اول به متن چاپ شده ماشینی و ICR برای متن «چاپ شده» (نوشته شده با حروف بزرگ) متمرکز شدهاند.
تکنیکهای سنتی
استخراج کاراکتر
تشخیص دست نوشتههای خارج از خط شامل تبدیل خودکار متن در تصویر به کدهای حروف قابل استفاده در رایانه و برنامههای پردازش متن است. دادههای به دست آمده توسط این فرم به عنوان نمایشی استاتیک از دست نویس در نظر گرفته میشوند. تشخیص دست نوشتههای خارج از خط نسبتاً دشوار است، زیرا افراد مختلف دارای سبکهای مختلف نوشتاری هستند؛ و از امروز، موتورهای OCR در درجه اول به متن چاپ شده ماشینی و ICR برای متن «چاپ شده» (نوشته شده با حروف بزرگ) متمرکز شدهاند.
شخصیتشناسی
پس از وقوع استخراج کاراکترهای فردی، از یک موتور شناسایی برای شناسایی شخصیت رایانه مربوطه استفاده میشود. چندین تکنیک تشخیص متفاوت در حال حاضر موجود است.
استخراج ویژگی
استخراج ویژگیها با روشی مشابه شناسههای شبکه عصبی کار میکند. با این حال، برنامه نویسان باید به صورت دستی خواصی را که احساس میکنند مهم هستند تعیین کنند. این روش به شناسه کنترل بیشتری در مورد ویژگیهای مورد استفاده در شناسایی میدهد. با این وجود، هر سیستمی با استفاده از این روش نیاز به توسعه قابل ملاحظه ای بیشتر از یک شبکه عصبی دارد زیرا این خصوصیات بهطور خودکار آموخته نمیشوند.
تکنیکهای مدرن
استخراج ویژگیها با روشی مشابه شناسههای شبکه عصبی کار میکند. با این حال، برنامه نویسان باید به صورت دستی خواصی را که احساس میکنند مهم هستند تعیین کنند. این روش به شناسه کنترل بیشتری در مورد ویژگیهای مورد استفاده در شناسایی میدهد. با این وجود، هر سیستمی با استفاده از این روش نیاز به توسعه قابل ملاحظه ای بیشتر از یک شبکه عصبی دارد زیرا این خصوصیات بهطور خودکار آموخته نمیشوند.
تشخیص آنلاین
به رسمیت شناختن دستنوشته به صورت آنلاین، تبدیل متن به صورت خودکار روی دیجیتایزر یا PDA، که در آن یک سنسور حرکات نوک قلم و همچنین تعویض قلم به بالا را انجام میدهد، شامل تبدیل خودکار متن است. این نوع دادهها به عنوان جوهر دیجیتال شناخته میشوند و میتوان آن را به عنوان یک نمایش دیجیتالی از دست نویس در نظر گرفت. سیگنال به دست آمده به کدهای حرف تبدیل میشود که در برنامههای رایانه ای و پردازش متن قابل استفاده هستند.
عناصر یک رابط تشخیص خط خطی بهطور معمول شامل موارد زیر است:
- یک قلم یا قلم برای کاربر که میتواند با آن بنویسد. یک سطح حساس به لمس، که ممکن است با یک صفحه نمایش خروجی با آن یا در مجاورت آن باشد. یک نرمافزار نرمافزاری که حرکات قلم را در سطح نوشتار تفسیر میکند و سکتههای حاصله را به متن دیجیتالی ترجمه میکند؛ و تشخیص خارج از خطا مشکل است.
روند کلی
فرایند تشخیص دست خط آنلاین را میتوان در چند مرحله کلی تقسیم کرد:
- پیش پردازش
- استخراج ویژگی و
- طبقهبندی
هدف از پیش پردازش دور انداختن اطلاعات نامربوط در دادههای ورودی است که میتواند بر شناخت تأثیر منفی بگذارد. [۳] این مربوط به سرعت و دقت است. پیش پردازش معمولاً از باریک سازی، عادی سازی، نمونه برداری، صاف کردن و جابجایی تشکیل میشود. [۴] مرحله دوم استخراج ویژگی است. از قسمت بردار دو یا چند بعدی دریافت شده از الگوریتمهای پیش پردازش، دادههای بعدی بالاتر استخراج میشوند. هدف از این مرحله برجسته کردن اطلاعات مهم برای مدل شناخت است. این دادهها ممکن است شامل اطلاعاتی مانند فشار قلم، سرعت یا تغییر جهت نوشتن باشد. آخرین مرحله بزرگ طبقهبندی است. در این مرحله از مدلهای مختلفی برای نقشهبرداری از ویژگیهای استخراج شده در کلاسهای مختلف و در نتیجه شناسایی کاراکترها یا کلماتی که ویژگیها نشان میدهند استفاده میشود.
سختافزار
محصولات تجاری با شناسایی دست نویس به عنوان جایگزینی برای ورودی صفحه کلید در اوایل دهه ۱۹۸۰ معرفی شدند. مثالها شامل پایانههای دست نویس مانند Pencept Penpad [5] و ترمینال نقطه فروش Inforite است. [۶] با روی کار آمدن بازار مصرف گسترده رایانههای شخصی، چندین محصول تجاری برای جایگزینی صفحه کلید و ماوس روی رایانه شخصی با یک سیستم اشاره گر / دست خط منفرد، مانند آنهایی که از PenCept ، [7] CIC [۸] و دیگران معرفی شدهاند. . اولین رایانه قابل حمل تبلت از نوع تجاری قابل دسترسی GRiDPad از GRiD Systems بود که در سپتامبر ۱۹۸۹ منتشر شد. سیستم عامل آن مبتنی بر MS-DOS بود.
در اوایل دهه ۱۹۹۰، سازندگان سختافزار از جمله NCR , IBM و EO رایانههای لوحی را منتشر کردند که سیستم عامل PenPoint را توسعه داده بودند و توسط GO Corp توسعه داده شده بودند. رایانه لوحی IBM اولین کسی بود که از نام ThinkPad استفاده کرد و از تشخیص دست خط IBM استفاده کرد. این سیستم به رسمیت شناختن بعداً به Microsoft Windows برای Pen Computing و IBM's Pen برای سیستم عامل / ۲ ارسال شد. هیچکدام از اینها از نظر تجاری موفق نبودند.
پیشرفت در الکترونیک باعث شد قدرت محاسباتی لازم برای تشخیص دستنویس در یک فاکتور شکل کوچکتر از رایانههای لوحی قرار بگیرد، و تشخیص دست خط اغلب به عنوان یک روش ورودی برای PDAهای دستی استفاده میشود. اولین PDA که ورودی کتبی را ارائه داد، اپل نیوتن بود که مردم را به مزیت یک رابط کاربری سادهتر در معرض دید عموم قرار داد. با این وجود، این دستگاه به دلیل غیرقابل اعتماد بودن نرمافزار، که سعی در یادگیری الگوهای نوشتن کاربر داشت، یک موفقیت تجاری نبود. در زمان انتشار سیستم عامل نیوتن ۲٫۰، که در آن تشخیص دستنویس بسیار بهبود یافتهاست، از جمله ویژگیهای منحصر به فردی که هنوز در سیستمهای تشخیص فعلی مانند تصحیح خطای مدلس یافت نمیشود، اولین تصور منفی بود. پس از قطع مصرف اپل نیوتون، این ویژگی به صورت سیستم عامل Inkwell (Macintosh) به Mac OS X 10.2 یا بعد از آن منتقل شدهاست.
پالم بعداً یک سری موفقیتآمیز از PDAها را بر اساس سیستم تشخیص گرافیتی راه اندازی کرد. گرافیتی با تعیین مجموعه ای از اشکال «بدون شک» یا یک زمانه برای هر شخصیت، قابلیت استفاده را بهبود بخشید. این امر امکان ورود به اشتباه را کاهش میدهد، اگرچه حفظ الگوهای سکته مغزی باعث افزایش منحنی یادگیری برای کاربر میشود. تشخیص دستخط گرافیتی برای نقض حق ثبت اختراع که توسط زیراکس برگزار شد، پیدا شد و پالم جایگزین گرافیتی را با یک نسخه دارای مجوز از شناسه دست نویس CIC کرد که ضمن حمایت از اشکال بدون لغو، از قبل ثبت اختراع زیراکس را نیز انجام داد. دادگاه یافتن از نقض تجدیدنظر برگردانده شد، و سپس در تجدید نظر بعدی دوباره معکوس شد. طرفین درگیر پس از آن مذاکره در مورد توافقنامه در مورد این و سایر اختراعات ثبت شده گرافیتی (Palm OS).
PC یک رایانه نوت بوک ویژه است که به یک تبلت دیجیتایزر و قلم مجهز است و به کاربر امکان میدهد متن را روی صفحه دستگاه دست نوشته کند. سیستم عامل دست خط را به رسمیت میشناسد و آن را به متن تحریر تبدیل میکند. ویندوز ویستا و ویندوز ۷ شامل ویژگیهای شخصیسازی هستند که الگوهای نوشتاری یا واژگان کاربر انگلیسی، ژاپنی، چینی سنتی، چینی ساده شده و کره ای را یادمیگیرند. این ویژگیها شامل «جادوگر شخصی سازی» میشوند که نمونههایی از دست نوشتههای کاربر را درخواست میکند و از آنها برای بازیابی سیستم برای تشخیص دقت بالاتر استفاده میکند. این سیستم با سیستم پیشرفته تر تشخیص دستنویس در سیستم عامل Windows Mobile برای PDAها متمایز است.
اگرچه تشخیص دستنویس یک فرم ورودی است که عموم مردم به آن عادت کردهاند، اما در رایانههای رومیزی یا لپ تاپ به کاربرد گستردهای نرسیده است. هنوز هم بهطور کلی پذیرفته شدهاست که ورودی صفحه کلید هم سریعتر و هم قابل اطمینان تر است. از سال ۲۰۰۶، بسیاری از PDAها دست نوشتهای را ارائه میدهند، گاهی اوقات حتی دست خط طبیعی را میپذیرند، اما دقت هنوز هم یک مشکل است، و برخی از مردم حتی یک صفحه کلید ساده روی صفحه نیز کارآمدتر مییابند.
نرمافزار
ماژولهای نرمافزاری اولیه میتوانند دست نویس چاپ را در جایی که کاراکترها از هم جدا شدهاند درک کنند. با این حال، نوشتن نوشتاری دست خط با شخصیتهای متصل، پارادوکس سیر را نشان میداد، مشکلی که در تقسیمبندی شخصیتها وجود دارد. اولین نویسنده برنامه تشخیص الگوی کاربردی در سال ۱۹۶۲ شلیا گوبمن، سپس در مسکو بود. [۹] نمونههای تجاری از شرکتهایی مانند ارتباطات اطلاعاتی و IBM گرفته شدهاست.
در اوایل دهه ۱۹۹۰، دو شرکت به نامهای ParaGraph International و Lexicus با سیستمهایی رو به رو شدند که میتوانند تشخیص خط دست خط را درک کنند. ParaGraph در روسیه مستقر شد و توسط دانشمند رایانه استپان پاچیکوف تأسیس شد و Lexicus توسط Ronjon Nag و Chris Kortge که در دانشگاه استنفورد دانشجو بودند، تأسیس شد. سیستم ParaGraph CalliGrapher در سیستمهای Apple Newton مستقر شد و سیستم Lexicus Longhand بهصورت تجاری برای سیستم عامل PenPoint و Windows ساخته شد. Lexicus در سال ۱۹۹۳ توسط موتورولا به دست آمد و به توسعه سیستمهای نوشتاری پیشبینی موتورنولا در چینی پرداخت. پاراگراف در سال ۱۹۹۷ توسط SGI بدست آمد و تیم تشخیص دستخط آن یک بخش P&I تشکیل دادند که بعداً توسط Vadem توسط SGI بدست آمد. مایکروسافت شناسایی دست نویس CalliGrafher و سایر فناوریهای جوهر دیجیتال را که توسط P&I از Vadem در ۱۹۹۹ ساخته شدهاست، به دست آورد.
Wolfram Mathematica (8.0 یا بالاتر) همچنین یک دست خط یا عملکرد تشخیص متن TextRecognize را فراهم میکند.
پژوهش
شناخت دست نویس دارای یک جامعه فعال از دانشگاهیان است که آن را مطالعه میکنند. بزرگترین کنفرانس برای تشخیص دستنویس، کنفرانس بینالمللی مرزهای شناختن دست نویس (ICFHR) است که در سالهای حتی عددی برگزار میشود، و کنفرانس بینالمللی تجزیه و تحلیل اسناد و شناسایی اسناد (ICDAR)، که در سالهای عجیب و غریب برگزار میشود. هر دو کنفرانس توسط IEEE و IAPR تأیید شدهاست. مناطق فعال تحقیقاتی شامل موارد زیر است:
- تشخیص آنلاین
- تشخیص آفلاین
- تأیید امضا تفسیر آدرس پستی پردازش بانکی شناخت نویسنده
نتایج از سال ۲۰۰۹
از سال ۲۰۰۹، شبکههای عصبی مکرر و شبکههای عصبی عمیق پیشرو در گروه تحقیقاتی یورگن اشمیتبر در آزمایشگاه آزمایشگاهی AI AI Swiss Swiss IDSIA، برنده چندین مسابقه بینالمللی دست نویس شدند. [۱۱] بهطور خاص، حافظه کوتاه مدت دو طرفه و چند بعدی بلند مدت (LSTM) [12] [13] از الکس گریوز و همکاران. در کنفرانس بینالمللی تجزیه و تحلیل اسناد و اسناد (ICDAR) در سال ۲۰۰۹ موفق به کسب سه رقابت در زمینه تشخیص دستنویس مرتبط شد، بدون آنکه دانش قبلی در مورد سه زبان مختلف (فرانسوی، عربی، فارسی) داشته باشید. روشهای یادگیری عمیق مبتنی بر GPU برای شبکههای فیدبک توسط Dan Ciresan و همکارانش در IDSIA برنده مسابقه ICDAR 2011 آفلاین تشخیص دستنویس چینی شدند. شبکههای عصبی آنها همچنین اولین شناسنده الگوی مصنوعی برای دستیابی به عملکرد رقابتی بشر [۱۴] در مسئله معروف رقمهای دست نویس MNIST [15] یان لکان و همکارانش در NYU بودند.
جستارهای وابسته
- اثر هوش مصنوعی کاربردهای هوش مصنوعی امضای الکترونیک تجزیه و تحلیل حرکت دست نویس تشخیص شخصیت هوشمند راه حل تشخیص شخصیت جوهر زنده Neocognitron تشخیص شخصیت نوری محاسبه قلم تشخیص طرح قلم (محاسبات) رایانه لوحی
منابع
مشارکتکنندگان ویکیپدیا. «Handwriting recognition». در دانشنامهٔ ویکیپدیای انگلیسی، بازبینیشده در ۱۰ ژوئیهٔ ۲۰۲۰.