برچسبگذاری جزء کلام
در زبانشناسی پیکرهای، برچسبگذاری جزء کلام (به انگلیسی: Part-of-speech tagging) یا برچسبگذاری دستوری یا ابهامزدایی رده واژه، فرایند برچسبگذاری یک واژه در یک متن است، که آن برچسب متناظر با رده جزء کلامی خاص آن واژه میباشد. این تناظر بر اساس «تعریف واژه» و نیز «بافت واژه» (یعنی رابطه آن با واژه های مجاور و مرتبط در عبارت، جمله، یا بند (پاراگراف)) تعیین می شود.
به برچسبزنی جزء کلام، برچسبگذاری POS، یا برچسبگذاری PoS، یا POST نیز میگویند.
بعضی کلمات ممکن است یک یا چند برچسب داشتهباشند. اگر یک کلمه بیش از یک برچسب داشتهباشد، نیاز به ابهامزدایی دارد.
برچسبگذاری اجزای کلام، بنا به روشِ انجام کار، هم بهصورت دستی انجام میشود و هم در آن از الگوریتمهای برچسبگذاری مختلفی استفاده میشود. ازجملهٔ این الگوریتمها میتوان به مدل مخفی مارکوف، الگوریتم باوم-ولچ، و برآورد درستنمایی بیشینه اشاره کرد.
تاکنون از روشهای برچسبگذاری گوناگونی در زبانهای مختلف استفاده شدهاست. این روشها را میتوان به دو دستهٔ اصلی تقسیمبندی کرد: اولین دسته روشهای آماری است که با استفاده از پیکرههای برچسبخورده انجام میشوند. دستهٔ دوم، روشهای غیرآماری است که با استفاده از یادگیری ماشین، برچسبگذاری را انجام میدهند.
تاریخچه
پیکرهٔ براون
اولین پیکرهٔ بزرگِ ساختهشده برای زبان انگلیسی، پیکرهٔ براون بودهاست. این پیکره در اواسط دههٔ ۱۹۶۰ میلادی در دانشگاه براون ایالات متحده ساخته شد. این پیکره دارای حدود یکمیلیون کلمه (۵۰۰ متنِ تقریباً ۲۰۰۰کلمهای) است که با استفاده از یک برنامه، که دارای فهرستی از برچسبهای مختلف بود، برچسبگذاری شد.
صحّت و درستیِ برچسبگذاری در پیکرهٔ براون ۷۰٪ بود. بعد از آن، خطاها بهصورت دستی در دانشگاه استنفورد ایالات متحده اصلاح شد که باعث بهبود کارایی آن شد.
استفاده از مدل مخفی مارکوف
در اواسط دههٔ ۱۹۸۰ میلادی، محققان در اروپا شروع به استفاده از مدل پنهانِ مارکُف برای ابهامزدایی از برچسبگذاری اجزای کلام کردند.
جستارهای وابسته
- ↑ "POS tags". Sketch Engine. Lexical Computing. 2018-03-27. Retrieved 2018-04-06.
- ↑ "Part-of-speech tagging". Wikipedia (به انگلیسی). 2020-02-15.