پیکره متنی

در زبان‌شناسی پیکره‌ای، پیکرهٔ متنی یا پیکرهٔ واژگانی (به‌اختصار: پیکره) (به انگلیسی: text corpus, corpus) به مجموعه‌ای خام از داده‌های زبانیِ نوشتاری یا گفتاری گفته می‌شود که می‌توان در توصیف و تحلیل زبان از آن بهره گرفت، از جمله در ارزیابی‌ها و تحلیل‌های آماریِ زبان‌شناختی و نیز در فرهنگ‌نویسی، دستورنویسی، گویش‌شناسی و جز آنها.

روش‌های فراهم ساختن پیکره

در گذشته، فراهم ساختن پیکره‌های زبانی برای تألیف فرهنگ بسیار وقت‌گیر، پرزحمت و پرهزینه بود؛ مثلاً علی‌اکبر دهخدا و همکارانش برای تألیف لغت‌نامه سالیان درازی متون منظوم و منثور زبان فارسی را سطربه‌سطر خواندند و برگه‌های انبوهی حاوی واژه‌ها، شواهد و ارجاعات آن‌ها فراهم آوردند. مجموعهٔ داده‌های زبانی‌ای که دهخدا و یارانش به روش سنتیِ برگه‌نویسی فراهم آوردند، به‌لحاظ حجم، به‌ویژه در مورد متون کهن زبان فارسی، در آن زمان و حتی تا زمانهٔ ما، بی‌نظیر بوده و هست. امروزه، پیشرفت‌های شگرف بشر در زمینهٔ فناوری اطلاعات، به‌ویژه رایانه، استفاده از این ابزار را برای گردآوری داده‌های زبانی و تألیف فرهنگ‌های مختلف براساس این داده‌ها ناگزیر می‌سازد؛ چنان‌که در کشورهای پیشرفته، روش سنتی گردآوری داده‌ها به‌کلی متروک شده و فرهنگ‌های گوناگونی، ازجمله کوبیلد (COBUILD)، فرهنگ بیست‌جلدی آکسفورد و جز آن‌ها براساس پیکره‌های زبانیِ رایانه‌ای تألیف یا تکمیل می‌گردند.

ناب، پیکره متنی برای زبان فارسی

در سال‌های اخیر، پردازش زبان طبیعی به عنوان یکی از مهم‌ترین حوزه‌های یادگیری ماشین و یادگیری عمیق مورد توجه قرار گرفته است. مدل‌های پایه در این حوزه همان مدل های زبانی هستند که به حجم زیادی از داده متنی نیاز دارند. عملیات آموزش این مدل های زبانی به صورتی است که در آن کلمه یا کلماتی از متن حذف می‌شود و از مدل خواسته می‌شود که با توجه به واژگان خود جای خالی را حدس بزند بدین ترتیب مدل زبانی جایگاه مناسب معنایی کلمات موجود در واژگان زبان را می‌شناسد. معمولا این آموزش به مقدار بسیار زیادی داده متنی تمیز شده نیاز دارد. این موضوع در زبان هایی که منابع متنی آزاد کمتری برای آن وجود دارد بسیار بیشتر احساس می‌شود. کمبود این منابع متنی باعث می‌شود که محققان این حوزه نتوانند مدل های زبانی روز دنیا را برای فارسی آموزش دهند. برای حل این مشکل، تیمی از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه شریف به سرپرستی دکتر حسین صامتی پیکره متنی ناب را معرفی کرده‌اند. این پیکره شامل حدود 130 گیگابایت متن تمیز شده کاملا فارسی که متشکل از 250 میلیون پاراگراف و 15 میلیارد کلمه است. این پیکره متنی به صورت کاملا متن باز در اختیار همگان قرار داده شده است و محققان حوزه پردازش طبیعی می‌توانند به راحتی از آن بهره بجویند. از ویژگی‌های پیکره ناب قرار گرفتن آن بر روی مخزن دیتاست Huggingface است، به‌این ترتیب می‌توانید تمام یا بخشی از پیکره ناب را به کمک کتابخانه dataset دانلود کرده و برای آموزش مدل خود استفاده کنید. علاوه بر این نسخه خام پیکره ناب به همراه ابزار پاک‌سازی متن در اختیار عموم قرار گرفته است تا به کمک آن بتوانید پیکره متنی تمیز شده خود را بسازید. همچنین در صورتی که پیکره متنی دارید که می‌خواهید به اشتراک بگذارید می‌توانید به سادگی آن را به پیکره خام ناب اضافه کنید بدین ترتیب کاربران می‌توانند علاوه بر استفاده از پیکره متنی شما به صورت جداگانه از آن در کنار بقیه پیکره های متنی فارسی نیز استفاده کنید. برای اطلاعات بیشتر راجع به پیکره متنی ناب به مقاله ناب به زبان انگلیسی مراجعه کنید.

جستارهای وابسته

پانویس

↑ صادقی، علی‌اشرف (۱۳۹۲). فرهنگ جامع زبان فارسی، جلد آ. صص. راهنمای استفاده از فرهنگ، ص ۱۰.
↑ بنگرید به: صادقی، علی‌اشرف. فرهنگ جامع زبان فارسی، جلد «آ». ۱۳۹۲. راهنمای استفاده از فرهنگ، ص ۹.

منابع

صادقی، علی‌اشرف (۱۳۹۲). فرهنگ جامع زبان فارسی. ج. آ. تهران: فرهنگستان زبان و ادب فارسی. شابک ۹۷۸-۶۰۰-۶۱۴۳-۳۷-۸.

پانویس

[1] صادقی، علی‌اشرف (۱۳۹۲). فرهنگ جامع زبان فارسی، جلد آ. صص. راهنمای استفاده از فرهنگ، ص ۱۰.

[2] بنگرید به: صادقی، علی‌اشرف. فرهنگ جامع زبان فارسی، جلد «آ». ۱۳۹۲. راهنمای استفاده از فرهنگ، ص ۹.