پیکره بیجنخان
پیکرهای از متون زبان فارسی
پیکره بیجنخان یک پیکرهٔ برچسبگذاریشده است که برای تحقیق پردازش زبان طبیعی در زبان فارسی مناسب است. این مجموعه از اخبار و متون عمومی گردآوری شدهاست. در این مجموعه، تمام مستندات بر حسب موضوعات و بر اساس حدود ۴۳۰۰ موضوع مانند سیاسی، فرهنگی و غیره طبقهبندی شدهاند. این پیکره دربرگیرندهٔ نزدیک به ۲٫۶ میلیون کلمه است که به صورت دستی برچسبگذاری شدهاند.
پیکرهٔ بیجنخان توسط گروه تحقیقات پایگاه داده در دانشگاه تهران ایجاد شدهاست. این پیکره برای مصارف تجاری رایگان نیست؛ با این حال، این محدودیتها برای همهٔ کشورها یکسان نیست. این پیکره، به افتخار محمود بیجنخان، استاد زبانشناسی دانشگاه تهران و خدمات او در این زمینه، چنین نامگذاری شدهاست.
جستارهای وابسته
منابع
- ↑ «وبگاهِ دادگان». بایگانیشده از اصلی در ۱۴ اوت ۲۰۱۸. دریافتشده در ۱۴ اوت ۲۰۱۸.