فراوانی وزنی تی‌اف-آی‌دی‌اف

مخّففِ term frequency - inverse document frequency یا فراوانی اصطلاح- معکوس فراوانی متن است.tf-idf در بازیابی‌اطلاعات، یک آمار عددی است که میزان اهمیت یک کلمه نسبت به یک سند در یک مجموعه‌ای از اسناد را نشان می‌دهد. در واقع هدف این سیستمِ وزن‌دهی، نشان‌دادن اهمیت کلمه در متن است؛ که اغلب در جستجوهای درون بازیابی‌اطلاعات، متن کاوی و مدل‌سازی کاربر (به انگلیسی: User modeling) استفاده می‌شود. مقدار tf-idf به تناسب تعداد تکرار کلمه در سند افزایش می‌یابد و توسط تعداد اسنادی که در مجموعه هستند و شامل کلمه نیز می‌باشند متعادل می‌شود. به این معنی که اگر کلمه‌ای در بسیاری از متون ظاهر شود احتمالاً کلمه‌ای متداول است و ارزش چندانی در ارزیابی متن ندارد. در حال حاضر tf-idf یکی از محبوب‌ترین روش‌های وزن‌گذاری اصطلاحات می‌باشد و امروزه بیش از ۸۳ درصد از سامانه‌های توصیه‌گر در کتابخانه‌های دیجیتال از این روش وزن‌دهی اصطلاحات استفاده می‌کنند.

این اختلاف بین وزن‌ها که توسط روش tf-idf ایجاد می‌شود توسط بیشتر موتورهای جستجو به عنوان ابزار اصلی رتبه‌دهی و امتیازدهی اسناد پرس و جو شده کاربر استفاده می‌شود؛ و همچنین برای فیلتر کردن ایست واژه ها (به انگلیسی: stop-words)در زمینه‌های موضوعی مختلف، از جمله خلاصه‌سازی و دسته‌بندی متن با موفقیت استفاده شده‌است. یکی از ساده‌ترین تابع‌های رتبه‌بندی با جمع کردن وزن بدست آمده توسط tf-idf برای هر اصطلاح پرس و جو محاسبه می‌شود. بسیاری از توابع رتبه‌بندی پیچیده‌تر بر اساس این مدل ساده به وجود آمده‌اند.

انگیزه‌ها

فراوانی اصطلاح (کلمه)

فرض کنید ما مجموعه ای از اسناد متنی انگلیسی داریم و می‌خواهیم اسناد را به نسبت ارتباطشان با پرس و جو رتبه‌بندی کنیم. مثلاً "the brown cow" را در نظر بگیرید. یک راه ساده برای شروع این است که اسناد و مدارک که شامل هر سه کلمه "brown", "cow" و "the" نیستند را حذف کنیم، اما این کار هنوز اسناد زیادی را باقی می‌گذارد. برای تشخیص و رتبه‌بندی بهتر آنها، ممکن است تعداد دفعاتی که هر اصطلاح در هر سند اتفاق می‌افتد، شمارش شود؛ تعداد دفعاتی که یک اصطلاح در یک سند اتفاق می‌افتد فراوانی اصطلاح نامیده می‌شود. با این حال، در مواردی که در آن طول اسناد بسیار متفاوت است، اغلب تنظیماتی برای متعادل سازی وزن انجام می‌شود (به تعریف زیر نگاه کنید). اولین حالت وزن گذاری به وسیله هانس پیتر لوون (۱۹۵۷) انجام شد که می‌توان آن را اینطور خلاصه کرد:

وزن یک اصطلاح که در یک سندآمده است به سادگی متناسب با فراوانی اصطلاح است.

معکوس فروانی سند

از آنجا که اصطلاح "the" بسیار رایج است، فراوانی اصطلاح به اشتباه و بدون دادن وزن کافی به شرایط معنی دار تر "brown" و "cow" بر اسناد و مدارک که کلمه "the" بیشتر در آن‌ها تکرارشده است، تاکید می‌کند. اصطلاح "the" بر خلاف واژه‌های رایج تر "brown" و "cow" کلید واژه ای مناسب برای تشخیص اسناد و اصطلاحات مرتبط و غیر مرتبط نیست؛ بنابراین فاکتور " معکوس فراوانی سند " در نظر گرفته شده‌است که وزن اصطلاحاتی را که در مجموعه سند بسیار تکرار می‌شوند را کاهش دهد و وزن اصطلاحاتی که به ندرت در سند ظاهر می‌شوند را افزایش دهد. کارن اسپارک جونز (۱۹۷۲) یک تعبیر آماری از ویژگی‌های اصطلاح به نام معکوس فراوانی سند (idf) را به وجود آورد که پایه و اساس وزن‌دهی به اصطلاحات بود:

یک اصطلاح را می‌توان توسط یک تابع معکوس از تعداد اسناد که در آن ظاهر می‌شود، تعیین کیفیت کرد.

تعریف

tf-idf از دو مقدار عددی فراوانی اصطلاح و معکوس فراوانی سند بدست می‌آید، راه‌های مختلفی برای تعیین ارزش دقیق هر دو مقدار وجود دارد.

فراوانی اصطلاح

متغیرهای فراوانی اصطلاح (tf)
weighting scheme	tf weight
دو دویی	۰و۱
شمارش خام	$f_{t,d}$
فرکانس اصطلاح	$f_{t,d}{\Bigg /}{\sum _{t'\in d}{f_{t',d}}}$
نرمال سازی لگاریتمی	$\log(1+f_{t,d})$
double normalization 0.5	$0.5+0.5\cdot {\frac {f_{t,d}}{\max _{\{t'\in d\}}{f_{t',d}}}}$
double normalization K	$K+(1-K){\frac {f_{t,d}}{\max _{\{t'\in d\}}{f_{t',d}}}}$

در مورد فراوانی اصطلاح (به انگلیسی: term frequency)tf(t,d) ساده‌ترین راه شمارش تعداد تکرار اصطلاح در سند می‌باشد ،(تعداد تکرار اصطلاح t در سند d). اگر ما شمارش خام را با f_t_,d نشان دهیم ساده‌ترین طرح tf می‌تواندtf(t,d) = f_t_,d باشد؛ که تعاریف دیگری نیز دارد:

که این موارد در جدول روبرو نیز به صورت خلاصه آمده:

فراوانی بولی :اگر اصطلاح t در سند d آمده باشدtf(t,d) = ۱ در غیر این صورت tf(t,d) = ۰
فراوانی اصطلاح بر اساس طول سند تنظیم شده‌است:(تعداد کلمات موجود در سند d) ÷ f_t_,d
فراوانی مقیاس لگاریتمی:

tf(t,d) = log (1 + f_t_,d)

فراوانی افزوده :به منظور جلوگیر از تمایل به طرف اسناد طولانی‌تر

معکوس فراوانی سند

انواع معکوس فراوانی سند
طرح وزن	idf weight ()
یگانی	۱
فرکانس سند معکوس	$\log {\frac {N}{n_{t}}}=-\log {\frac {n_{t}}{N}}$
فرکانس سند معکوس صاف	$\log \left(1+{\frac {N}{n_{t}}}\right)$
فرکانس سند معکوس حداکثر	$\log \left({\frac {\max _{\{t'\in d\}}n_{t'}}{1+n_{t}}}\right)$
فرکانس سند معکوس احتمالی	$\log {\frac {N-n_{t}}{n_{t}}}$

معکوس فراوانی سند اندازه‌گیری میزان اطلاعاتی است که کلمه (برای مثال، اگر در همه اسناد معمول یا نادر باشد) ارائه می‌دهد. در واقع معکوس فراوانی سند، لگاریتم معکوس کسر اسنادی است که حاوی کلمه هستند (به وسیله تقسیم تعداد کل اسناد به تعداد اسناد حاوی اصطلاح و سپس گرفتن لگاریتم این معادله):

که در این معادله:

:تعداد کل اسناد موجود در مجموعه
تعداد اسنادی که اصطلاح در آن‌ها آورده شده ) اگر اصطلاح در هیچ سندی نباشد ممکن است مخرج کسر صفر شود برای جلوگیری از این مشکل راه کار زیر را داریم.

فراوانی اصطلاح-معکوس فراوانی اصطلاح

حالت‌های مختلف توابع معکوس فراوانی سند: استاندارد، یکنواخت، احتمالاتی. پس tf-idf به این صورت محاسبه می‌شود:

وزن بالا در tf-idf توسط تکرار زیاد یک اصطلاح (در سند داده شده) و تعداد تکرار کم در اسناد مجموعه بدست می‌آید؛ و به این صورت وزن اصطلاحات رایج متعادل می‌شود؛ و از آن جایی که مقدار تابع لگاریتمی idf همیشه بیشتر یا برابر مقدار ۱ می‌باشد می‌توان نتیجه گرفت مقدار tf-idf همیشه بیشتر یا برابر مقدار ۰ می‌باشد. به عنوان مثال یک اصطلاح که در بیشتر اسناد ظاهر می‌شود، نسبت داخل لگاریتم را به ۱ نزدیک می‌کند، و idf و tf-idf را به صفر نزدیکتر می‌کند.

طرح‌های وزن گذاری توصیه شده برای tf-idf
weighting scheme	document term weight	query term weight
۱	$f_{t,d}\cdot \log {\frac {N}{n_{t}}}$	$\left(0.5+0.5{\frac {f_{t,q}}{\max _{t}f_{t,q}}}\right)\cdot \log {\frac {N}{n_{t}}}$
۲	$1+\log f_{t,d}$	$\log \left(1+{\frac {N}{n_{t}}}\right)$
۳	$(1+\log f_{t,d})\cdot \log {\frac {N}{n_{t}}}$	$(1+\log f_{t,q})\cdot \log {\frac {N}{n_{t}}}$

توجیه idf

IDF در سال ۱۹۷۲ توسط کارن جونز معرفی شد، به عنوان «ویژگی اصطلاح». اگر چه به خوبی به عنوان یک اکتشاف کار کرده‌است، ولی تعریف پایه‌های نظری آن حداقل برای سه دهه پس از معرفی آن مشکل بوده‌است، و بسیاری از محققان تلاش دارند تا یکنظریه اطلاعات برای آن پیدا کنند.

توضیح خود اسپارک جونز توضیح علمی زیادی ارائه نمی‌دهد، به جز ارتباط با قانون زیف. Attempts have been made to put idf on a probabilistic footing, تلاش‌هایی برای قرار دادن idf بر پایه نظریه احتمال انجام شده‌است. تلاش‌هایی برای قرار دادن idf برپایه احتمال انجام شده‌است با برآورد احتمال اینکه یک سند داده شده d شامل یک عبارت t به عنوان فرکانس سند نسبی باشد،

پس می‌توان idf را به صورت زیر تعریف کرد:

استفاده از چنین مفاهیمی در مورد مسائل بازیابی اطلاعات منجر به مشکل در هنگام تعریف فضاهای رویداد مناسب برای توزیع احتمالی مورد نیاز می‌شود: نه تنها باید اسناد را در نظر گرفت، بلکه همچنین پرس و جو و اصطلاحات را نیز باید در نظر گرفت.

مثالی برای tf-idf

فرض کنید که ما تعداد جداول اصطلاح یک متن را داریم که متشکل از تنها دو سند است، همان‌طور که در سمت راست ذکر شده‌است.

سند ۲
اصطلاح	تعداد تکرار اصطلاح
this	۱
is	۱
another	۲
example	۳

سند ۱
اصطلاح	تعداد تکرار اصطلاح
this	۱
is	۱
a	۲
sample	۱

محاسبه tf-idf برای اصطلاح "this" به صورت زیر انجام می‌شود:

در فرم فرکانس خام، TF تنها فرکانس "this" برای هر سند است. در هر سند، کلمه "this" یکبار تکرار شده‌است؛ اما همان‌طور که مشاهده می‌شود سند ۲ کلمات بیشتری دارد، در نتیجه فرکانس نسبی آن کوچکتر است.

یک IDF در هر واحد ثابت است و برای نسبت اسنادی که عبارت «this» را شامل می‌شوند، حساب می‌شود. در این مورد، ما یک مجموعه از دو سند داریم و همه آنها شامل کلمه "this" است.

بنابراین TF-idf برای کلمه «این» صفر است، که این بدان معنی است که کلمه بسیار مؤثری نیست، زیرا در تمام اسناد ظاهر می‌شود.

کلمه "example" مؤثر تر است زیرا سه بار تکرار می‌گردد، و تنها در سند دوم تکرار می‌شود:

در پایان،

فراتر از اصطلاحات

ایده TF-idf نیز به اشخاص غیر از شرایط اعمال می‌شود. در سال ۱۹۹۸، مفهوم idf به نقل قولها اعمال شد. نویسندگان اظهار داشتند که "اگر یک استناد بسیار غیرمستقیم با دو اسناد به اشتراک گذاشته شود، این باید بیشتر از یک استناد با تعداد زیادی از اسناد" وزن شود. " علاوه بر این، TF-idf به "کلمات بصری" با هدف انجام تطبیق جسم در فیلم‌ها و جملات کامل اعمال شد. با این حال، مفهوم tf-idf در همه موارد موثرتر از یک طرح tf ساده (بدون idf) اثبات کرد. هنگامی که TF-idf برای نقل‌قولها اعمال شد، محققان نمی‌توانستند در مورد وزن صدای ساده استناد کنند که هیچ جزء idf وجود نداشت.

مشتقات

تعدادی از طرحهای وزن با استفاده از tf-idf استخراج شده‌است. یکی از آنها TF-PDF (فرکانس فرکانس * فرکانس سمعی) است. TF-PDF در سال ۲۰۰۱ در زمینه شناسایی موضوعات در حال ظهور در رسانه‌ها معرفی شد. جزء PDF، تفاوت در میزان زمانی که یک اصطلاح در حوزه‌های مختلف رخ می‌دهد اندازه‌گیری می‌شود. یکی دیگر از مشتقات TF-IDuF است. در TF-IDuF, IDF بر اساس کپی سند محاسبه نمی‌شود که برای جستجو یا توصیه می‌شود. در عوض IDF براساس جمع‌آوری اسناد شخصی کاربران محاسبه می‌شود. نویسندگان گزارش دادند که TF-IDuF به همان اندازه به عنوان TF-idf مؤثر است، اما همچنین می‌تواند در شرایطی که، مانند یک سیستم مدل‌سازی کاربر، دسترسی به یک کپی سند جهانی نداشته باشد.