نمایه‌سازی در موتورهای جستجو

نمایه‌سازی در موتورهای جستجو داده‌ها را جمع‌آوری، تجزیه و تحلیل و ذخیره می‌کند تا بازیابی اطلاعات سریع و دقیق و آسانتر شود. طراحی اولین نمایه شامل مفاهیم میان رشته‌ای از زبان‌شناسی، روانشناسی شناختی، ریاضیات، انفورماتیک و علوم کامپیوتر می‌باشد. موتورهای محبوب بر روی نمایه سازی متن کامل اسناد آنلاین با زبان عادی متمرکز هستند. درحالیکه انواع رسانه مانند ویدئو صوتی و گرافیک نیز قابل جستجو هستند. موتورهای جستجو فرانمایه‌های دیگر خدمات را بارگیری و استفاده می‌کنند و یک نمایه محلی را ذخیره نمی‌کنند، در حالی که موتورهای جستجوی مبتنی بر حافظه پنهان به‌طور دائم نمایه را همراه با مجموعه ای از نوشته‌ها ذخیره می‌کنند. بر خلاف نمایه‌های متن کامل، خدمات جزئی متن عمق محدودی را برای کاهش اندازه نمایه نشان می‌دهند. خدمات بزرگتر معمولاً نمایه سازی را به علت زمان و پردازش هزینه مورد نیاز در یک فاصله زمانی از پیش تعیین شده انجام می‌دهند، در حالی که موتورهای جستجوگر مبتنی بر عامل در زمان واقعی نمایه سازی می‌کنند.

نمایه سازی

نمایه سازی:

هدف از ذخیره‌سازی یک نمایه، بهینه‌سازی سرعت و کارایی در یافتن اسناد مرتبط برای یک جستار مورد جستجو است. بدون یک نمایه، موتور جستجو باید مجموعه ای از جملات هر سند را اسکن کند که نیاز به زمان و توان محاسباتی زیادی دارد. برای مثال، در حالی که یک نمایه از ۱۰٬۰۰۰ سند را می‌توان در عرض یک میلی ثانیه، یک اسکن پی در پی از هر کلمه در ۱۰٬۰۰۰ سند بزرگ ممکن است ساعت‌ها طول بکشد. در مقایسه با کاهش قابل توجهی که درزمان لازم برای به روز رسانی انجام می‌شود، برای ذخیره‌سازی زمان در بازیابی اطلاعات میزان فضای اضافی برای ذخیره نمایه در کامپیوتر خریداری می‌شود.

عوامل طراحی نمایه سازی:

عوامل عمده در طراحی معماری موتور جستجو عبارتند از:

ادغام:

چگونه داده‌ها در نمایه‌ها ثبت می‌شوند و چگونه کلمات یا ویژگی‌های موضوعی موجود در متن به نمایه اضافه می‌شوند، و اینکه آیا چند نمایه ساز می‌توانند به صورت یکنواخت کار کنند. ابتدا باید نمایه ساز بررسی شود که آیا محتوای قدیمی یا محتویات جدید را به روز می‌کند یا خیر. گذرگاه به‌طور معمول با سیاست جمع‌آوری اطلاعات مرتبط است. با مفهوم فرمان SQL Merge و دیگر الگوریتم‌های ادغام مشابه می‌توان نمایه‌های موتور جستجو ادغام کرد.

تکنیک‌های ذخیره‌سازی:

چگونه می‌توان داده‌های نمایه را ذخیره کرد، یعنی اینکه باید داده‌ها فشرده یا فیلتر شوند.

اندازه نمایه:

چقدر فضای ذخیره‌سازی کامپیوتر برای پشتیبانی از نمایه ضروری است.

سرعت جستجو:

چقدر سریع یک کلمه می‌تواند در نمایه معکوس یافت شود. سرعت یافتن ورودی در یک ساختار داده، در مقایسه با اینکه سرعت آن می‌تواند به روز شود یا حذف شود، تمرکز اصلی علوم رایانه است.

نگهداری:

چگونه نمایه در طول زمان نگهداری می‌شود.

میزان خطا:

قابلیت اعتماد سرویس خود اهمیت دارد. مسائلی شامل برخورد با فساد نمایه، تعیین اینکه آیا داده‌های بد را می‌توان منزوی کرد، با سخت‌افزار بد، پارتیشن‌بندی، و طرح‌هایی مانند پراکندگی مجدد هش یا پارتیشن‌بندی کامپوزیت می‌تواند تکثیر کند.

ساختار داده‌های نمایه:

معماری موتور جستجو که در آن نمایه سازی انجام می‌شود، و در روش ذخیره‌سازی نمایه برای دیدار با عوامل مختلف طراحی متفاوت است.

درخت پسوند:

شکلی مانند ساختار درخت است، که از جستجوی خطی پشتیبانی می‌کند که با ذخیره پسوندهای کلمات ساخته می‌شود.

درخت پسوند نوعی درخت است، که تلاش می‌کند تا هش کردن را گسترش دهد، این برای نمایه سازی موتورهای جستجو مهم است.

برای جستجوی الگوهای در توالی‌های DNA و خوشه بندی مورد استفاده قرار می‌گیرد. یک نکته مهم این است که ذخیره یک کلمه در درخت ممکن است، فضای بیشتری از آنچه لازم است برای ذخیره خود کلمه نیاز داشته باشد. که آرایه پیوست به عنوان جایگزن آن است که به نظر می‌رسد نیاز به حافظه مجازی کمتری دارد و از فشرده سازی داده‌ها مانند الگوریتم BWT پشتیبانی می‌کند.

نمایه معکوس:

لیستی از وقایع هر معیار جستجو اتمی ذخیره می‌کند، که به‌طور معمول در قالب یک جدول هش یا درخت دودویی است.

نمایه استناد:

نقل قول‌ها یی که برای حمایت از تجزیه و تحلیل استنادی، یا استخراج شده از متن را ذخیره‌سازی می‌کند.

نمایه Ngram:

توالی طول داده‌ها را برای پشتیبانی از انواع دیگر بازیابی یا استخراج متن ذخیره‌سازی می‌کند.

ماتریس اصطلاح اسناد:

زمانی که در تجزیه و تحلیل معنایی پنهان رخ می‌دهد، از یک ماتریس دو بعدی استفاده می شوده که کلمات در اسناد در آن ذخیره می‌شوند.

فرصت‌های زیادی برای شرایط مسابقه و گسل‌های منسجم وجود دارد. به عنوان مثال، مجموعه ای از نوشته‌ها جدید به یک سند اضافه می‌شود و نمایه باید به روز شود، اما نمایه به‌طور همزمان به هردو نیازهای جستار جستجو پاسخگو است.

این یک برخورد بین دو وظیفه رقابتی است. در نظر بگیرید که نویسندگان تولیدکننده اطلاعات هستند و یک نمایه ساز وب مصرف‌کننده این اطلاعات است، و کار آن گرفتن متن و ذخیره آن در کش (یا تنه) می‌باشد.

نمایه پیشرو مصرف‌کننده اطلاعات تولید شده توسط تنه است، و نمایه معکوس مصرف‌کننده اطلاعات تولید شده توسط نمایه پیشرو است.

این معمولاً به عنوان یک اشاره به مدل تولیدکننده-مصرف کننده است.

نمایه ساز تولیدکننده اطلاعات قابل جستجو است و کاربران مصرف‌کنندگان هستند، که باید جستجو کنند؛ که در هنگام کار با ذخیره‌سازی توزیع شده و پردازش توزیع شده بزرگ وارد چالش می‌شود.

در تلاش برای مقیاس با مقادیر بالاتری از اطلاعات نمایه سازی شده نشان داده شده، معماری موتور جستجو ممکن است، شامل محاسبات توزیع شده باشد، جایی که موتور جستجو شامل چندین ماشین است که در هم ادغام می‌شوند. این باعث افزایش احتمال ناسازگاری می‌شود و حفظ ساختار کاملاً هماهنگ، توزیع شده و موازی آن را دشوار می‌سازد.

نمایه‌های معکوس:

بسیاری از موتورهای جستجو با ترکیب کردن یک نمایه معکوس در هنگام ارزیابی با یک جستار برای جستجو سریع اسناد حاوی کلمات موجود در یک جستار قرار می‌دهند و سپس این مدارک را با توجه به رتبه طبقه‌بندی می‌کنند.

از آنجا که نمایه معکوس لیستی از اسناد حاوی هر کلمه را ذخیره می‌کند، موتور جستجو برای یافتن اسناد مرتبط با هر کلمه در جستار می‌تواند از طریق دسترسی مستقیم به سرعت به منظور یافتن اسناد مربوط استفاده شود.

این نمایه تنها می‌تواند تعیین کند که آیا یک کلمه در یک سند خاص وجود دارد، از آنجا که هیچ اطلاعاتی در مورد فرکانس و موقعیت کلمه ذخیره نمی‌شود؛ بنابراین به عنوان نمایه بولین در نظر گرفته شده‌است.

چنین نمایه ای تعیین می‌کند کدام یک از اسناد با یک جستار مطابق است، اما اسناد مشابه را رتبه‌بندی نمی‌کند. در برخی از طرح‌ها، نمایه شامل اطلاعات اضافی مانند فرکانس هر کلمه در هر سند یا موقعیت یک کلمه در هر سند است، اطلاعات موقعیت این امکان را می‌دهد تا الگوریتم جستجو نزدیکی کلمه برای پشتیبانی از جستجو برای عبارات برای شناسایی کند؛ فرکانس را نیز می‌توان برای کمک به جستار استفاده کرد. چنین موضوعاتی تمرکز اصلی تحقیق در بازیابی اطلاعات است.

نمایه معکوس یک ماتریس پراکنده است، زیرا در هر سند تمام کلمات وجود ندارد. برای استفاده کمتر از حافظه ذخیره‌سازی کامپیوتر، آن را به صورت متفاوت از یک آرایه دو بعدی ذخیره می‌شود. این نمایه شبیه ماتریس سند اصطلاحاتی از تحلیل معنایی نهفته استفاده می‌کند. نمایه معکوس می‌تواند یک شکل از جدول هش را مورد توجه قرار دهد. در بعضی موارد، این نمایه یک شکل از یک درخت دودویی است، که نیاز به ذخیره‌سازی بیشتری دارد. اما ممکن است، زمان جستجو را کاهش دهد. در نمایه‌های بزرگتر معماری معمولاً یک جدول هش توزیع شده است.

آرایه ادغام:

آرایه معکوس از طریق ادغام یا بازسازی پر می‌شود. یک بازسازی مشابه یک ادغام است، اما ابتدا محتویات نمایه معکوس را حذف می‌کند. معماری ممکن است به منظور پشتیبانی از آرایه سازی افزایشی طراحی شده باشد، جایی که یک شناسایی سند ادغام می‌شود یا اسناد افزوده یا به روز رسانی می‌شوند و سپس هر سند را به کلمات تجزیه می‌کند. برای دقت فنی، یک ادغام، اسنادی که اخیراً نمایه شده‌اند، معمولا در حافظه مجازی ذخیره می‌شوند، با کش مخفی در یک یا چند هارد دیسک کامپیوتر متصل می‌شوند. پس از تجزیه، نمایه ساز سند اشاره شده را به لیست سند برای کلمات مناسب اضافه می‌کند. در یک موتور جستجوی بزرگتر، فرایند پیدا کردن هر کلمه در نمایه معکوس (برای گزارش اینکه در یک سند اتفاق افتاده‌است) ممکن است خیلی وقت گیر باشد؛ بنابراین این فرایند معمولاً به دو بخش تقسیم می‌شود: توسعه یک نمایه پیشرو و فرایندی که محتویات نمایه پیشرو را به نمایه معکوس طبقه‌بندی می‌کند. نمایه معکوس به همین دلیل نامیده می‌شود زیرا این یک معکوس کردن نمایه پیشرو است.

نمایه پیشرو:

نمایه پیشرو فهرستی از کلمات برای هر سند را ذخیره می‌کند.

که منطق پشت توسعه یک نمایه پیشرو است، که به عنوان اسناد تجزیه می‌شود، بهتر است، بلافاصله کلمات را در هر سند ذخیره کنید.

این طرح پردازش سیستم نا همزمان را قادر می‌سازد، که تا حدی از تضعیف به روز رسانی نمایه معکوس جلوگیری می‌کند. نمایه پیشرو دسته‌بندی می‌شود تا آن را به یک نمایه معکوس تبدیل کند. نمایه پیشرو اساساً یک لیست دوگانه است که متشکل از یک سند و یک کلمه می‌باشد که توسط سند جمع‌آوری شده‌است. تبدیل نمایه پیشرو به یک نمایه معکوس فقط مربوط به مرتب‌سازی جفت‌ها با کلمات است. در این راستا، نمایه معکوس یک نمایه پیشروی است که کلمه مرتب شده.

فشرده سازی:

تولید یا نگهداری یک موتور جستجو در مقیاس وسیع، چالش مهم ذخیره‌سازی و پردازش را ایجاد می‌کند. بسیاری از موتورهای جستجو از فشرده سازی برای کاهش اندازه نمایه‌ها در دیسک استفاده می‌کنند. ناریوی زیر را برای یک متن کامل، موتور جستجوی اینترنتی در نظر بگیرید.

۸ بیت (یا ۱ [[تولید یا نگهداری یک موتور جستجو در مقیاس وسیع، چالش مهم ذخیره‌سازی و پردازش را ایجاد می‌کند. بسیاری از موتورهای جستجو از فشرده سازی برای کاهش اندازه نمایه‌ها در دیسک استفاده می‌کنند. ناریوی زیر را برای یک متن کامل، موتور جستجوی اینترنتی در نظر بگیرید.]]) برای ذخیره یک کاراکتر تنها طول می‌کشد. بعضی از کدگذاری‌ها از هر بایت ۲بایت استفاده می‌کند.
میانگین تعداد حرف در هر کلمه داده شده در یک صفحه ممکن است ۵ عدد باشد.

با توجه به این سناریو، یک نمایه غیر فشرده (با فرض تلفیق نشدن، ساده، نمایه) برای ۲ میلیارد صفحات وب نیاز به ذخیره ۵۰۰ میلیارد ورودی است. با در نظر گرفتن ۱ بایت در هر حرف، یا ۵ بایت در هر کلمه، موتور جست و جو نیاز به ۲۵۰۰ گیگابایت فضای ذخیره‌سازی دارد. این فضای مورد نیاز می‌تواند حتی برای یک معماری ذخیره‌سازی توزیع شده که دارای خطا هست نیز بزرگتر باشد. بسته به تکنیک فشرده سازی انتخاب شده، نمایه را می‌توان به یک کسری از این اندازه کاهش داد.

مزایای همچون زمان و پردازش لازم برای آن فشرده سازی را مقرون به صرفه می‌کند.

بدیهی است، طرح‌های موتور جستجو در مقیاس وسیع شامل هزینه ذخیره‌سازی و همچنین هزینه‌های برق برای ذخیره‌سازی است؛ بنابراین فشرده سازی یک کاهش هزینه است.

تجزیه و تحلیل سند

تجزیه و تحلیل سند:

تجزیه و تحلیل سند مؤلفه‌ها (کلمات) یک سند یا سایر رسانه‌ها را برای قرار دادن در نمایه‌های پیشرو و معکوس از بین می‌برد.

کلمات موجود به نام نشانه‌ها هستند و بنابراین، در زمینه نمایه سازی موتورهای جستجو و پردازش زبان طبیعی، تجزیه به‌طور معمول به عنوان رمزگذاری شناخته می‌شود و همچنین گاهی اوقات به نام کلمه ابهام زدایی مرز، برچسب زدن، تقسیم‌بندی متن، تجزیه و تحلیل محتوای، تجزیه و تحلیل متن، متن کاوی، تطابق نسل، تقسیم‌بندی سخنرانی، لغو کردن، یا تجزیه و تحلیل واژگانی، اصطلاحات «نمایه سازی»، «تجزیه و تحلیل» و «تقسیم بندی» به صورت متغیر در شعار شرکت استفاده می‌شوند.

پردازش زبان عامیانه موضوع تحقیق و بهبود مستمر است. نشانه گذاری چالش‌های زیادی را در استخراج اطلاعات لازم از اسناد برای نمایه سازی و پشتیبانی از جستجوی کیفی ایجاد می‌کند.

نمایه سازی شامل چندین تکنولوژی است، که پیاده‌سازی آنها معمولاً به عنوان اسرار شرکت‌ها حفظ می‌شود. [نیازمند منبع]

چالش‌های پردازش زبان طبیعی
ابهام مرزی کلمه:

سخنرانان بومی انگلیسی زبان ممکن است ابتدا علامت گذاری را به عنوان یک امر مهم مستقیما در نظر می‌گرفتند، اما در مورد طراحی یک نمایه چند زبانه ای اینگونه نیست. در قالب دیجیتال، متون زبان‌های دیگر مانند چینی ، ژاپنی یا عربی یک چالش بزرگ وجود دارد، زیرا کلمات به وضوح توسط فضای خالی مشخص نیستند.

هدف در طی نشانه گذاری شناسایی کلماتی است که کاربران آن را جستجو می‌کنند. برای زبان‌های خاص منطقی که به درستی مرزهای کلمات را تشخیص دهد به کار گرفته می‌شود، که اغلب منطق طراحی یک تجزیه کننده برای هر زبان پشتیبانی شده (یا برای گروه‌های زبان با نشانگرهای مرزی و نحوی مشابه) است.

ابهام زبان:

برای کمک به رتبه‌بندی صحیح اسناد مطابق، بسیاری از موتورهای جستجو اطلاعات اضافی در مورد هر یک از کلمات، مانند زبان یا طبقه‌ بندی واژگانی (بخشی از حرف) جمع‌آوری می‌کند. این تکنیک ها وابسته به زبان است، زیرا هماهنگی در میان قسمت های مختلف، در میان زبان ها متفاوت است. سناد همیشه آنقدر واضح نیستند، که زبان سند را شناسایی کنند و یا دقیق آن را نشان دهند. در نشانه گذاری سند، برخی از موتور های جستجو تلاش می کنند تا به طور خودکار زبان سند را شناسایی کنند.

فرمت های متنوع فایل:

برای درستی شناسایی که کدام بایت یک سند، شخصیت ها را نشان می دهد، فرمت فایل باید به درستی شناخته شود. موتور های جستجو که از فرمت های فایل های مختلف پشتیبانی می کنند ،باید بتوانند به درستی آن را باز کرده و به سند دسترسی داشته باشند.

ذخیره سازی نادرست :

ممکن نیست همیشه کیفیت داده های زبان اصلی خوب باشد. در تعداد نامشخص اسناد به ویژه در اینترنت، که از پروتکل فایل مناسب اطمینان نمیشود کرد . ممکن است کاراکتر های دو دویی به صورت اشتباه در قسمت های مختلف یک سند رمز گذاری شوند. در صورت عدم شناخت این کاراکتر ها و رفتار کردن مناسب با آن، کیفیت نمایه یا عملکرد نمایه می تواند از بین برود.

نشانه گذاری:

بر خلاف انسان های با سواد ، کامپیوترها ساختار یک سند زبان طبیعی را درک نمیکنند و نمیتوانند به طور خودکار کلمات و جملات را تشخیص دهند. برای یک رایانه، یک سند فقط یک رشته از بایت است. کامپیوترها نمیدانند که یک کاراکتر جای خالی کلمات را در یک سند جدا می کند. در عوض، انسان باید رایانه را برنامه ریزی کند تا مشخص کند چه چیزی منحصر به فرد یا واژه متمایز به نام ،یک نشانه است. چنین برنامه ای معمولا به نام نشانه گذار یا تجزیه کننده یا تحلیل واژگانی گفته میشود. بسیاری از موتور های جستجو و همچنین سایر نرم افزارهای پردازش زبان عامیانه، شامل برنامه های تخصصی برای تجزیه و تحلیل، مانند YACC یا Lex هستند. در طی نشانه گذاری، تجزیه کننده رشته های از کاراکتر هایی را که نماینده کلمات و عناصر دیگر مانند نقطه گذاری است را با کد های عددی نشان داده می شوند ،برخی از آنها کاراکتر های غیر چاپی هستند. تجزیه کننده همچنین می تواند مواردی مانند آدرس های ایمیل ، شماره تلفن ها و URL ها را شناسایی کند . هنگام شناسایی هر نشانه، ممکن است چندین ویژگی ذخیره شود. مثلا نمونه نشانه گذاری (بالا، پایین، مخلوط، مناسب)، زبان یا کد گذاری، نقش لغوی (بخشی از گفتار، مانند «اسم» یا «فعل»)، موقعیت، شماره جمله ، موقعیت جمله، طول و شماره خط میباشد.

تشخیص زبان:

در صورتی که موتور جستجو چندین زبان را پشتیبانی کند، گام اولیه در طول نشانه گذاری، شناسایی زبان هر سند است؛ مراحل بعدی وابسته به زبان هستند (مانند تداخل و بخشی ازبرچسب زدن).

تشخیص زبان فرآیندی است که توسط آن یک برنامه کامپیوتری به طور خودکار شناسایی یا دسته بندی زبان سند را دنبال میکند. نامهای دیگر برای به رده بندی زبان به کار می رود شامل: طبقه بندی زبان، تجزیه و تحلیل زبان، شناسایی زبان و برچسب زدن زبان است. رده بندی خودکار زبان موضوع پژوهش حال حاضر در پردازش زبان طبیعی است .

پیدا کردن زبانی که کلمات به آن تعلق دارند ممکن است شامل استفاده از یک نمودار تشخیص زبان باشد.

تجزیه و تحلیل فرمت:

اگر موتور جستجو چند نوع فرمت سند را پشتیبانی کند ، اسناد باید برای نشانه گذاری آماده شوند. مشکل این است که بسیاری از فرمت های سند علاوه بر محتوای متنی دارای اطلاعات قالب بندی هستند.

به عنوان مثال، اسناد HTML حاوی تگ های HTML است که اطلاعات قالب بندی مانند زمانی که خط جدید شروع می شود، بولد کردن و اندازه فونت یا استایل را مشخص می کند. اگر موتور جستجو تفاوت بین محتوا و "تگ گذاری" را نادیده بگیرد، اطلاعات اضافی در این نمایه گنجانده می شود که منجر به تضعیف نتایج جستجو می شود. شناسایی و دستکاری محتوای قالب بندی درون اسناد که کنترل نحوه ارائه سند را بر روی صفحه نمایش کامپیوتر و یا توسط یک برنامه نرم افزاری فرمت را تجزیه و تحلیل و تفسیر می کند. تجزیه و تحلیل فرمت تجزیه و تحلیل ساختار تگ ها، قالب، نرمال سازی متن، تمیز کردن متن و آماده سازی متن رامعرفی می کند. مشکل تجزیه وتحلیل فرمت با پیچیدیگی های مختلف فرمت های فایل ها پیچیده تر می شود. فرمت های خاصی از فایل ها با اطلاعات بسیار کمی ارایه می دهند، در حالی که دیگران به خوبی مستند شده اند. فرمت های رایج و کاملا مستند شده که بسیاری از موتور های جستجو پشتیبانی می کنند عبارتند از: •HTML •فایل های متنی ASCII (یک سند متن بدون فرمت قابل خواندن رایانه خاص) •فرمت سند قابل حمل [[Adobe ( [[PDF ) •پست اسکریپت (PS) •LaTeX •UseNet فرمت های سرور net news •XML و مشتقات آن مانند RSS •SGML •فرمت های داده های متا چندرسانه ای مانند ID3 •مایکروسافت ورد •مایکروسافت اکسل •مایکروسافت پاورپوینت •[[IBM Lotus Notes گزینه هایی برای رسیدگی به فرمت های مختلف شامل استفاده از یک ابزار تجزیه آمیز تجاری عمومی است که توسط سازمان ارائه شده است که فرمت را توسعه داده، حفظ و یا مالک آن و نوشتن یک تجزیه کننده دلخواه ارایه می دهد .

برخی از موتورهای جستجو از بازدید فایل هایی که در فرمت فایل فشرده شده یا رمزگذاری شده ذخیره می شوند پشتیبانی می کنند. هنگام کار با فرمت فشرده، نمایه ساز ابتدا سند را از حالت فشرده خارج می کند؛ این کار ممکن است به یک یا چند فایل ایجاد کند، که هر کدام به طور جداگانه باید نمایه شوند. فرمت های فایل های فشرده که معمولا پشتیبانی می شوند عبارتند از:

•ZIP - آرشیو فایل زیپ •RAR - پرونده آرشیو Roshal •CAB - مایکروسافت ویندوز کابینه فایل •Gzip - فایل های فشرده با gzip •BZIP – فایل هایی که با استفاده از bzip2 فشرده شده است •[[(tape ARshive [[(TAR) ، فایل آرشیو یونیکس ، (خودشان) فشرده شده نیستند •TAR.Z، TAR.GZ یا TAR.BZ2 - فایل های آرشیو یونیکس که با فشرده سازی Compress، GZIP یا BZIP2شده اند.

تجزیه و تحلیل فرمت می تواند شامل روش های بهبود کیفیت برای جلوگیری از "اطلاعات بد" در نمایه باشد. محتوا می تواند اطلاعات قالب بندی را برای محتوای اضافی دستکاری کند. مثل هایی از سوء استفاده از قالب بندی سند برای هرزآگهی :

•شامل صدها یا هزاران کلمه که در یک بخش است کهبر روی صفحه کامپیوتر قابل مشاهده نیست، اما با استفاده از تحلیل فرمت برای نمایه ساز قابل مشاهده است، (به عنوان مثال برچسب پنهان "div" در HTML ، که ممکن است استفاده از ترکیب CSS یا جاوا اسکریپت برای اجرای آن است.

•تنظیم رنگ فونت کلمات به همان رنگ پس زمینه برای ساخت کلماتی که در صفحه کامپیوتر برای فردی که سند را مشاهده می کند پنهان است، اما برای نمایه ساز پنهان نیست.

شناسایی بخش:

در بعضی از موتورهای جستجو، تشخیص بخش انجام می شود تا قسمت های اصلی یک سند قبل از نشانه گذاری شناسایی شود . همه اسناد موجود در یک جزء مثل یک کتاب که به خوبی نوشته شده است، به فصل ها و صفحات سازمان یافته تقسیم نشده اند. بسیاری از اسناد در وب مانند خبرنامه ها و گزارش شرکت ها، حاوی محتوای نادرست و بخش های جانبی هستند که مربوط به مطالب اصلی نیستند (آنچه در مورد این سند است). به عنوان مثال، این مقاله یک منوی سمت را با لینک های دیگر صفحات وب نمایش می دهد. برخی از فرمت های فایل مانند HTML یا PDF اجازه می دهد محتوای در ستون نمایش داده شود.

حتی اگر محتوا نمایش داده شود یا رندر شود، در زمینه های مختلف نمایش، محتوای نشانه گذاری ممکن است این اطلاعات را به صورت متوالی ذخیره کند. واژه هایی که به طور پیوسته در محتوای منبع خبری ظاهر می شوند، به صورت پیوسته آرایه سازی می شوند، حتی اگر این جمله و پاراگراف ها در قسمت های مختلف صفحه کامپیوتر نمایش داده شوند.

اگر موتورهای جستجو این محتوا را به عنوان محتوای معمولی نمایه می کنند، کیفیت نمایه و کیفیت جستجو ممکن است به دلیل محتوای مخلوط و کلمات نا مناسب نزدیک کاهش یابد. حال دو نمونه از این مشکل رابه آن اشاره می کنیم: •محتوا در بخش های دیگر به عنوان مرتبط در نمایه اعمال می شوند، در حالی که اینطور نیست . •محتوای نوار کناری محتوا در نمایه قرار دارد، اما محتوای نوار جانبی به معنی سند ربطی ندارد و با نمایش آن باعث نمایه ضعیف می شود. تجزیه و تحلیل بخش موتور جستجو نیاز دارد برای پیاده سازی منطق رندر هر سند، اساسا سند واقعی را بازنمایی انتزاعی کند و سپس نمایه را به جای آن نمایش دهد. به عنوان مثال، برخی از محتوا در اینترنت توسط جاوا اسکریپت ارائه می شود. اگر موتور جستجو صفحه را رندر نکند و جاوا اسکریپت را درون صفحه ارزیابی نکند، این محتوا را همان گونه که هست نمی بیند و سند را به اشتباه نمایه می کند. با توجه به این که برخی از موتورهای جستجو نگران مسائل رندر نیستند، بسیاری از طراحان صفحه وب از محتوای جاوا اسکریپت اجتناب می کنند و یا از اسکریپت استفاده می کنند تا اطمینان حاصل شود که صفحه وب به درستی نشان داده شده است.

در عین حال، این واقعیت نیز می تواند مورد سوء استفاده قرار گیرد تا باعث شود که نمایه ساز موتور جستجو محتوای متنوعی را نسبت به بیننده ببیند.

سیستم اولویت HTML:

نمایه سازی اغلب قادر به تشخیص تگ های HTML برای سازماندهی اولویت هاست. نمایه سازی به حاشیه بالا برای، برچسب هایی مانند strong و link برای بهینه سازی ترتیب اولویت ، اولویت کمتری می دهد حات اگر این برچسب ها در ابتدای متن باشد ، نمی تواند اثبات کند که به آن مربوط است. برخی از نمایه های مانند گوگل وبینگ این اطمینان را می دهند که موتور جستجو به دلیل سازگاری با سیستم هایی که وابستگی زیادی به نوع دارند ، متون زیادی را به عنوان منبع مربوط نمی کند.

نمایه سازی متا تگ:

اسناد خاص اغلب حاوی اطلاعات متا تعبیه شده مانند نویسنده، کلمات کلیدی، شرح و زبان هستند. برای صفحات HTML، متا تگ حاوی کلمات کلیدی است که در نمایه نیز گنجانده شده اند. تکنولوژی موتور جستجوی اینترنتی پیش از این فقط از کلید واژه ها را در متا تگ ها برای نمایه پیشرو ،نمایه می کردند؛ سند کامل نمی‌شد تجزیه شود. در آن زمان نمایه سازی متن کامل به خوبی انجام نمی شد و سخت افزارهای رایانه ای نیز قادر به پشتیبانی از چنین فن آوری نبود. طراحی زبان نشانه گذاری HTML در ابتدا برای پشتیبانی از برچسب های متابود که هدف آن نمایه سازی درست و آسان بود ، که نیازی به نشانه گذاری نداشته باشد. با رشد اینترنت از دهه 1990 به بعد بسیاری از شرکت ها که وجود خارجی نداشتند وب سایت های شرکت های تجاری را تاسیس کردند. کلمات کلیدی مورد استفاده برای توصیف صفحات وب (که بسیاری از آنها صفحات وب شرکتهای تجاری مشابه با بروشورهای محصول بود) از کلمات کلیدی توصیفی به بازاریابی تغییر پیدا کردند که برای فروش با قرار دادن صفحه وب در نتایج جستجو برای جستار های خاص تغییر یافته است. واقعیت این است که این کلمات کلیدی ذاتا مشخص شده منجر به هرز آگهی شد که بسیاری از موتورهای جستجو را در دهه 1990 برای اتخاذ فناوری های نمایه سازی کامل متن وادار کرد. طراحان موتور جستجوگر و شرکت ها تنها می توانستند بسیاری از کلمات کلیدی بازاریابی را در محتوی صفحه وب قرار دهند تا قبل از تخلیه آن از اطلاعات جالب و مفید استفاده شود. با توجه به این که منافع متقابل با هدف کسب و کار طراحی وب سایت های کاربر گرامی که به هم مرتبط بودند، برای حفظ مشتری معادله ارزش طول عمر مشتری به سمت استفاده از محتوای مفید تر در وب سایت تغییر یافت. به این ترتیب، نمایه سازی کامل متن اهمیت بیشتری پیدا کرده و کیفیت نتایج موتورهای جستجو را افزایش داد، زیرا گامی بالاتر از کنترل درونی تعیین سطح نتیجه موتور جستجو بود که به نوبه خود تحقیقات تکنولوژی های نمایه سازی کامل متن را گسترش داد.

در جویشگر دسکتاپ ، بسیاری از راه حل های تگ متا توسط نویسندگان برای ایجاد یک راه، برای سفارشی کردن محتوای فایل های مختلف از محتوای فایل هایی که مشخص نیستند برای موتور جست و جو می باشند.

جویشگر دسکتاپ بیشتر تحت کنترل کاربر است، در حالی که موتورهای جستجو در اینترنت باید بیشتر روی متن کامل تمرکز کنند.

نمایه سازی وب از یک نام پر کاربرد در فرایند پیدا کردن، یک صفحه وب در نمایه سازی موتورهای جستجو استفاده می‌شود.

نمایه‌سازی در موتورهای جستجو' (به انگلیسی: Search engine indexing) به مرحله‌ای گفته می‌شود که ربات‌ها وب‌سایت‌ها را توسط آن شناسائی می‌کنند. نمایه‌سازی در موتورهای جستجو' (به انگلیسی: Search engine indexing) به مرحله‌ای گفته می‌شود که ربات‌ها وب‌سایت‌ها را توسط آن شناسائی می‌کنند. به‌طور کلی، همهٔ موتورهای جستجوگر، فرایند جستجو و بازیابی اطلاعات را از طریق برقراری ارتباط میان سه جزء اصلی تشکیل دهندهٔ خود یعنی ربات‌ها، پایگاه اطلاعاتی و نرم‌افزار بازیابی اطلاعات انجام می‌دهند. مهم‌ترین مراحل این فرایند عبارت است از:

شناسایی و نمایه‌سازی اطلاعات صفحات یا سایت‌های وب توسط روبات ها؛
انتقال و درج اطلاعات گردآوری شده در پایگاه اطلاعاتی موتور کاوش؛
جستجوی اطلاعات در پایگاه اطلاعاتی از طریق نرم‌افزار بازیابی اطلاعات؛
بازیابی، رتبه‌بندی و نمایش اطلاعات مبتنی بر اطلاعات موجود در پایگاه اطلاعاتی.

معیارهای انتخاب سایت‌ها برای نمایه‌سازی

سایت‌های دارای داده‌های ارزشمند با صفحات زیاد؛
سایت‌هایی که دارای بازدید کنندگان زیادی می‌باشند؛
سایت‌های در حال توسعه که در حال اضافه کردن اطلاعات جدید و ارزشمند می‌باشند.

راهنماهای موضوعی

راهنماهای موضوعی وب، پایگاه‌هایی هستند که اطلاعات صفحات یا سایت‌های وب منتخب را توسط نیروی انسانی در پایگاه خود نمایه می‌کنند. در راهنماهای موضوعی وب، فرایند شناسایی، بررسی، تجزیه تحلیل، ارزیابی و نمایه‌سازی صفحات یا سایت‌های وب توسط نیروی انسانی و بر اساس معیارهای از پیش تهیه شده انجام می‌شود. از آنجایی که فرایند نمایه‌سازی و تجزیه و تحلیل صفحات وب توسط نیروی انسانی متخصص انجام می‌گیرد، اطلاعات نمایه شده در پایگاه راهنمای موضوعی وب از کیفیت بالاتری نسبت به موتورهای کاوش برخوردار است. علاوه بر این، رویکرد نمایه‌سازی انسانی در راهنماهای وب، سبب شده‌است که آن‌ها نسبت به موتورهای کاوش که فرایند گردآوری اطلاعات در آن‌ها به صورت خودکار و ماشینی صورت می‌گیرد، از ریزش کاذب بسیار کمتری برخوردار باشند.

ابر موتورهای کاوش

بر خلاف موتورهای کاوش و راهنماهای منفرد، ابر موتورهای کاوش خود پایگاه اطلاعاتی ندارند و به جمع‌آوری و جستجوی صفحات وب از طریق روبات‌ها نمی‌پردازند. کاری که ابر موتورهای کاوش می‌کنند، فرستادن همزمان واژه (های) جستجو به پایگاه چند موتور کاوش یا راهنمای منفرد در شبکه جهانی وب است. به‌طور مثال از طریق ابر موتور کاوش متاکراولر، می‌توان از طریق واسط جستجوی واحد، به‌طور همزمان در پایگاه ۱۳ موتور کاوش منفرد به جستجو پرداخت. در بیانی کلی می‌توان گفت که در حوزه فناوری ذخیره و بازیابی اطلاعات در وب رویکردهای نمایه‌سازی متفاوتی وجود دارد از جمله نمایه‌سازی محتوا محوری (بر مبنای کلید واژه‌های متن)، استناد محوری (مبتنی بر تحلیل پیوندها)، معنا محوری (توجه به مفاهیم انتزاعی). هر کدام از این رویکردها مزایا و معایبی دارند که توجه به آن‌ها در جامعیت و مانعیت اطلاعات تأثیرگذار است.

استفاده از اصطلاح‌نامه در نمایه‌سازی

هدف اصلی اصطلاح‌نامه کمک به بازیابی اطلاعات و همچنین فراهم کردن امکان تولید فهرست‌های کلید واژه‌ای است. تهیه‌کنندگان پایگاه‌های اطلاعاتی از اصطلاح‌نامه در چکیده نویسی و نمایه‌سازی رایانه‌ای و کاربران نیز برای بازیابی اطلاعات استفاده می‌کنند، و به این وسیله با ایجاد درکی مشترک از اصطلاح‌های حوزه‌های مختلف به افزایش ربط در بازیابی یاری می‌رسانند. اصطلاح‌نامه با ایجاد رابطه میان اصطلاح‌های مرجح و نامرجح و مدخل قرار دادن اصطلاح مرجح و تدوین نظام ارجاع‌ها و هدایت جستجوگر از واژگان نامرجح به مرجح، امکان بازیابی مدارک را به وجود می‌آورد.

جستارهای وابسته

استاندارد استثناء کردن ربات‌ها

منابع

↑ Clarke, C. , Cormack, G. : Dynamic Inverted Indexes for a Distributed Full-Text Retrieval System. TechRep MT-95-01, University of Waterloo, February 1995.
↑ http://www.ee.columbia.edu/~dpwe/papers/Wang03-shazam.pdf
↑ Charles E. Jacobs, Adam Finkelstein, David H. Salesin. Fast Multiresolution Image Querying. Department of Computer Science and Engineering, University of Washington. 1995. Verified Dec 2006
↑ Brown, E.W. : Execution Performance Issues in Full-Text Information Retrieval. Computer Science Department, University of Massachusetts Amherst, Technical Report 95-81, October 1995.
↑ Cutting, D. , Pedersen, J. : Optimizations for dynamic inverted index maintenance. Proceedings of SIGIR, 405-411, 1990.
↑ Linear Hash Partitioning. MySQL 5.1 Reference Manual. Verified Dec 2006
↑ trie, Dictionary of Algorithms and Data Structures, U.S. National Institute of Standards and Technology.
↑ Gusfield, Dan (1999) [1997]. Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology. USA: Cambridge University Press. ISBN 0-521-58519-8..
↑ Black, Paul E. , inverted index, Dictionary of Algorithms and Data Structures, U.S. National Institute of Standards and Technology Oct 2006. Verified Dec 2006.
↑ C. C. Foster, Information retrieval: information storage and retrieval using AVL trees, Proceedings of the 1965 20th national conference, p.192-205, August 24–26, 1965, Cleveland, Ohio, United States
↑ Landauer, W. I. : The balanced tree and its utilization in information retrieval. IEEE Trans. on Electronic Computers, Vol. EC-12, No. 6, December 1963.
↑ Google Ngram Datasets بایگانی‌شده در ۲۹ سپتامبر ۲۰۱۳ توسط Wayback Machine for sale at LDC Catalog
↑ Jeffrey Dean and Sanjay Ghemawat. MapReduce: Simplified Data Processing on Large Clusters. Google, Inc. OSDI. 2004.
↑ Grossman, Frieder, Goharian. IR Basics of Inverted Index. 2002. Verified Aug 2011.
↑ Tang, Hunqiang. Dwarkadas, Sandhya. "Hybrid Global Local Indexing for Efficient Peer to Peer Information Retrieval". University of Rochester. Pg 1. http://www.cs.rochester.edu/u/sandhya/papers/nsdi04.ps
↑ Tomasic, A. , et al. : Incremental Updates of Inverted Lists for Text Document Retrieval. Short Version of Stanford University Computer Science Technical Note STAN-CS-TN-93-1, December, 1993.
↑ Sergey Brin and Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Stanford University. 1998. Verified Dec 2006.
↑ H.S. Heaps. Storage analysis of a compression coding for a document database. 1NFOR, I0(i):47-61, February 1972.
↑ The Unicode Standard - Frequently Asked Questions. Verified Dec 2006.
↑ Storage estimates. Verified Dec 2006.
↑ "Search Engine Optimization" (به انگلیسی). Retrieved 2016-09-21.
↑ Google Webmaster Tools, "Hypertext Markup Language 5", Conference for SEO January 2012.
↑ Berners-Lee, T., "Hypertext Markup Language - 2.0", RFC 1866, Network Working Group, November 1995.
↑ هنینگر، مورین؛ مترجم: نوروزی چاکلی، عبدالرضا. ” چه عواملی یک نمایه وب مناسب به وجود می‌آورند؟ ”. پیام کتابخانه. سال دوازدهم، شماره سوم و چهارم.
↑ کاظم‌پور، زهرا(1388). مقدمه‌ای بر نمایه‌سازی و چکیده نویسی. تهران: چاپار.
↑ نوروزی چاکلی، عبدالرضا(1383). ” تأثیر کاربرد اصطلاح‌نامه بر افزایش ربط در نظام‌های اطلاعاتی”. مجله اطلاع‌شناسی. سال دوم، شماره 1.

[1] Clarke, C. , Cormack, G. : Dynamic Inverted Indexes for a Distributed Full-Text Retrieval System. TechRep MT-95-01, University of Waterloo, February 1995.

[ee.columbia.edu-2] ttp://www.ee.columbia.edu/~dpwe/papers/Wang03-shazam.pdf

[3] Charles E. Jacobs, Adam Finkelstein, David H. Salesin. Fast Multiresolution Image Querying. Department of Computer Science and Engineering, University of Washington. 1995. Verified Dec 2006

[4] Brown, E.W. : Execution Performance Issues in Full-Text Information Retrieval. Computer Science Department, University of Massachusetts Amherst, Technical Report 95-81, October 1995.

[5] Cutting, D. , Pedersen, J. : Optimizations for dynamic inverted index maintenance. Proceedings of SIGIR, 405-411, 1990.

[6] Linear Hash Partitioning. MySQL 5.1 Reference Manual. Verified Dec 2006

[7] trie, Dictionary of Algorithms and Data Structures, U.S. National Institute of Standards and Technology.

[Gus97-8] Gusfield, Dan (1999) [1997]. Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology. USA: Cambridge University Press. ISBN 0-521-58519-8..

[9] Black, Paul E. , inverted index, Dictionary of Algorithms and Data Structures, U.S. National Institute of Standards and Technology Oct 2006. Verified Dec 2006.

[10] C. C. Foster, Information retrieval: information storage and retrieval using AVL trees, Proceedings of the 1965 20th national conference, p.192-205, August 24–26, 1965, Cleveland, Ohio, United States

[11] Landauer, W. I. : The balanced tree and its utilization in information retrieval. IEEE Trans. on Electronic Computers, Vol. EC-12, No. 6, December 1963.

[12] Google Ngram Datasets بایگانی‌شده در ۲۹ سپتامبر ۲۰۱۳ توسط Wayback Machine for sale at LDC Catalog

[13] Jeffrey Dean and Sanjay Ghemawat. MapReduce: Simplified Data Processing on Large Clusters. Google, Inc. OSDI. 2004.

[14] Grossman, Frieder, Goharian. IR Basics of Inverted Index. 2002. Verified Aug 2011.

[15] Tang, Hunqiang. Dwarkadas, Sandhya. "Hybrid Global Local Indexing for Efficient Peer to Peer Information Retrieval". University of Rochester. Pg 1. http://www.cs.rochester.edu/u/sandhya/papers/nsdi04.ps

[16] Tomasic, A. , et al. : Incremental Updates of Inverted Lists for Text Document Retrieval. Short Version of Stanford University Computer Science Technical Note STAN-CS-TN-93-1, December, 1993.

[17] Sergey Brin and Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Stanford University. 1998. Verified Dec 2006.

[H.S._Heaps_1972-18] H.S. Heaps. Storage analysis of a compression coding for a document database. 1NFOR, I0(i):47-61, February 1972.

[19] The Unicode Standard - Frequently Asked Questions. Verified Dec 2006.

[20] Storage estimates. Verified Dec 2006.

[21] "Search Engine Optimization" (به انگلیسی). Retrieved 2016-09-21.

[22] Google Webmaster Tools, "Hypertext Markup Language 5", Conference for SEO January 2012.

[23] Berners-Lee, T., "Hypertext Markup Language - 2.0", RFC 1866, Network Working Group, November 1995.

[24] هنینگر، مورین؛ مترجم: نوروزی چاکلی، عبدالرضا. ” چه عواملی یک نمایه وب مناسب به وجود می‌آورند؟ ”. پیام کتابخانه. سال دوازدهم، شماره سوم و چهارم.

[25] کاظم‌پور، زهرا(1388). مقدمه‌ای بر نمایه‌سازی و چکیده نویسی. تهران: چاپار.

[26] نوروزی چاکلی، عبدالرضا(1383). ” تأثیر کاربرد اصطلاح‌نامه بر افزایش ربط در نظام‌های اطلاعاتی”. مجله اطلاع‌شناسی. سال دوم، شماره 1.