نمایهسازی در موتورهای جستجو
نمایهسازی در موتورهای جستجو دادهها را جمعآوری، تجزیه و تحلیل و ذخیره میکند تا بازیابی اطلاعات سریع و دقیق و آسانتر شود. طراحی اولین نمایه شامل مفاهیم میان رشتهای از زبانشناسی، روانشناسی شناختی، ریاضیات، انفورماتیک و علوم کامپیوتر میباشد. موتورهای محبوب بر روی نمایه سازی متن کامل اسناد آنلاین با زبان عادی متمرکز هستند. درحالیکه انواع رسانه مانند ویدئو صوتی و گرافیک نیز قابل جستجو هستند. موتورهای جستجو فرانمایههای دیگر خدمات را بارگیری و استفاده میکنند و یک نمایه محلی را ذخیره نمیکنند، در حالی که موتورهای جستجوی مبتنی بر حافظه پنهان بهطور دائم نمایه را همراه با مجموعه ای از نوشتهها ذخیره میکنند. بر خلاف نمایههای متن کامل، خدمات جزئی متن عمق محدودی را برای کاهش اندازه نمایه نشان میدهند. خدمات بزرگتر معمولاً نمایه سازی را به علت زمان و پردازش هزینه مورد نیاز در یک فاصله زمانی از پیش تعیین شده انجام میدهند، در حالی که موتورهای جستجوگر مبتنی بر عامل در زمان واقعی نمایه سازی میکنند.
نمایه سازی
- نمایه سازی:
هدف از ذخیرهسازی یک نمایه، بهینهسازی سرعت و کارایی در یافتن اسناد مرتبط برای یک جستار مورد جستجو است. بدون یک نمایه، موتور جستجو باید مجموعه ای از جملات هر سند را اسکن کند که نیاز به زمان و توان محاسباتی زیادی دارد. برای مثال، در حالی که یک نمایه از ۱۰٬۰۰۰ سند را میتوان در عرض یک میلی ثانیه، یک اسکن پی در پی از هر کلمه در ۱۰٬۰۰۰ سند بزرگ ممکن است ساعتها طول بکشد. در مقایسه با کاهش قابل توجهی که درزمان لازم برای به روز رسانی انجام میشود، برای ذخیرهسازی زمان در بازیابی اطلاعات میزان فضای اضافی برای ذخیره نمایه در کامپیوتر خریداری میشود.
- عوامل طراحی نمایه سازی:
عوامل عمده در طراحی معماری موتور جستجو عبارتند از:
- ادغام:
چگونه دادهها در نمایهها ثبت میشوند و چگونه کلمات یا ویژگیهای موضوعی موجود در متن به نمایه اضافه میشوند، و اینکه آیا چند نمایه ساز میتوانند به صورت یکنواخت کار کنند. ابتدا باید نمایه ساز بررسی شود که آیا محتوای قدیمی یا محتویات جدید را به روز میکند یا خیر. گذرگاه بهطور معمول با سیاست جمعآوری اطلاعات مرتبط است. با مفهوم فرمان SQL Merge و دیگر الگوریتمهای ادغام مشابه میتوان نمایههای موتور جستجو ادغام کرد.
- تکنیکهای ذخیرهسازی:
چگونه میتوان دادههای نمایه را ذخیره کرد، یعنی اینکه باید دادهها فشرده یا فیلتر شوند.
- اندازه نمایه:
چقدر فضای ذخیرهسازی کامپیوتر برای پشتیبانی از نمایه ضروری است.
- سرعت جستجو:
چقدر سریع یک کلمه میتواند در نمایه معکوس یافت شود. سرعت یافتن ورودی در یک ساختار داده، در مقایسه با اینکه سرعت آن میتواند به روز شود یا حذف شود، تمرکز اصلی علوم رایانه است.
- نگهداری:
چگونه نمایه در طول زمان نگهداری میشود.
- میزان خطا:
قابلیت اعتماد سرویس خود اهمیت دارد. مسائلی شامل برخورد با فساد نمایه، تعیین اینکه آیا دادههای بد را میتوان منزوی کرد، با سختافزار بد، پارتیشنبندی، و طرحهایی مانند پراکندگی مجدد هش یا پارتیشنبندی کامپوزیت میتواند تکثیر کند.
- ساختار دادههای نمایه:
معماری موتور جستجو که در آن نمایه سازی انجام میشود، و در روش ذخیرهسازی نمایه برای دیدار با عوامل مختلف طراحی متفاوت است.
- درخت پسوند:
شکلی مانند ساختار درخت است، که از جستجوی خطی پشتیبانی میکند که با ذخیره پسوندهای کلمات ساخته میشود.
درخت پسوند نوعی درخت است، که تلاش میکند تا هش کردن را گسترش دهد، این برای نمایه سازی موتورهای جستجو مهم است.
برای جستجوی الگوهای در توالیهای DNA و خوشه بندی مورد استفاده قرار میگیرد. یک نکته مهم این است که ذخیره یک کلمه در درخت ممکن است، فضای بیشتری از آنچه لازم است برای ذخیره خود کلمه نیاز داشته باشد. که آرایه پیوست به عنوان جایگزن آن است که به نظر میرسد نیاز به حافظه مجازی کمتری دارد و از فشرده سازی دادهها مانند الگوریتم BWT پشتیبانی میکند.
لیستی از وقایع هر معیار جستجو اتمی ذخیره میکند، که بهطور معمول در قالب یک جدول هش یا درخت دودویی است.
نقل قولها یی که برای حمایت از تجزیه و تحلیل استنادی، یا استخراج شده از متن را ذخیرهسازی میکند.
توالی طول دادهها را برای پشتیبانی از انواع دیگر بازیابی یا استخراج متن ذخیرهسازی میکند.
زمانی که در تجزیه و تحلیل معنایی پنهان رخ میدهد، از یک ماتریس دو بعدی استفاده می شوده که کلمات در اسناد در آن ذخیره میشوند.
فرصتهای زیادی برای شرایط مسابقه و گسلهای منسجم وجود دارد. به عنوان مثال، مجموعه ای از نوشتهها جدید به یک سند اضافه میشود و نمایه باید به روز شود، اما نمایه بهطور همزمان به هردو نیازهای جستار جستجو پاسخگو است.
این یک برخورد بین دو وظیفه رقابتی است. در نظر بگیرید که نویسندگان تولیدکننده اطلاعات هستند و یک نمایه ساز وب مصرفکننده این اطلاعات است، و کار آن گرفتن متن و ذخیره آن در کش (یا تنه) میباشد.
نمایه پیشرو مصرفکننده اطلاعات تولید شده توسط تنه است، و نمایه معکوس مصرفکننده اطلاعات تولید شده توسط نمایه پیشرو است.
این معمولاً به عنوان یک اشاره به مدل تولیدکننده-مصرف کننده است.
نمایه ساز تولیدکننده اطلاعات قابل جستجو است و کاربران مصرفکنندگان هستند، که باید جستجو کنند؛ که در هنگام کار با ذخیرهسازی توزیع شده و پردازش توزیع شده بزرگ وارد چالش میشود.
در تلاش برای مقیاس با مقادیر بالاتری از اطلاعات نمایه سازی شده نشان داده شده، معماری موتور جستجو ممکن است، شامل محاسبات توزیع شده باشد، جایی که موتور جستجو شامل چندین ماشین است که در هم ادغام میشوند. این باعث افزایش احتمال ناسازگاری میشود و حفظ ساختار کاملاً هماهنگ، توزیع شده و موازی آن را دشوار میسازد.
- نمایههای معکوس:
بسیاری از موتورهای جستجو با ترکیب کردن یک نمایه معکوس در هنگام ارزیابی با یک جستار برای جستجو سریع اسناد حاوی کلمات موجود در یک جستار قرار میدهند و سپس این مدارک را با توجه به رتبه طبقهبندی میکنند.
از آنجا که نمایه معکوس لیستی از اسناد حاوی هر کلمه را ذخیره میکند، موتور جستجو برای یافتن اسناد مرتبط با هر کلمه در جستار میتواند از طریق دسترسی مستقیم به سرعت به منظور یافتن اسناد مربوط استفاده شود.
این نمایه تنها میتواند تعیین کند که آیا یک کلمه در یک سند خاص وجود دارد، از آنجا که هیچ اطلاعاتی در مورد فرکانس و موقعیت کلمه ذخیره نمیشود؛ بنابراین به عنوان نمایه بولین در نظر گرفته شدهاست.
چنین نمایه ای تعیین میکند کدام یک از اسناد با یک جستار مطابق است، اما اسناد مشابه را رتبهبندی نمیکند. در برخی از طرحها، نمایه شامل اطلاعات اضافی مانند فرکانس هر کلمه در هر سند یا موقعیت یک کلمه در هر سند است، اطلاعات موقعیت این امکان را میدهد تا الگوریتم جستجو نزدیکی کلمه برای پشتیبانی از جستجو برای عبارات برای شناسایی کند؛ فرکانس را نیز میتوان برای کمک به جستار استفاده کرد. چنین موضوعاتی تمرکز اصلی تحقیق در بازیابی اطلاعات است.
نمایه معکوس یک ماتریس پراکنده است، زیرا در هر سند تمام کلمات وجود ندارد. برای استفاده کمتر از حافظه ذخیرهسازی کامپیوتر، آن را به صورت متفاوت از یک آرایه دو بعدی ذخیره میشود. این نمایه شبیه ماتریس سند اصطلاحاتی از تحلیل معنایی نهفته استفاده میکند. نمایه معکوس میتواند یک شکل از جدول هش را مورد توجه قرار دهد. در بعضی موارد، این نمایه یک شکل از یک درخت دودویی است، که نیاز به ذخیرهسازی بیشتری دارد. اما ممکن است، زمان جستجو را کاهش دهد. در نمایههای بزرگتر معماری معمولاً یک جدول هش توزیع شده است.
- آرایه ادغام:
آرایه معکوس از طریق ادغام یا بازسازی پر میشود. یک بازسازی مشابه یک ادغام است، اما ابتدا محتویات نمایه معکوس را حذف میکند. معماری ممکن است به منظور پشتیبانی از آرایه سازی افزایشی طراحی شده باشد، جایی که یک شناسایی سند ادغام میشود یا اسناد افزوده یا به روز رسانی میشوند و سپس هر سند را به کلمات تجزیه میکند. برای دقت فنی، یک ادغام، اسنادی که اخیراً نمایه شدهاند، معمولا در حافظه مجازی ذخیره میشوند، با کش مخفی در یک یا چند هارد دیسک کامپیوتر متصل میشوند. پس از تجزیه، نمایه ساز سند اشاره شده را به لیست سند برای کلمات مناسب اضافه میکند. در یک موتور جستجوی بزرگتر، فرایند پیدا کردن هر کلمه در نمایه معکوس (برای گزارش اینکه در یک سند اتفاق افتادهاست) ممکن است خیلی وقت گیر باشد؛ بنابراین این فرایند معمولاً به دو بخش تقسیم میشود: توسعه یک نمایه پیشرو و فرایندی که محتویات نمایه پیشرو را به نمایه معکوس طبقهبندی میکند. نمایه معکوس به همین دلیل نامیده میشود زیرا این یک معکوس کردن نمایه پیشرو است.
- نمایه پیشرو:
نمایه پیشرو فهرستی از کلمات برای هر سند را ذخیره میکند.
که منطق پشت توسعه یک نمایه پیشرو است، که به عنوان اسناد تجزیه میشود، بهتر است، بلافاصله کلمات را در هر سند ذخیره کنید.
این طرح پردازش سیستم نا همزمان را قادر میسازد، که تا حدی از تضعیف به روز رسانی نمایه معکوس جلوگیری میکند. نمایه پیشرو دستهبندی میشود تا آن را به یک نمایه معکوس تبدیل کند. نمایه پیشرو اساساً یک لیست دوگانه است که متشکل از یک سند و یک کلمه میباشد که توسط سند جمعآوری شدهاست. تبدیل نمایه پیشرو به یک نمایه معکوس فقط مربوط به مرتبسازی جفتها با کلمات است. در این راستا، نمایه معکوس یک نمایه پیشروی است که کلمه مرتب شده.
- فشرده سازی:
تولید یا نگهداری یک موتور جستجو در مقیاس وسیع، چالش مهم ذخیرهسازی و پردازش را ایجاد میکند. بسیاری از موتورهای جستجو از فشرده سازی برای کاهش اندازه نمایهها در دیسک استفاده میکنند. ناریوی زیر را برای یک متن کامل، موتور جستجوی اینترنتی در نظر بگیرید.
- ۸ بیت (یا ۱ [[تولید یا نگهداری یک موتور جستجو در مقیاس وسیع، چالش مهم ذخیرهسازی و پردازش را ایجاد میکند. بسیاری از موتورهای جستجو از فشرده سازی برای کاهش اندازه نمایهها در دیسک استفاده میکنند. ناریوی زیر را برای یک متن کامل، موتور جستجوی اینترنتی در نظر بگیرید.]]) برای ذخیره یک کاراکتر تنها طول میکشد. بعضی از کدگذاریها از هر بایت ۲بایت استفاده میکند.
- میانگین تعداد حرف در هر کلمه داده شده در یک صفحه ممکن است ۵ عدد باشد.
با توجه به این سناریو، یک نمایه غیر فشرده (با فرض تلفیق نشدن، ساده، نمایه) برای ۲ میلیارد صفحات وب نیاز به ذخیره ۵۰۰ میلیارد ورودی است. با در نظر گرفتن ۱ بایت در هر حرف، یا ۵ بایت در هر کلمه، موتور جست و جو نیاز به ۲۵۰۰ گیگابایت فضای ذخیرهسازی دارد. این فضای مورد نیاز میتواند حتی برای یک معماری ذخیرهسازی توزیع شده که دارای خطا هست نیز بزرگتر باشد. بسته به تکنیک فشرده سازی انتخاب شده، نمایه را میتوان به یک کسری از این اندازه کاهش داد.
مزایای همچون زمان و پردازش لازم برای آن فشرده سازی را مقرون به صرفه میکند.
بدیهی است، طرحهای موتور جستجو در مقیاس وسیع شامل هزینه ذخیرهسازی و همچنین هزینههای برق برای ذخیرهسازی است؛ بنابراین فشرده سازی یک کاهش هزینه است.
تجزیه و تحلیل سند
- تجزیه و تحلیل سند:
تجزیه و تحلیل سند مؤلفهها (کلمات) یک سند یا سایر رسانهها را برای قرار دادن در نمایههای پیشرو و معکوس از بین میبرد.
کلمات موجود به نام نشانهها هستند و بنابراین، در زمینه نمایه سازی موتورهای جستجو و پردازش زبان طبیعی، تجزیه بهطور معمول به عنوان رمزگذاری شناخته میشود و همچنین گاهی اوقات به نام کلمه ابهام زدایی مرز، برچسب زدن، تقسیمبندی متن، تجزیه و تحلیل محتوای، تجزیه و تحلیل متن، متن کاوی، تطابق نسل، تقسیمبندی سخنرانی، لغو کردن، یا تجزیه و تحلیل واژگانی، اصطلاحات «نمایه سازی»، «تجزیه و تحلیل» و «تقسیم بندی» به صورت متغیر در شعار شرکت استفاده میشوند.
پردازش زبان عامیانه موضوع تحقیق و بهبود مستمر است. نشانه گذاری چالشهای زیادی را در استخراج اطلاعات لازم از اسناد برای نمایه سازی و پشتیبانی از جستجوی کیفی ایجاد میکند.
نمایه سازی شامل چندین تکنولوژی است، که پیادهسازی آنها معمولاً به عنوان اسرار شرکتها حفظ میشود. [نیازمند منبع]
- چالشهای پردازش زبان طبیعی
- ابهام مرزی کلمه:
سخنرانان بومی انگلیسی زبان ممکن است ابتدا علامت گذاری را به عنوان یک امر مهم مستقیما در نظر میگرفتند، اما در مورد طراحی یک نمایه چند زبانه ای اینگونه نیست. در قالب دیجیتال، متون زبانهای دیگر مانند چینی ، ژاپنی یا عربی یک چالش بزرگ وجود دارد، زیرا کلمات به وضوح توسط فضای خالی مشخص نیستند.
هدف در طی نشانه گذاری شناسایی کلماتی است که کاربران آن را جستجو میکنند. برای زبانهای خاص منطقی که به درستی مرزهای کلمات را تشخیص دهد به کار گرفته میشود، که اغلب منطق طراحی یک تجزیه کننده برای هر زبان پشتیبانی شده (یا برای گروههای زبان با نشانگرهای مرزی و نحوی مشابه) است.
- ابهام زبان:
برای کمک به رتبهبندی صحیح اسناد مطابق، بسیاری از موتورهای جستجو اطلاعات اضافی در مورد هر یک از کلمات، مانند زبان یا طبقه بندی واژگانی (بخشی از حرف) جمعآوری میکند. این تکنیک ها وابسته به زبان است، زیرا هماهنگی در میان قسمت های مختلف، در میان زبان ها متفاوت است. سناد همیشه آنقدر واضح نیستند، که زبان سند را شناسایی کنند و یا دقیق آن را نشان دهند. در نشانه گذاری سند، برخی از موتور های جستجو تلاش می کنند تا به طور خودکار زبان سند را شناسایی کنند.
- فرمت های متنوع فایل:
برای درستی شناسایی که کدام بایت یک سند، شخصیت ها را نشان می دهد، فرمت فایل باید به درستی شناخته شود. موتور های جستجو که از فرمت های فایل های مختلف پشتیبانی می کنند ،باید بتوانند به درستی آن را باز کرده و به سند دسترسی داشته باشند.
- ذخیره سازی نادرست :
ممکن نیست همیشه کیفیت داده های زبان اصلی خوب باشد. در تعداد نامشخص اسناد به ویژه در اینترنت، که از پروتکل فایل مناسب اطمینان نمیشود کرد . ممکن است کاراکتر های دو دویی به صورت اشتباه در قسمت های مختلف یک سند رمز گذاری شوند. در صورت عدم شناخت این کاراکتر ها و رفتار کردن مناسب با آن، کیفیت نمایه یا عملکرد نمایه می تواند از بین برود.
- نشانه گذاری:
بر خلاف انسان های با سواد ، کامپیوترها ساختار یک سند زبان طبیعی را درک نمیکنند و نمیتوانند به طور خودکار کلمات و جملات را تشخیص دهند. برای یک رایانه، یک سند فقط یک رشته از بایت است. کامپیوترها نمیدانند که یک کاراکتر جای خالی کلمات را در یک سند جدا می کند. در عوض، انسان باید رایانه را برنامه ریزی کند تا مشخص کند چه چیزی منحصر به فرد یا واژه متمایز به نام ،یک نشانه است. چنین برنامه ای معمولا به نام نشانه گذار یا تجزیه کننده یا تحلیل واژگانی گفته میشود. بسیاری از موتور های جستجو و همچنین سایر نرم افزارهای پردازش زبان عامیانه، شامل برنامه های تخصصی برای تجزیه و تحلیل، مانند YACC یا Lex هستند. در طی نشانه گذاری، تجزیه کننده رشته های از کاراکتر هایی را که نماینده کلمات و عناصر دیگر مانند نقطه گذاری است را با کد های عددی نشان داده می شوند ،برخی از آنها کاراکتر های غیر چاپی هستند. تجزیه کننده همچنین می تواند مواردی مانند آدرس های ایمیل ، شماره تلفن ها و URL ها را شناسایی کند . هنگام شناسایی هر نشانه، ممکن است چندین ویژگی ذخیره شود. مثلا نمونه نشانه گذاری (بالا، پایین، مخلوط، مناسب)، زبان یا کد گذاری، نقش لغوی (بخشی از گفتار، مانند «اسم» یا «فعل»)، موقعیت، شماره جمله ، موقعیت جمله، طول و شماره خط میباشد.
- تشخیص زبان:
در صورتی که موتور جستجو چندین زبان را پشتیبانی کند، گام اولیه در طول نشانه گذاری، شناسایی زبان هر سند است؛ مراحل بعدی وابسته به زبان هستند (مانند تداخل و بخشی ازبرچسب زدن).
تشخیص زبان فرآیندی است که توسط آن یک برنامه کامپیوتری به طور خودکار شناسایی یا دسته بندی زبان سند را دنبال میکند. نامهای دیگر برای به رده بندی زبان به کار می رود شامل: طبقه بندی زبان، تجزیه و تحلیل زبان، شناسایی زبان و برچسب زدن زبان است. رده بندی خودکار زبان موضوع پژوهش حال حاضر در پردازش زبان طبیعی است .
پیدا کردن زبانی که کلمات به آن تعلق دارند ممکن است شامل استفاده از یک نمودار تشخیص زبان باشد.
- تجزیه و تحلیل فرمت:
اگر موتور جستجو چند نوع فرمت سند را پشتیبانی کند ، اسناد باید برای نشانه گذاری آماده شوند. مشکل این است که بسیاری از فرمت های سند علاوه بر محتوای متنی دارای اطلاعات قالب بندی هستند.
به عنوان مثال، اسناد HTML حاوی تگ های HTML است که اطلاعات قالب بندی مانند زمانی که خط جدید شروع می شود، بولد کردن و اندازه فونت یا استایل را مشخص می کند. اگر موتور جستجو تفاوت بین محتوا و "تگ گذاری" را نادیده بگیرد، اطلاعات اضافی در این نمایه گنجانده می شود که منجر به تضعیف نتایج جستجو می شود. شناسایی و دستکاری محتوای قالب بندی درون اسناد که کنترل نحوه ارائه سند را بر روی صفحه نمایش کامپیوتر و یا توسط یک برنامه نرم افزاری فرمت را تجزیه و تحلیل و تفسیر می کند. تجزیه و تحلیل فرمت تجزیه و تحلیل ساختار تگ ها، قالب، نرمال سازی متن، تمیز کردن متن و آماده سازی متن رامعرفی می کند. مشکل تجزیه وتحلیل فرمت با پیچیدیگی های مختلف فرمت های فایل ها پیچیده تر می شود. فرمت های خاصی از فایل ها با اطلاعات بسیار کمی ارایه می دهند، در حالی که دیگران به خوبی مستند شده اند. فرمت های رایج و کاملا مستند شده که بسیاری از موتور های جستجو پشتیبانی می کنند عبارتند از: •HTML •فایل های متنی ASCII (یک سند متن بدون فرمت قابل خواندن رایانه خاص) •فرمت سند قابل حمل [[Adobe ( [[PDF ) •پست اسکریپت (PS) •LaTeX •UseNet فرمت های سرور net news •XML و مشتقات آن مانند RSS •SGML •فرمت های داده های متا چندرسانه ای مانند ID3 •مایکروسافت ورد •مایکروسافت اکسل •مایکروسافت پاورپوینت •[[IBM Lotus Notes گزینه هایی برای رسیدگی به فرمت های مختلف شامل استفاده از یک ابزار تجزیه آمیز تجاری عمومی است که توسط سازمان ارائه شده است که فرمت را توسعه داده، حفظ و یا مالک آن و نوشتن یک تجزیه کننده دلخواه ارایه می دهد .
برخی از موتورهای جستجو از بازدید فایل هایی که در فرمت فایل فشرده شده یا رمزگذاری شده ذخیره می شوند پشتیبانی می کنند. هنگام کار با فرمت فشرده، نمایه ساز ابتدا سند را از حالت فشرده خارج می کند؛ این کار ممکن است به یک یا چند فایل ایجاد کند، که هر کدام به طور جداگانه باید نمایه شوند. فرمت های فایل های فشرده که معمولا پشتیبانی می شوند عبارتند از:
•ZIP - آرشیو فایل زیپ •RAR - پرونده آرشیو Roshal •CAB - مایکروسافت ویندوز کابینه فایل •Gzip - فایل های فشرده با gzip •BZIP – فایل هایی که با استفاده از bzip2 فشرده شده است •[[(tape ARshive [[(TAR) ، فایل آرشیو یونیکس ، (خودشان) فشرده شده نیستند •TAR.Z، TAR.GZ یا TAR.BZ2 - فایل های آرشیو یونیکس که با فشرده سازی Compress، GZIP یا BZIP2شده اند.
تجزیه و تحلیل فرمت می تواند شامل روش های بهبود کیفیت برای جلوگیری از "اطلاعات بد" در نمایه باشد. محتوا می تواند اطلاعات قالب بندی را برای محتوای اضافی دستکاری کند. مثل هایی از سوء استفاده از قالب بندی سند برای هرزآگهی :
•شامل صدها یا هزاران کلمه که در یک بخش است کهبر روی صفحه کامپیوتر قابل مشاهده نیست، اما با استفاده از تحلیل فرمت برای نمایه ساز قابل مشاهده است، (به عنوان مثال برچسب پنهان "div" در HTML ، که ممکن است استفاده از ترکیب CSS یا جاوا اسکریپت برای اجرای آن است.
•تنظیم رنگ فونت کلمات به همان رنگ پس زمینه برای ساخت کلماتی که در صفحه کامپیوتر برای فردی که سند را مشاهده می کند پنهان است، اما برای نمایه ساز پنهان نیست.
- شناسایی بخش:
در بعضی از موتورهای جستجو، تشخیص بخش انجام می شود تا قسمت های اصلی یک سند قبل از نشانه گذاری شناسایی شود . همه اسناد موجود در یک جزء مثل یک کتاب که به خوبی نوشته شده است، به فصل ها و صفحات سازمان یافته تقسیم نشده اند. بسیاری از اسناد در وب مانند خبرنامه ها و گزارش شرکت ها، حاوی محتوای نادرست و بخش های جانبی هستند که مربوط به مطالب اصلی نیستند (آنچه در مورد این سند است). به عنوان مثال، این مقاله یک منوی سمت را با لینک های دیگر صفحات وب نمایش می دهد. برخی از فرمت های فایل مانند HTML یا PDF اجازه می دهد محتوای در ستون نمایش داده شود.
حتی اگر محتوا نمایش داده شود یا رندر شود، در زمینه های مختلف نمایش، محتوای نشانه گذاری ممکن است این اطلاعات را به صورت متوالی ذخیره کند. واژه هایی که به طور پیوسته در محتوای منبع خبری ظاهر می شوند، به صورت پیوسته آرایه سازی می شوند، حتی اگر این جمله و پاراگراف ها در قسمت های مختلف صفحه کامپیوتر نمایش داده شوند.
اگر موتورهای جستجو این محتوا را به عنوان محتوای معمولی نمایه می کنند، کیفیت نمایه و کیفیت جستجو ممکن است به دلیل محتوای مخلوط و کلمات نا مناسب نزدیک کاهش یابد. حال دو نمونه از این مشکل رابه آن اشاره می کنیم: •محتوا در بخش های دیگر به عنوان مرتبط در نمایه اعمال می شوند، در حالی که اینطور نیست . •محتوای نوار کناری محتوا در نمایه قرار دارد، اما محتوای نوار جانبی به معنی سند ربطی ندارد و با نمایش آن باعث نمایه ضعیف می شود. تجزیه و تحلیل بخش موتور جستجو نیاز دارد برای پیاده سازی منطق رندر هر سند، اساسا سند واقعی را بازنمایی انتزاعی کند و سپس نمایه را به جای آن نمایش دهد. به عنوان مثال، برخی از محتوا در اینترنت توسط جاوا اسکریپت ارائه می شود. اگر موتور جستجو صفحه را رندر نکند و جاوا اسکریپت را درون صفحه ارزیابی نکند، این محتوا را همان گونه که هست نمی بیند و سند را به اشتباه نمایه می کند. با توجه به این که برخی از موتورهای جستجو نگران مسائل رندر نیستند، بسیاری از طراحان صفحه وب از محتوای جاوا اسکریپت اجتناب می کنند و یا از اسکریپت استفاده می کنند تا اطمینان حاصل شود که صفحه وب به درستی نشان داده شده است.
در عین حال، این واقعیت نیز می تواند مورد سوء استفاده قرار گیرد تا باعث شود که نمایه ساز موتور جستجو محتوای متنوعی را نسبت به بیننده ببیند.
- سیستم اولویت HTML:
نمایه سازی اغلب قادر به تشخیص تگ های HTML برای سازماندهی اولویت هاست. نمایه سازی به حاشیه بالا برای، برچسب هایی مانند strong و link برای بهینه سازی ترتیب اولویت ، اولویت کمتری می دهد حات اگر این برچسب ها در ابتدای متن باشد ، نمی تواند اثبات کند که به آن مربوط است. برخی از نمایه های مانند گوگل وبینگ این اطمینان را می دهند که موتور جستجو به دلیل سازگاری با سیستم هایی که وابستگی زیادی به نوع دارند ، متون زیادی را به عنوان منبع مربوط نمی کند.
- نمایه سازی متا تگ:
اسناد خاص اغلب حاوی اطلاعات متا تعبیه شده مانند نویسنده، کلمات کلیدی، شرح و زبان هستند. برای صفحات HTML، متا تگ حاوی کلمات کلیدی است که در نمایه نیز گنجانده شده اند. تکنولوژی موتور جستجوی اینترنتی پیش از این فقط از کلید واژه ها را در متا تگ ها برای نمایه پیشرو ،نمایه می کردند؛ سند کامل نمیشد تجزیه شود. در آن زمان نمایه سازی متن کامل به خوبی انجام نمی شد و سخت افزارهای رایانه ای نیز قادر به پشتیبانی از چنین فن آوری نبود. طراحی زبان نشانه گذاری HTML در ابتدا برای پشتیبانی از برچسب های متابود که هدف آن نمایه سازی درست و آسان بود ، که نیازی به نشانه گذاری نداشته باشد. با رشد اینترنت از دهه 1990 به بعد بسیاری از شرکت ها که وجود خارجی نداشتند وب سایت های شرکت های تجاری را تاسیس کردند. کلمات کلیدی مورد استفاده برای توصیف صفحات وب (که بسیاری از آنها صفحات وب شرکتهای تجاری مشابه با بروشورهای محصول بود) از کلمات کلیدی توصیفی به بازاریابی تغییر پیدا کردند که برای فروش با قرار دادن صفحه وب در نتایج جستجو برای جستار های خاص تغییر یافته است. واقعیت این است که این کلمات کلیدی ذاتا مشخص شده منجر به هرز آگهی شد که بسیاری از موتورهای جستجو را در دهه 1990 برای اتخاذ فناوری های نمایه سازی کامل متن وادار کرد. طراحان موتور جستجوگر و شرکت ها تنها می توانستند بسیاری از کلمات کلیدی بازاریابی را در محتوی صفحه وب قرار دهند تا قبل از تخلیه آن از اطلاعات جالب و مفید استفاده شود. با توجه به این که منافع متقابل با هدف کسب و کار طراحی وب سایت های کاربر گرامی که به هم مرتبط بودند، برای حفظ مشتری معادله ارزش طول عمر مشتری به سمت استفاده از محتوای مفید تر در وب سایت تغییر یافت. به این ترتیب، نمایه سازی کامل متن اهمیت بیشتری پیدا کرده و کیفیت نتایج موتورهای جستجو را افزایش داد، زیرا گامی بالاتر از کنترل درونی تعیین سطح نتیجه موتور جستجو بود که به نوبه خود تحقیقات تکنولوژی های نمایه سازی کامل متن را گسترش داد.
در جویشگر دسکتاپ ، بسیاری از راه حل های تگ متا توسط نویسندگان برای ایجاد یک راه، برای سفارشی کردن محتوای فایل های مختلف از محتوای فایل هایی که مشخص نیستند برای موتور جست و جو می باشند.
جویشگر دسکتاپ بیشتر تحت کنترل کاربر است، در حالی که موتورهای جستجو در اینترنت باید بیشتر روی متن کامل تمرکز کنند.
نمایه سازی وب از یک نام پر کاربرد در فرایند پیدا کردن، یک صفحه وب در نمایه سازی موتورهای جستجو استفاده میشود.
نمایهسازی در موتورهای جستجو' (به انگلیسی: Search engine indexing) به مرحلهای گفته میشود که رباتها وبسایتها را توسط آن شناسائی میکنند. نمایهسازی در موتورهای جستجو' (به انگلیسی: Search engine indexing) به مرحلهای گفته میشود که رباتها وبسایتها را توسط آن شناسائی میکنند. بهطور کلی، همهٔ موتورهای جستجوگر، فرایند جستجو و بازیابی اطلاعات را از طریق برقراری ارتباط میان سه جزء اصلی تشکیل دهندهٔ خود یعنی رباتها، پایگاه اطلاعاتی و نرمافزار بازیابی اطلاعات انجام میدهند. مهمترین مراحل این فرایند عبارت است از:
- شناسایی و نمایهسازی اطلاعات صفحات یا سایتهای وب توسط روبات ها؛
- انتقال و درج اطلاعات گردآوری شده در پایگاه اطلاعاتی موتور کاوش؛
- جستجوی اطلاعات در پایگاه اطلاعاتی از طریق نرمافزار بازیابی اطلاعات؛
- بازیابی، رتبهبندی و نمایش اطلاعات مبتنی بر اطلاعات موجود در پایگاه اطلاعاتی.
معیارهای انتخاب سایتها برای نمایهسازی
- سایتهای دارای دادههای ارزشمند با صفحات زیاد؛
- سایتهایی که دارای بازدید کنندگان زیادی میباشند؛
- سایتهای در حال توسعه که در حال اضافه کردن اطلاعات جدید و ارزشمند میباشند.
راهنماهای موضوعی
راهنماهای موضوعی وب، پایگاههایی هستند که اطلاعات صفحات یا سایتهای وب منتخب را توسط نیروی انسانی در پایگاه خود نمایه میکنند. در راهنماهای موضوعی وب، فرایند شناسایی، بررسی، تجزیه تحلیل، ارزیابی و نمایهسازی صفحات یا سایتهای وب توسط نیروی انسانی و بر اساس معیارهای از پیش تهیه شده انجام میشود. از آنجایی که فرایند نمایهسازی و تجزیه و تحلیل صفحات وب توسط نیروی انسانی متخصص انجام میگیرد، اطلاعات نمایه شده در پایگاه راهنمای موضوعی وب از کیفیت بالاتری نسبت به موتورهای کاوش برخوردار است. علاوه بر این، رویکرد نمایهسازی انسانی در راهنماهای وب، سبب شدهاست که آنها نسبت به موتورهای کاوش که فرایند گردآوری اطلاعات در آنها به صورت خودکار و ماشینی صورت میگیرد، از ریزش کاذب بسیار کمتری برخوردار باشند.
ابر موتورهای کاوش
بر خلاف موتورهای کاوش و راهنماهای منفرد، ابر موتورهای کاوش خود پایگاه اطلاعاتی ندارند و به جمعآوری و جستجوی صفحات وب از طریق روباتها نمیپردازند. کاری که ابر موتورهای کاوش میکنند، فرستادن همزمان واژه (های) جستجو به پایگاه چند موتور کاوش یا راهنمای منفرد در شبکه جهانی وب است. بهطور مثال از طریق ابر موتور کاوش متاکراولر، میتوان از طریق واسط جستجوی واحد، بهطور همزمان در پایگاه ۱۳ موتور کاوش منفرد به جستجو پرداخت. در بیانی کلی میتوان گفت که در حوزه فناوری ذخیره و بازیابی اطلاعات در وب رویکردهای نمایهسازی متفاوتی وجود دارد از جمله نمایهسازی محتوا محوری (بر مبنای کلید واژههای متن)، استناد محوری (مبتنی بر تحلیل پیوندها)، معنا محوری (توجه به مفاهیم انتزاعی). هر کدام از این رویکردها مزایا و معایبی دارند که توجه به آنها در جامعیت و مانعیت اطلاعات تأثیرگذار است.
استفاده از اصطلاحنامه در نمایهسازی
هدف اصلی اصطلاحنامه کمک به بازیابی اطلاعات و همچنین فراهم کردن امکان تولید فهرستهای کلید واژهای است. تهیهکنندگان پایگاههای اطلاعاتی از اصطلاحنامه در چکیده نویسی و نمایهسازی رایانهای و کاربران نیز برای بازیابی اطلاعات استفاده میکنند، و به این وسیله با ایجاد درکی مشترک از اصطلاحهای حوزههای مختلف به افزایش ربط در بازیابی یاری میرسانند. اصطلاحنامه با ایجاد رابطه میان اصطلاحهای مرجح و نامرجح و مدخل قرار دادن اصطلاح مرجح و تدوین نظام ارجاعها و هدایت جستجوگر از واژگان نامرجح به مرجح، امکان بازیابی مدارک را به وجود میآورد.
جستارهای وابسته
منابع
- ↑ Clarke, C. , Cormack, G. : Dynamic Inverted Indexes for a Distributed Full-Text Retrieval System. TechRep MT-95-01, University of Waterloo, February 1995.
- ↑ http://www.ee.columbia.edu/~dpwe/papers/Wang03-shazam.pdf
- ↑ Charles E. Jacobs, Adam Finkelstein, David H. Salesin. Fast Multiresolution Image Querying. Department of Computer Science and Engineering, University of Washington. 1995. Verified Dec 2006
- ↑ Brown, E.W. : Execution Performance Issues in Full-Text Information Retrieval. Computer Science Department, University of Massachusetts Amherst, Technical Report 95-81, October 1995.
- ↑ Cutting, D. , Pedersen, J. : Optimizations for dynamic inverted index maintenance. Proceedings of SIGIR, 405-411, 1990.
- ↑ Linear Hash Partitioning. MySQL 5.1 Reference Manual. Verified Dec 2006
- ↑ trie, Dictionary of Algorithms and Data Structures, U.S. National Institute of Standards and Technology.
- ↑ Gusfield, Dan (1999) [1997]. Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology. USA: Cambridge University Press. ISBN 0-521-58519-8..
- ↑ Black, Paul E. , inverted index, Dictionary of Algorithms and Data Structures, U.S. National Institute of Standards and Technology Oct 2006. Verified Dec 2006.
- ↑ C. C. Foster, Information retrieval: information storage and retrieval using AVL trees, Proceedings of the 1965 20th national conference, p.192-205, August 24–26, 1965, Cleveland, Ohio, United States
- ↑ Landauer, W. I. : The balanced tree and its utilization in information retrieval. IEEE Trans. on Electronic Computers, Vol. EC-12, No. 6, December 1963.
- ↑ Google Ngram Datasets بایگانیشده در ۲۹ سپتامبر ۲۰۱۳ توسط Wayback Machine for sale at LDC Catalog
- ↑ Jeffrey Dean and Sanjay Ghemawat. MapReduce: Simplified Data Processing on Large Clusters. Google, Inc. OSDI. 2004.
- ↑ Grossman, Frieder, Goharian. IR Basics of Inverted Index. 2002. Verified Aug 2011.
- ↑ Tang, Hunqiang. Dwarkadas, Sandhya. "Hybrid Global Local Indexing for Efficient Peer to Peer Information Retrieval". University of Rochester. Pg 1. http://www.cs.rochester.edu/u/sandhya/papers/nsdi04.ps
- ↑ Tomasic, A. , et al. : Incremental Updates of Inverted Lists for Text Document Retrieval. Short Version of Stanford University Computer Science Technical Note STAN-CS-TN-93-1, December, 1993.
- ↑ Sergey Brin and Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Stanford University. 1998. Verified Dec 2006.
- ↑ H.S. Heaps. Storage analysis of a compression coding for a document database. 1NFOR, I0(i):47-61, February 1972.
- ↑ The Unicode Standard - Frequently Asked Questions. Verified Dec 2006.
- ↑ Storage estimates. Verified Dec 2006.
- ↑ "Search Engine Optimization" (به انگلیسی). Retrieved 2016-09-21.
- ↑ Google Webmaster Tools, "Hypertext Markup Language 5", Conference for SEO January 2012.
- ↑ Berners-Lee, T., "Hypertext Markup Language - 2.0", RFC 1866, Network Working Group, November 1995.
- ↑ هنینگر، مورین؛ مترجم: نوروزی چاکلی، عبدالرضا. ” چه عواملی یک نمایه وب مناسب به وجود میآورند؟ ”. پیام کتابخانه. سال دوازدهم، شماره سوم و چهارم.
- ↑ کاظمپور، زهرا(1388). مقدمهای بر نمایهسازی و چکیده نویسی. تهران: چاپار.
- ↑ نوروزی چاکلی، عبدالرضا(1383). ” تأثیر کاربرد اصطلاحنامه بر افزایش ربط در نظامهای اطلاعاتی”. مجله اطلاعشناسی. سال دوم، شماره 1.