پاورپوینت بررسي الگوريتم موتورهاي جستجو (pptx) 13 اسلاید
دسته بندی : پاورپوینت
نوع فایل : PowerPoint (.pptx) ( قابل ویرایش و آماده پرینت )
تعداد اسلاید: 13 اسلاید
قسمتی از متن PowerPoint (.pptx) :
بسم الله الرحمن الرحيم
موضوع : بررسي الگوريتم موتورهاي جستجو
بررسي الگوريتم موتورهاي جستجو
مقدمه
الگوريتم موتور جستجو
موتور جستجو
انواع موتورهاي جستجو
بررسي يك موتور جستجوي پيمايشي
تعريف الگوريتم موتور جستجو
الگوريتم نيز مجموعه اي از دستورالعمل ها است كه موتور جستجوگر به كمك آن تصميم ميگيرد كه سايت ها را چگونه در خروجي هايش مرتب كند. موتور جستجوگر براي رده بندي صفحات وب از الگوريتم خاصي استفاده ميكند كه فوق العاده سري ميباشد براي اينكه سايت ها با هم مقايسه شوند و بر حسب ميزان ارتباط با موضوع جستجو شده، مرتب شوند، موتور جستجوگر، الگوريتم را بر مجموعهاي از پارامترها اعمال ميكند. پارامترهاي مورد توجه موتور جستجوگر نيز همانند الگوريتم آنها ناشناخته ميباشد و اين ناشناخته ها جذابيت دنياي موتورهاي جستجوگر را دوچندان ميكنند.اگر عبارت يكساني در تمام موتورهاي جستجوگر، جستجو شود هيچ كدام از آنها نتايج يكساني را ارائه نميدهند و با نتايج كاملا متفاوتي روبرو ميشويم. تفاوت در ارائه نتايج جستجو در موتورهاي جستجوگر از تفاوت آنها در الگوريتمها و پايگاه دادهشان ناشي ميشود. حتي اگر همه آنها از پايگاه داده يكساني نيز استفاده كنند، بازهم نتايج جستجويشان متفاوت خواهد بود.
تعريف موتور جستجو
موتور جستجو یا جویشگر یا جستجوگر به طور عمومی به برنامهای گفته میشود که کلمات کلیدی را در یک سند یا بانک اطلاعاتی جستجو میکند. در اینترنت به برنامهای گفته میشود که کلمات کلیدی موجود در فایلها و سندهای وب جهانی، گروههای خبری،و آرشیوهای FTP را جستجو میکند.
برخی از موتورهای جستجو برای تنها یک وبگاه(پایگاه وب) اینترنت به کار برده میشوند و در اصل موتور جستجویی اختصاصی آن وبگاه هستند و تنها محتویات همان وبگاه را جستجو میکنند.
برخی دیگر نیز محتویات وبگاههای زیادی را پیمایش کرده و چکیدهای از آن را در یک پایگاه اطلاعاتی به شکل شاخصگذاریشده نگهداری میکنند. کاربران سپس میتوانند با جستجو کردن در این پایگاه داده به پایگاه وبی که اطلاعات موردنظر آنها را در خود دارد پی ببرند.
انواع موتور هاي جستجو
موتورهای جستجو به دو دسته کلی تقسیم میشوند.
1- موتور هاي جستجوي پيمايشي ( خودكار )
اين نوع موتور ها وب را پیمایش کرده، اطلاعاتی را ذخیره میکنند، سپس کاربران از میان این اطلاعات ذخیره شده، آنچه را که میخواهند جستجو میکنند.
2- موتور هاي جستجوي تكميل دستي ( غير خودكار ) يا دايركتوريها
وابسته به كاربراني است كه آنرا تكميل مي كنند.
دارندگان سايت ها به دايركتوري مراجعه مي كنند، گروه مناسب براي سايت خود را در آن بر مي گزينند و سايت خود را به آن گروه معرفي مي كنند.
پس از آنكه اطلاعات سايت ها به گروه هاي مختلف ارسال شد، ويراستاران دايركتوري آن اطلاعات را بررسي مي كنند. در صورتي كه گروه درخواست شده، با زمينه فعاليت سايت معرفی شده يكي باشد و همچنين ساير قوانين دايركتوري نيز رعايت شده باشد، سايت معرفی شده را در گروه ياد شده مي پذيرند و در غير اين صورت از قبول آن امتناع مي كنند.
در صورتي كه كاربران استفاده درستي از گروه هاي دايركتوري بنمايند مي توانند اطلاعات مفيدي را به كمك آنها كسب كنند.
دايركتوري از وجود يک سايت مطلع نمي گردد مگر زماني كه آن سايت به دايركتوري معرفي شود تا در يكي از گروه هاي آن قرار گيرد.
تفاوت اصلي دايركتوري با يك موتور جستجوگر در اين است كه دايركتوري نرم افزار اسپايدر ندارد .
يكي از ايراداتي كه به دايركتوري ها وارد مي شود اين است كه سايت هاي مرده زيادي در خود دارند. به عبارت ديگر يك سايت بعد از آنكه به آن معرفي شده است ديگر به فعاليت خود ادامه نداده است اما با اين حال هنوز هم دايركتوري آنرا به عنوان يك سايت فعال به كاربران معرفي مي كند.
قرار گرفتن در پايگاه داده دايركتورهاي عمده، نقش مهمي در کسب رتبه های بالا در موتورهاي جستجوگر (نوع اول) دارد. دايركتوري هاي عمده عبارتند از : Yahoo, Look Smart , Dmoz
انواع موتورهاي جستجو
3- موتورهای جستجوی ترکیبی با نتایج مختلط
به موتورهایی گفته میشود که هر دو حالت را در کنار هم نمایش میدهند. غالباً، یک موتور جستجوی ترکیبی در صورت نمایش نتیجه جستجو از هر یک از دستههای فوق، نتایج حاصل از دسته دیگر را هم مورد توجه قرار میدهد. مثلاً موتور جستجوی MSN بیشتر نتایج حاصل از فهرستهای تکمیلدستی را نشان میدهد اما در کنار آن نیم نگاهی هم به نتایج حاصل از جستجوی پیمایشی دارد.
4- ابر جستجوگرها
این گونه جدید از موتورهای جستجوگر که قدمت چندانی نیز ندارند، بصورت همزمان از چندین موتورجستجوگر برای کاوش در شبکه برای کلید واژه مورد نظر استفاده می کنند .بدین معنی که این موتور عبارت مورد نظر شما را در چندین موتورجستجوگر ِ جستجو کرده و نتایج آنها را با هم ترکیب کرده و یک نتیجه کلی به شما ارائه میدهد.
مانند موتور داگ پايل از نتايج موتورهاي MSN-yahoo-google-Ask . يا MetaCrawler, DogPile, IXQuick, Mamma
مقدمه
امروزه بر روی اينترنت صدها ميليون صفحه حاوی اطلاعات وجود دارد. کاربران اينترنت با آگاهی از آدرس يک سايت ، قادر به اتصال به سايت مورد نظر و استفاده از منابع اطلاعاتی موجود بر روی سايت خواهند بود. كاربر با دريائی از اطلاعات مواجه است، در صورتيکه قصد يافتن اطلاعاتی خاص را داشته باشد، برای جستجو و يافتن اطلاعات مورد نياز از مراکز جستجوی اطلاعات در اينترنت استفاده می گردد . به مراکز فوق Search engines نيز گفته می شود .
مراکز جستجو در اينترنت ، نوع خاصی از سايت های موجود در وب بوده که با هدف کمک برای يافتن اطلاعات ، ايجاد شده اند. مراکز جستجو در اينترنت به منظور پاسخگوئی به کاربران متقاضی و جستجوکنندگان اطلاعات با يکديگر مشابه بوده و تنها تفاوت موجود ميدان انتخاب شده برای عمليات جستجو است .
مراکز جستجو در اينترنت ، صرفا" اطلاعات مربوط به چندين هزار صفحه وب را ايندکس و روزانه دو تا سه هزار کاربر متقاضی به آنها مراجعه می كنند.
بررسي يك موتور پيمايشي
بخش هاي مجزاي يك موتور جستجو گر عبارتند از :
Spider يا عنكبوت
Crawler يا خزنده
Indexer يا بايگاني كننده
Database يا پايگاه داده
Ranker يا سيستم رتبه بندي
Spider يا عنكبوت
نرم افزاري است كه كار جمع آوري اطلاعات مورد نياز يك موتور جستجو گر را برعهده دارد .
كار اين نرم افزار شبيه كار كاربران وب است .
اسپايدر به هنگام مشاهده صفحات از خود بر روي سرورها رد پا بر جا مي گذارد .
اسپايدرها كاربردهاي ديگر نيز دارند ، مثلا عده اي از آنها به سايت ها مراجعه و فقط به بررسي لينك هاي آنان مي پردازد و يا به دنبال آدرس پست الكترونيكي مي گردند .
Google كه يکی از مراکز جستجوی معتبر است . از چندين Spider ( معمولا" سه Spider در هر لحظه ) برای ايجاد مقادير اوليه برای سيستم ، استفاده می كند . هر Spider قادر به نگهداری ارتباط خود با بيش از 300 صفحه وب در يک لحظه است . با استفاده از چهار spider ، سيستم فوق قادر به جستجوی 100 صفحه در ثانيه و توليد 600 کيلوبايت اطلاعات در هر ثانيه است . اطلاعات مورد نياز هر يک از spider ها می بايست بسرعت در اختيار آنان گذاشته شود. سيستم اوليه Google ، دارای يک سرويس دهنده اختصاصی به منظور تغذيه آدرس های URL مورد نياز برای هر يک از Spider ها بود.