山東省微山縣第一中學(xué) 龔義
隨著因特網(wǎng)的迅速發(fā)展, 網(wǎng)上信息以爆炸性的速度不斷豐富和擴(kuò)展,若你想詳盡瀏覽所有計(jì)算機(jī)上應(yīng)有盡有的信息, 這無異是癡人說夢。不用擔(dān)心, 面對信息的“海洋”, 我們有自己的“指南針” ———搜索引擎。它使我們在大量的信息中篩選需要的信息成為可能,本文在簡述網(wǎng)絡(luò)環(huán)境下搜索引擎的基本概念及其主要特點(diǎn).
一、搜索引擎
1.搜索引擎定義
搜索引擎(search engine)是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。其主要任務(wù)是在因特網(wǎng)上主動(dòng)搜索Web 服務(wù)器信息形成自動(dòng)索引, 索引內(nèi)容存儲于可供查詢的大型數(shù)據(jù)庫中。當(dāng)用戶輸入關(guān)鍵詞查詢時(shí),該網(wǎng)站會(huì)告訴用戶包含該關(guān)鍵字信息的所有網(wǎng)址, 并提供通向該網(wǎng)站的鏈接。
2.搜索引擎的構(gòu)成搜索引擎主要包括以下五個(gè)組成部分:
(1) 搜索引擎的網(wǎng)頁搜索程序, 用于搜索和尋找網(wǎng)站和網(wǎng)頁;
(2) 收集網(wǎng)頁信息和收集來自其他資源的其他網(wǎng)頁信息的數(shù)據(jù)庫;
(3) 標(biāo)引程序, 用于標(biāo)引數(shù)據(jù)庫中的內(nèi)容;
(4) “檢索引擎”, 即接到提問要求后, 從索引(或數(shù)據(jù)庫) 中檢索資料的算法和相關(guān)程序;
(5) 圖像(HTML) 界面, 收集用戶的提問數(shù)據(jù), 送到檢索搜索引擎。
3. 搜索引擎的基本工作原理
各搜索引擎的工作原理基本上是相同的, 其包括以下三個(gè)方面:
(1) 利用“網(wǎng)頁搜索程序”在網(wǎng)上搜尋所有信息, 并將它們反饋給搜索引擎。這主要是通過被稱為“蜘蛛(spider) ”或“機(jī)器人(robots) ”網(wǎng)頁搜索軟件訪問各網(wǎng)址的網(wǎng)頁, 并記錄下來形成一個(gè)詳盡的網(wǎng)絡(luò)目錄。
(2) 將信息進(jìn)行整理分類形成搜索引擎數(shù)據(jù)庫。在此過程中, 不同的系統(tǒng)在反饋檢索結(jié)果的數(shù)量和質(zhì)量上會(huì)有所不同, 有的將對每個(gè)站點(diǎn)的每一頁的所有內(nèi)容進(jìn)行記錄; 而其它的則在分析數(shù)據(jù)庫中的地址后, 選擇記錄最熱門站點(diǎn)的信息。被記錄信息的主要包括從HTML 標(biāo)題到整個(gè)站點(diǎn)所有文本內(nèi)容以及經(jīng)過特定算法處理后的摘要;
(3) 通過Web 服務(wù)器端軟件, 為用戶提供瀏覽器界面下的信息查詢。每個(gè)搜索引擎都為用戶提供了一個(gè)良好的人機(jī)對話的界面, 并具有幫助功能。只要在查詢輸入框中輸入想要查找的關(guān)鍵詞或短語, 并按“search”按鈕。搜索引擎就會(huì)根據(jù)用戶的輸入提問, 在索引中查找對應(yīng)的的詞語, 在進(jìn)行必要的邏輯計(jì)算后給出命中結(jié)果。用戶只需通過搜索引擎提供的超文本鏈接就可以訪問到相關(guān)信息。
有人根據(jù)搜索引擎的工作原理的不同將其分為全文搜索引擎、目錄搜索引擎和元搜索引擎,目前很多搜索引擎都是將這幾種工作原理結(jié)合使用。
二、優(yōu)秀搜索引擎所具備的主要特點(diǎn)
1. 支持目錄式的分類結(jié)構(gòu)
該結(jié)構(gòu)將信息系統(tǒng)地加以分門歸類, 遇到一個(gè)網(wǎng)站時(shí),先將該網(wǎng)站劃分到某個(gè)分類下, 再記錄一些摘要信息, 對其進(jìn)行概述性的簡要介紹(如Yahoo 網(wǎng)站) 。而并非是將網(wǎng)站上所有文章和信息都收錄進(jìn)去。該類引擎能使用戶方便明了地查找到某一大類信息,與傳統(tǒng)信息查找方式相吻合, 尤其適合那些“希望了解某一方面(或某一范圍) 的信息, 并不嚴(yán)格限于查詢關(guān)鍵詞”的用戶。但該類引擎搜索范圍較全文搜索引擎相比要小很多, 尤其是當(dāng)用戶選擇類型不當(dāng)時(shí), 有可能漏檢某些重要信息。
2. 支持全文檢索該類引擎優(yōu)點(diǎn)是有較高的查全率, 能對和網(wǎng)站的每篇文章中的每個(gè)詞進(jìn)行搜索, 只要某網(wǎng)頁有用戶送檢的“關(guān)鍵詞”就會(huì)將該網(wǎng)頁作為相匹配的結(jié)果反饋給用戶。從某方面來說, 它為用戶提供了最全面最廣泛的搜索結(jié)果, 然而正是因?yàn)樗慕Y(jié)果信息的多而全, 沒有分類式搜索引擎那樣清晰的層次結(jié)構(gòu), 其搜索結(jié)果給人一種“雜亂繁多”的感覺。
3.提供搜索結(jié)果的相關(guān)度該類引擎在找到與搜索要求相對應(yīng)的網(wǎng)站的同時(shí), 按其相關(guān)程度(指關(guān)鍵詞在文檔中出現(xiàn)的頻度) 對搜索結(jié)果進(jìn)行排序。但需要注意的是有些文檔盡管相關(guān)程度較高,但未必是用戶所需要的“最好”的文檔, 除非你知道要查找的文檔的標(biāo)題。
4.檢索方法多樣性、查找手段完備性
有些性能完善的搜索引擎不僅能檢索因特網(wǎng)上的文獻(xiàn),還能查找公司和個(gè)人的信息; 不僅能進(jìn)行文本檢索, 還能進(jìn)行圖像檢索: 不僅能檢索Web 頁面, 還提供對新聞組內(nèi)文章的查找; 不僅提供輸入單詞、詞組或句子的初級檢索方式, 還提供指定多個(gè)單詞之間的邏輯組配、截詞以及相關(guān)位置關(guān)系等的高級檢索方式; 不僅能以詞語查詢主頁信息, 也能以特定的域名、主機(jī)名、URL 等查找有關(guān)信息;此外, 還可以對被檢索文獻(xiàn)發(fā)表的語種、日期、字母的大小寫、顯示回復(fù)的數(shù)量等進(jìn)行限制。
5.技術(shù)不斷更新的搜索引擎一個(gè)優(yōu)秀的搜索引擎產(chǎn)品不再僅憑借數(shù)據(jù)庫大小、更新頻率、檢索速度、對多語言的支持這幾個(gè)基本特性來衡量, 不僅查詢速度快, 還需具有較好的可維護(hù)、可更新性能。其系統(tǒng)穩(wěn)定可靠性強(qiáng), 具有完整的容錯(cuò)備份、崩潰修復(fù)機(jī)制, 即使出錯(cuò), 也可以及時(shí)得到迅速恢復(fù)。好在搜索引擎技術(shù)發(fā)展迅速, 諸如智能化、個(gè)性化特色的新型引擎與過去的搜索引擎相比有了很大的區(qū)別。其最新技術(shù)發(fā)展包括以下幾個(gè)方面: (1) 提高搜索引擎對用戶檢索提問的理解。已經(jīng)出現(xiàn)了自然語言智能答詢; (2)對檢索結(jié)果進(jìn)行處理。如去掉檢索結(jié)果中附加的多余信息。出現(xiàn)了基于鏈接評價(jià)和訪問大眾性的搜索引擎; (3) 確定搜索引擎信息搜集范圍, 提高搜索引擎的針對性。出現(xiàn)垂直主題搜索引擎、多媒體搜索引擎、非www 信息(如FTP等類信息) 的搜索; (4) 更注意對檢索結(jié)果的處理, 如純凈搜索引擎和元搜索引擎。
朋友, 在你掌握了搜索引擎及使用技巧后,在熟悉一下搜索引擎的搜索特點(diǎn),你會(huì)發(fā)現(xiàn)互聯(lián)網(wǎng)遠(yuǎn)比想像中的精彩, 而你竟能自由自在地暢游在這片廣闊的海洋之上。
Copyright (C) 2009-2016 中華文教網(wǎng) weimi588.com All Rights Reserved 版權(quán)所有 京ICP備10012388號
商務(wù)聯(lián)系、網(wǎng)站內(nèi)容、合作建議:18610236845 zdkw2005@163.com