本文為大家介紹聚簇和索引的原理(倒排索引的原理),下面和小編一起看看詳細(xì)內(nèi)容吧。
以一臺裝有windows 10系統(tǒng)的電腦為例,搜索引擎的工作原理可以分為三個過程:第一,發(fā)現(xiàn)并收集互聯(lián)網(wǎng)上的網(wǎng)頁信息;第二,提取信息并建立索引數(shù)據(jù)庫;最后,搜索引擎利用用戶在words中輸入的關(guān)鍵字,在索引庫中快速查找文檔,評估文檔與查詢的相關(guān)性,對輸出結(jié)果進行排序,將查詢結(jié)果呈現(xiàn)給用戶。
搜索引擎并不能真正理解網(wǎng)頁上的內(nèi)容,只是機械地匹配網(wǎng)頁上的文字,真正意義上的搜索引擎通常指的是收集互聯(lián)網(wǎng)上幾千萬到幾十億的網(wǎng)頁,并逐一搜索網(wǎng)頁。單詞被索引以構(gòu)建索引數(shù)據(jù)庫的全文搜索引擎。
一個典型的搜索引擎由三個模塊組成:
1.信息采集模塊:信息采集器是一個可以瀏覽網(wǎng)頁的程序。進入網(wǎng)頁后,會以該網(wǎng)頁的鏈接作為瀏覽的起始地址,獲取鏈接的網(wǎng)頁,提取網(wǎng)頁中出現(xiàn)的信息。鏈接,并使用一定的算法來決定接下來訪問哪些鏈接。
2、查詢表模塊:查詢表模塊是一個全文索引數(shù)據(jù)庫。
3.檢索模塊:檢索模塊是實現(xiàn)檢索功能的程序。其功能是將用戶輸入的檢索表達式拆分成具有表達意義的詞或詞組,通過一定的算法得到相應(yīng)的檢索結(jié)果。
好了,聚簇和索引的原理(倒排索引的原理)的介紹到這里就結(jié)束了,想知道更多相關(guān)資料可以收藏我們的網(wǎng)站。