本文目錄一覽:
開源搜索的20款開源搜索引擎系統
一些開源搜索引擎系統介紹,包含開源Web搜索引擎和開源桌面搜索引擎。
Sphider
Sphider是一個輕量級,採用PHP開發的web spider和搜索引擎,使用mysql來存儲數據。可以利用它來為自己的網站添加搜索功能。Sphider非常小,易於安裝和修改,已經有數千網站在使用它。
RiSearch PHP
RiSearch PHP是一個高效,功能強大的搜索引擎,特別適用於中小型網站。RiSearch PHP非常快,它能夠在不到1秒鐘內搜索5000-10000個頁面。RiSearch是一個索引搜索引擎,這就意味着它先將你的網站做索引並建立一個數據庫來存儲你網站所有頁面的關鍵詞以便快速搜索。Risearch是全文搜索引擎腳本,它把所有的關鍵詞都編成一個文檔索引除了配置文件裡面的定義排除的關鍵詞。 RiSearch使用經典的反向索引算法(與大型的搜索引擎相同),這就是為什麼它會比其它搜索引擎快的原因。
PhpDig
PhpDig是一個採用PHP開發的Web爬蟲和搜索引擎。通過對動態和靜態頁面進行索引建立一個詞彙表。當搜索查詢時,它將按一定的排序規則顯示包含關鍵字的搜索結果頁面。PhpDig包含一個模板系統並能夠索引PDF,Word,Excel,和PowerPoint文檔。PHPdig適用於專業化更強、層次更深的個性化搜索引擎,利用它打造針對某一領域的垂直搜索引擎是最好的選擇。
OpenWebSpider
OpenWebSpider是一個開源多線程Web Spider(robot:機器人,crawler:爬蟲)和包含許多有趣功能的搜索引擎。
Egothor
Egothor是一個用Java編寫的開源而高效的全文本搜索引擎。藉助Java的跨平台特性,Egothor能應用於任何環境的應用,既可配置為單獨的搜索引擎,又能用於你的應用作為全文檢索之用。
Nutch
Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。
Lucene
Apache Lucene是一個基於Java全文搜索引擎,利用它可以輕易地為Java軟件加入全文搜尋功能。Lucene的最主要工作是替文件的每一個字作索引,索引讓搜尋的效率比傳統的逐字比較大大提高,Lucen提供一組解讀,過濾,分析文件,編排和使用索引的API,它的強大之處除了高效和簡單外,是最重要的是使使用者可以隨時應自己需要自訂其功能。
Oxyus
是一個純java寫的web搜索引擎。
BDDBot
BDDBot是一個簡單的易於理解和使用的搜索引擎。它目前在一個文本文件(urls.txt)列出的URL中爬行,將結果保存在一個數據庫中。它也支持一個簡單的Web服務器,這個服務器接受來自瀏覽器的查詢並返迴響應結果。它可以方便地集成到你的Web站點中。
Zilverline
Zilverline是一個搜索引擎,它通過web方式搜索本地硬盤或intranet上的內容。Zilverline可以從PDF, Word, Excel, Powerpoint, RTF, txt, java, CHM,zip, rar等文檔中抓取它們的內容來建立摘要和索引。從本地硬盤或intranet中查找到的結果可重新再進行檢索。Zilverline支持多種語言其中包括中文。
XQEngine
XQEngine用於XML文檔的全文本搜索引擎。利用XQuery做為它的前端查詢語言。它能夠讓你查詢XML文檔集合通過使用關鍵字的邏輯組合。有點類似於Google與其它搜索引擎搜索HTML文檔一樣。XQEngine只是一個用Java開發的很緊湊的可嵌入的組件。
MG4J
MG4J可以讓你為大量的文檔集合構建一個被壓縮的全文本索引,通過使內插編碼(interpolative coding)技術。
JXTA Search
JXTA Search是一個分布式的搜索系統。設計用在點對點的網絡與網站上。
YaCy
YaCy基於p2p的分布式Web搜索引擎。同時也是一個Http緩存代理服務器。這個項目是構建基於p2p Web索引網絡的一個新方法。它可以搜索你自己的或全局的索引,也可以Crawl自己的網頁或啟動分布式Crawling等。
Red-Piranha
Red-Piranha是一個開源搜索系統,它能夠真正”學習”你所要查找的是什麼。Red-Piranha可作為你桌面系統(Windows,Linux與Mac)的個人搜索引擎,或企業內部網搜索引擎,或為你的網站提供搜索功能,或作為一個P2P搜索引擎,或與wiki結合作為一個知識/文檔管理解決方案,或搜索你要的RSS聚合信息,或搜索你公司的系統(包括SAP,Oracle或其它任何Database/Data source),或用於管理PDF,Word和其它文檔,或作為一個提供搜索信息的WebService或為你的應用程序(Web,Swing,SWT,Flash,Mozilla-XUL,PHP, Perl或c#/.Net)提供搜索後台等等。
LIUS
LIUS是一個基於Jakarta Lucene項目的索引框架。LIUS為Lucene添加了對許多文件格式的進行索引功能如:Ms Word,Ms Excel,Ms PowerPoint,RTF,PDF,XML,HTML,TXT,Open Office序列和JavaBeans.針對JavaBeans的索引特別有用當我們要對數據庫進行索引或剛好用戶使用持久層ORM技術如:Hibernate,JDO,Torque,TopLink進行開發時。
Apache Solr
Solr是一個高性能,採用Java5開發,基於Lucene的全文搜索服務器。文檔通過Http利用XML加到一個搜索集合中。查詢該集合也是通過 http收到一個XML/JSON響應來實現。它的主要特性包括:高效、靈活的緩存功能,垂直搜索功能,高亮顯示搜索結果,通過索引複製來提高可用性,提供一套強大Data Schema來定義字段,類型和設置文本分析,提供基於Web的管理界面等。
Paoding
Paoding中文分詞是一個使用Java開發的,可結合到Lucene應用中的,為互聯網、企業內部網使用的中文搜索引擎分詞組件。 Paoding填補了國內中文分詞方面開源組件的空白,致力於此並希翼成為互聯網網站首選的中文分詞開源組件。 Paoding中文分詞追求分詞的高效率和用戶良好體驗。
Carrot2
Carrot2是一個開源搜索結果分類引擎。它能夠自動把搜索結果組織成一些專題分類。Carrot2提供的一個架構能夠從各種搜索引擎(YahooAPI、GoogleAPI、MSN Search API、eTools Meta Search、Alexa Web Search、PubMed、OpenSearch、Lucene index、SOLR)獲取搜索結果。
Regain
regain是一款與Web搜索引擎類似的桌面搜索引擎系統,其不同之處在於regain不是對Internet內容的搜索,而是針對自己的文檔或文件的搜索,使用regain可以輕鬆地在幾秒內完成大量數據(許多個G)的搜索。Regain採用了Lucene的搜索語法,因此支持多種查詢方式,支持多索引的搜索及基於文件類型的高級搜索,並且能實現URL重寫及文件到HTTP的橋接,並且對中文也提供了較好的支持。
Regain提供了兩種版本:桌面搜索及服務器搜索。桌面搜索提供了對普通桌面計算機的文檔與局域網環境下的網頁的快速搜索。服務器版本主要安裝在Web服務器上,為網站及局域網環境下的文件服務器進行搜索。
什麼是垂直搜索引擎?
是通過對專業特定的領域或行業的內容進行專業和深入的分析挖掘、過濾篩選,信息定位為更精準的專業搜索。實際上是搜索引擎的細分和延伸,有針對性地為某一特定領域、某一特定人群或某一特定需求提供的專門信息檢索服務,以滿足用戶個性化的信息需求。
垂直搜索引擎能夠定向採集與垂直搜索範圍相關的網頁,對內容相關的以及適於進一步處理的網頁進行優先採集。其信息採集可以通過人工設定網址和網頁分析等方式共同進行,在定向分字段抽取出所需要的數據並處理後再以某種形式返回給用戶。
擴展資料:
垂直搜索引擎主要有四大關鍵技術
1、聚焦、實時和可管理的網頁採集技術
垂直搜索只對局部來源的網頁進行採集,採集的網頁數量適中。但其要求採集的網頁全面,必須達到更深的層級,採集動態網頁的優先級也相對較高。在實際應用中,垂直搜索的網頁採集技術能夠按需控制採集目標和範圍、按需支持深度採集及按需支持複雜的動態網頁採集。
2、從非結構化內容到結構化數據的網頁解析技術
由於垂直搜索引擎服務的特殊性,往往要求按需提供時間、來源、作者及其他元數據解析,包括對網頁中特定內容的提取。
3、精、准、全的全文索引和聯合檢索技術
垂直搜索由於在信息的專業性和使用價值方面有更高的要求,因此能夠支持全文檢索和精確檢索,並按需提供多種結果排序方式。另外,一些垂直搜索引擎還要求按需支持結構化和非結構化數據聯合檢索。
4、高度智能化的文本挖掘技術
垂直搜索是以結構化數據為最小單位。基於結構化數據和全文數據的結合,垂直搜索才能為用戶提供更加到位、更有價值的服務。整個結構化信息提取貫穿從網頁解析到網頁加工處理的過程。
參考資料來源:百度百科-垂直搜索引擎
如何用PHP製作搜索引擎
這樣看你做什麼樣的搜索,如果要做全站搜索的話,只用數據庫搜索做起來會比較困難,會遇到要檢索的數據存在不同的表中,甚至不同的庫中,如果是全站搜索的話,建議用sphinx或者lucener,如果只是某個表內容搜索的話,sql:select * from 表名 where 列名 like ‘%值%’ ;然後循環 mysql_fetch_array() 或 mysql_fetch_assoc() 或 mysql_fetch_object() 或 mysql_fetch_row()都取一行記錄,把記錄循環出來就可以了。
綜合類搜索引擎與垂直類搜索引擎孰優孰劣?
綜合來說,垂直搜索引擎優勢在於覆蓋面廣闊、信息量巨大,缺點是不能完全精確定位搜索;而垂直搜索引擎優勢在於準確率高、選擇性強,缺點是覆蓋面窄、信息量小,一般搜索結果就幾百個左右。
所以綜合搜索引擎一般單獨的用於搜索(如百度),而垂直搜索引擎一般在大型網站內部使用(如淘寶搜索)。
原創文章,作者:XBPC,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/132228.html