java離線搜索引擎,搜索引擎可以離線搜索

本文目錄一覽：

1、關於java搜索引擎
2、java 搜索引擎
3、有沒有java 開源的簡單搜索引擎
4、怎麼用java 開發一個搜索引擎呀？
5、求基於JAVA設計的搜索引擎代碼。

關於java搜索引擎

lucene的效率沒有問題，你可以100W條記錄的索引放在一台機器上，用nutch分開檢索的算法，或者用hadoop存儲索引，自己寫一個indexsearcher，但是需要注意各個機器上的結果是本地最優不是全局最優的結果，如果想全局最優的結果還得採用全局頻率計數（Nutch現在有沒有我不清楚），或者放開各個機器返回結果的數量，從算法理論的角度上最大可能的獲得最優解。100W記錄的響應我測試過，應該可以滿足要求。等你遇到什麼問題，可以再聯繫，lucene後面的基準測試你也可以看看。

老吳

java 搜索引擎

用lucene檢索包，很強大。到官網下一個最新版本就可以進行二次開發。

至於中文支持，可以使用流行的中文分詞包，建議用用paoding。

有沒有java 開源的簡單搜索引擎

被邀請回答這個問題，但是似乎問錯人了，問的是開源的搜索引擎，但是很抱歉，我對此領域並不熟悉。

我所知道的搜索引擎方案僅有:

1. Nutch ()

2. Datapark search

以下列表不是一個完整的搜索引擎方案，一般都不包括爬蟲，確切的說是IR或者全文檢索引擎更為恰當：

1. Zettair

2. Indri

3. Terrier

4. Galago

5. Zebra

6. Lucene 及其變種

Lucene

Solr

Elasticsearch

7. Sphinx

8. Xiapian

怎麼用java 開發一個搜索引擎呀？

一．創建索引

1．一般創建索引的核心步驟

（1）. 創建索引寫入對象IndexWriter：

IndexWriter indexWriter = new IndexWriter(INDEX_STORE_PATH,new StandardAnalyzer(),create);

參數說明：INDEX_STORE_PATH：索引文件存放路徑

new StandardAnalyzer()：分詞工具

create：此參數為Boolean型，true表示重新創建整個索引， false 表示增量式創建索引。

（2）．創建文檔模型,並用IndexWriter對象寫入

Document doc = new Document();

Field field1 = new Field(fieldName1, fieldValue , Field.Store.YES, Field.Index.TOKENIZED);

doc.add(field1);

Field field2 = new Field(fieldName2, fieldValue , Field.Store.YES, Field.Index.TOKENIZED);

doc.add(field2)；

……

indexWriter.addDocument(doc);

indexWriter.close();

參數說明：

Document ：負責搜集數據源,它可以從不同的物理文件提取數據並放入同一個Document 中或從一個物理文件中提取出不同的數據並放入同一個Document中。

如下圖所示

Field ：用來表示不同的數據源

fieldName1: 表示field名稱

fieldValue: 表示field 的值

Field.Store.YES,：表示是否在索引文件中完整的存儲該值。

在創建索引時，有些內容需要以摘要的形式完整地或以片段的方式顯示在頁面上，來便於用戶查找想要的記錄，那麼就應該選擇存儲,如果不需要完整或片段的顯示就不需要存儲。

Field.Index.TOKENIZED ：表示是否索引和分詞。

只要是需要當作關鍵字讓用戶查找的字段就需要建立索引。

在建立索引的過程中，如果像文章標題、文章內容這樣的Field, 一般是靠用戶輸入幾個關鍵字來查詢的，就應該選擇分詞。

如果需要用戶輸入完整字符也就是精確查找才能查詢到的，例如：beanName，就可以不分詞。

Document最直觀的理解方式：

Document就相當於我們平台中的一個普通javaBean,，而Field 就是javaBean中的一個屬性。lucene搜索的機制就是靠搜索指定的Field的值，來得到含有要搜索內容的Document 集合，所以問題的關鍵在於如何組織Document .

2．結合平台創建索引的思路

(1) 經分析搜索元素應該由如下內容組成（Document的屬性）

(2) 數據庫數據轉化為Document 的構造過程：

JavaBean / Attachment → (Temp Object) BaseData → (Finally Object) Document

分析：

要建立索引的源數據分為兩大部分：一個是數據庫數據 BeanData ,另一個是附件數據 FileData , 這樣可以建立一個抽象類 BaseData , 來存放它們共有的屬性。同時為了管理這些相應的數據，在相同的等級結構上，建立了相應的管理類（xxxDataManager），對這些數據類的操作（建立或刪除索引）進行管理，並用一個工廠類(DataManagerFactory)來創建所需要的管理類，IndexHelper用來充當整個索引模塊對外的接口，為了實現一些與平台特定的業務，特用SupportManager來提供一些額外的業務支持，索引模塊代碼結構如下圖所示。

二．搜索索引

1. lucene 搜索的核心步驟：

String[] fields = {“title”, “summary”,……}; //要查找的field範圍

BooleanClause.Occur[] flags = {BooleanClause.Occur.SHOULD, BooleanClause.Occur. MUST ,……};

Query query = MultiFieldQueryParser.parse(queryStr, fields,flags,new StandardAnalyzer());

Hits hits = new IndexSearcher(INDEX_STORE_PATH).search(query);

for (int i = 0;i hitsLength ; i++)

{

Document doc = hits.doc(i);

String title = doc.get(“title”);

String summary = doc.get(“summary”);

// 搜索出來的結果高亮顯示在頁面上

if (title != null) {

TokenStream tokenStream = analyzer.tokenStream(“title”,new StringReader(title));

String highlighterValue = highlighter.getBestFragment(tokenStream, title) ;

if(highlighterValue != null){

title = highlighterValue ;

}

//log.info(“SearchHelper.search.title=”+title);

}

if(summary!= null){

TokenStream tokenStream = analyzer.tokenStream(“summary”,new StringReader(summary));

String highlighterValue = highlighter.getBestFragment(tokenStream, creator) ;

if(highlighterValue != null){

summary = highlighterValue ;

}

//log.info(“SearchHelper.search. summary =”+ summary);

}

2．結合平台構造搜索模塊

PageData 類用來存放檢索結果集數據。

PageInfo 類用來存放頁面相關信息例如，PageData對象集合、總記錄個數、每一頁的記錄數、總頁面數量等等。

SearchHelper用來充當整個搜索模塊的對外接口。

三．為平台組件添加索引的步驟（以知識中心為例）

1．在com.cscec.oa.searchengine.extend.module 目錄下添加一個新的package

例如：com.cscec.oa.searchengine.extend.module.resourcestore

2．在新的目錄下建立data package 並建立相應的數據類，並使這個數據類繼承BeanData。

例如：

package com.cscec.oa.searchengine.extend.module.resourcestore.data

public class ResourceStoreBeanData extends BeanData{

}

3. 與data package 同一級目錄建立manager package 並建立相應管理類，並使這個管理類繼承BeanDataManager

例如：

com.cscec.oa.searchengine.extend.module.resourcestore.manager

public class ResourceStoreBeanDataManagerImpl extends BeanDataManager{

}

4．以管理員的身份登陸OA後，在菜單中找到“索引模塊管理”鏈接，將相應信息添加完成後，便可以在List 頁面點擊“創建索引”對該模塊的數據進行索引的建立，建立完成後便可以進行查詢。

求基於JAVA設計的搜索引擎代碼。

在業務邏輯層里操作不是都相同的么？為什麼特別指出不需要JSP要用GUI呢？難道是用ajax寫?但你說在數據庫搜索內容並顯示又不像ajax。搞不懂。

類似於下面那樣子的業務吧？：

String sql=”select WP_PRODUCT.*,WP_PROD_CTGRY.C_NAME from WP_PRODUCT,WP_PROD_CTGRY where WP_PRODUCT.CTGRY_ID=WP_PROD_CTGRY.TID “;

ListObject params=new ArrayListObject();

if(type!=null!””.equals(type)){

sql+=” and CTGRY_ID like ?”;

params.add(type+”%”);

}

if(proName!=null!””.equals(proName)){

sql+=” and NAME like ?”;

params.add(“%”+proName+”%”);

}

if(code!=null!””.equals(code)){

sql+=” and CUSTOM_ID like ?”;

params.add(code+”%”);

}

if(brandId!=null!””.equals(brandId)){

sql+=” and OWNER_ID = ?”;

params.add(brandId);

}

if(netId!=null !””.equals(netId)) {

sql += ” and WP_PRODUCT.TID IN(SELECT PRODUCT_ID FROM WP_NET_PRODUCT WHERE OWNER_ID = ?) “;

params.add(netId);

}

sql += ” order by WP_PRODUCT.MOD_DATE desc”;

this.getVisitor().createPaginationExecutor(sql, page, params.toArray()).pagination(WpProdBean.class);

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/239633.html