本文目錄一覽:
關於java搜索引擎
lucene的效率沒有問題,你可以100W條記錄的索引放在一台機器上,用nutch分開檢索的演算法,或者用hadoop存儲索引,自己寫一個indexsearcher,但是需要注意各個機器上的結果是本地最優不是全局最優的結果,如果想全局最優的結果還得採用全局頻率計數(Nutch現在有沒有我不清楚),或者放開各個機器返回結果的數量,從演算法理論的角度上最大可能的獲得最優解。100W記錄的響應我測試過,應該可以滿足要求。等你遇到什麼問題,可以再聯繫,lucene後面的基準測試你也可以看看。
老吳
java 搜索引擎
用lucene檢索包,很強大。到官網下一個最新版本就可以進行二次開發。
至於中文支持,可以使用流行的中文分詞包,建議用用paoding。
有沒有java 開源的簡單搜索引擎
被邀請回答這個問題,但是似乎問錯人了,問的是開源的搜索引擎,但是很抱歉,我對此領域並不熟悉。
我所知道的搜索引擎方案僅有:
1. Nutch ()
2. Datapark search
以下列表不是一個完整的搜索引擎方案,一般都不包括爬蟲,確切的說是IR或者全文檢索引擎更為恰當:
1. Zettair
2. Indri
3. Terrier
4. Galago
5. Zebra
6. Lucene 及其變種
Lucene
Solr
Elasticsearch
7. Sphinx
8. Xiapian
怎麼用java 開發一個搜索引擎呀?
一. 創建索引
1.一般創建索引的核心步驟
(1). 創建索引寫入對象IndexWriter:
IndexWriter indexWriter = new IndexWriter(INDEX_STORE_PATH,new StandardAnalyzer(),create);
參數說明:INDEX_STORE_PATH: 索引文件存放路徑
new StandardAnalyzer(): 分詞工具
create: 此參數為Boolean型,true表示重新創建整個索引, false 表示增量式創建索引。
(2).創建文檔模型,並用IndexWriter對象寫入
Document doc = new Document();
Field field1 = new Field(fieldName1, fieldValue , Field.Store.YES, Field.Index.TOKENIZED);
doc.add(field1);
Field field2 = new Field(fieldName2, fieldValue , Field.Store.YES, Field.Index.TOKENIZED);
doc.add(field2);
……
indexWriter.addDocument(doc);
indexWriter.close();
參數說明:
Document :負責搜集數據源,它可以從不同的物理文件提取數據並放入同一個Document 中或從一個物理文件中提取出不同的數據並放入同一個Document中。
如下圖所示
Field :用來表示不同的數據源
fieldName1: 表示field名稱
fieldValue: 表示field 的值
Field.Store.YES,:表示是否在索引文件中完整的存儲該值。
在創建索引時,有些內容需要以摘要的形式完整地或以片段的方式顯示在頁面上,來便於用戶查找想要的記錄,那麼就應該選擇存儲,如果不需要完整或片段的顯示就不需要存儲。
Field.Index.TOKENIZED :表示是否索引和分詞。
只要是需要當作關鍵字讓用戶查找的欄位就需要建立索引。
在建立索引的過程中,如果像文章標題、文章內容這樣的Field, 一般是靠用戶輸入幾個關鍵字來查詢的,就應該選擇分詞。
如果需要用戶輸入完整字元也就是精確查找才能查詢到的,例如:beanName,就可以不分詞。
Document最直觀的理解方式:
Document就相當於我們平台中的一個普通javaBean,,而Field 就是javaBean中的一個屬性。lucene搜索的機制就是靠搜索指定的Field的值 ,來得到含有要搜索內容的Document 集合,所以問題的關鍵在於如何組織Document .
2.結合平台創建索引的思路
(1) 經分析搜索元素應該由如下內容組成(Document的屬性)
(2) 資料庫數據轉化為Document 的構造過程:
JavaBean / Attachment → (Temp Object) BaseData → (Finally Object) Document
分析:
要建立索引的源數據分為兩大部分:一個是資料庫數據 BeanData ,另一個是附件數據 FileData , 這樣可以建立一個抽象類 BaseData , 來存放它們共有的屬性。同時為了管理這些相應的數據,在相同的等級結構上,建立了相應的管理類(xxxDataManager) ,對這些數據類的操作(建立或刪除索引)進行管理,並用一個工廠類(DataManagerFactory)來創建所需要的管理類,IndexHelper用來充當整個索引模塊對外的介面,為了實現一些與平台特定的業務,特用SupportManager來提供一些額外的業務支持,索引模塊代碼結構如下圖所示。
二.搜索索引
1. lucene 搜索的核心步驟:
String[] fields = {「title」, 「summary」,……}; //要查找的field範圍
BooleanClause.Occur[] flags = {BooleanClause.Occur.SHOULD, BooleanClause.Occur. MUST ,……};
Query query = MultiFieldQueryParser.parse(queryStr, fields,flags,new StandardAnalyzer());
Hits hits = new IndexSearcher(INDEX_STORE_PATH).search(query);
for (int i = 0;i hitsLength ; i++)
{
Document doc = hits.doc(i);
String title = doc.get(「title」);
String summary = doc.get(「summary」);
// 搜索出來的結果高亮顯示在頁面上
if (title != null) {
TokenStream tokenStream = analyzer.tokenStream(「title」,new StringReader(title));
String highlighterValue = highlighter.getBestFragment(tokenStream, title) ;
if(highlighterValue != null){
title = highlighterValue ;
}
//log.info(“SearchHelper.search.title=”+title);
}
if(summary!= null){
TokenStream tokenStream = analyzer.tokenStream(「summary」,new StringReader(summary));
String highlighterValue = highlighter.getBestFragment(tokenStream, creator) ;
if(highlighterValue != null){
summary = highlighterValue ;
}
//log.info(“SearchHelper.search. summary =”+ summary);
}
}
2.結合平台構造搜索模塊
PageData 類用來存放檢索結果集數據。
PageInfo 類用來存放頁面相關信息例如,PageData對象集合、總記錄個數、每一頁的記錄數、 總頁面數量等等。
SearchHelper用來充當整個搜索模塊的對外介面。
三.為平台組件添加索引的步驟(以知識中心為例)
1.在com.cscec.oa.searchengine.extend.module 目錄下添加一個新的package
例如:com.cscec.oa.searchengine.extend.module.resourcestore
2.在新的目錄下建立data package 並建立相應的數據類,並使這個數據類繼承BeanData。
例如:
package com.cscec.oa.searchengine.extend.module.resourcestore.data
public class ResourceStoreBeanData extends BeanData{
}
3. 與data package 同一級目錄建立manager package 並建立相應管理類,並使這個管理類繼承BeanDataManager
例如:
com.cscec.oa.searchengine.extend.module.resourcestore.manager
public class ResourceStoreBeanDataManagerImpl extends BeanDataManager{
}
4.以管理員的身份登陸OA後,在菜單中找到「索引模塊管理」鏈接,將相應信息添加完成後,便可以在List 頁面 點擊「創建索引」對該模塊的數據進行索引的建立,建立完成後便可以進行查詢。
求基於JAVA設計的搜索引擎代碼。
在業務邏輯層里操作不是都相同的么?為什麼特別指出不需要JSP要用GUI呢?難道是用ajax寫?但你說在資料庫搜索內容並顯示又不像ajax。搞不懂。
類似於下面那樣子的業務吧?:
String sql=”select WP_PRODUCT.*,WP_PROD_CTGRY.C_NAME from WP_PRODUCT,WP_PROD_CTGRY where WP_PRODUCT.CTGRY_ID=WP_PROD_CTGRY.TID “;
ListObject params=new ArrayListObject();
if(type!=null!””.equals(type)){
sql+=” and CTGRY_ID like ?”;
params.add(type+”%”);
}
if(proName!=null!””.equals(proName)){
sql+=” and NAME like ?”;
params.add(“%”+proName+”%”);
}
if(code!=null!””.equals(code)){
sql+=” and CUSTOM_ID like ?”;
params.add(code+”%”);
}
if(brandId!=null!””.equals(brandId)){
sql+=” and OWNER_ID = ?”;
params.add(brandId);
}
if(netId!=null !””.equals(netId)) {
sql += ” and WP_PRODUCT.TID IN(SELECT PRODUCT_ID FROM WP_NET_PRODUCT WHERE OWNER_ID = ?) “;
params.add(netId);
}
sql += ” order by WP_PRODUCT.MOD_DATE desc”;
this.getVisitor().createPaginationExecutor(sql, page, params.toArray()).pagination(WpProdBean.class);
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/239633.html