java搜索引擎,java搜索引擎技術

本文目錄一覽：

1、java如何實現文件搜索功能
2、有沒有java 開源的簡單搜索引擎
3、怎麼用java 開發一個搜索引擎呀？

java如何實現文件搜索功能

java實現文件搜索主要使用file類和正則表達式，如下示例：

package com.kiritor.util;

import java.io.File;

import java.io.FileFilter;

import java.util.Arrays;

import java.util.Collections;

import java.util.List;

/**

* 文件的相關操作類

* @author Kiritor

public class FileOperation {

private static String contentPath;

private static String filePath;

private static File[] fileList = null;// 保存文件列表,過濾掉目錄

public FileOperation() {

}

/** 構造函數的參數是一個目錄 */

public FileOperation(String path) {

File file = new File(path);

if (file.isDirectory())

this.contentPath = path;

else

this.filePath = path;

}

/**獲取文件列表*/

public static File[] getFiles() {

if (contentPath == null) {

File file = new File(filePath);

fileList = new File[1];

fileList[0] = file;

return fileList;

}

fileList = new File(contentPath).listFiles(new FileFilter() {

/**使用過濾器過濾掉目錄*/

@Override

public boolean accept(File pathname) {

if(pathname.isDirectory())

{

return false;

}else

return true;

}

});

return fileList;

}

/** 對當前目錄下的所有文件進行排序 */

public static File[] sort() {

getFiles();

Arrays.sort(fileList, new FileComparator());

return fileList;

}

public static void tree(File f, int level) {

String preStr = “”;

for(int i=0; ilevel; i++) {

preStr += ” “;

}

File[] childs = f.listFiles();

//返回一個抽象路徑名數組，這些路徑名表示此抽象路徑名表示的目錄中的文件。

for(int i=0; ichilds.length; i++) {

System.out.println(preStr + childs[i].getName());

if(childs[i].isDirectory()) {

tree(childs[i], level + 1);

}

// 提供一個”比較器”

static class FileComparator implements java.util.ComparatorFile {

@Override

public int compare(File o1, File o2) {

// 按照文件名的字典順序進行比較

return o1.getName().compareTo(o2.getName());

}

有沒有java 開源的簡單搜索引擎

被邀請回答這個問題，但是似乎問錯人了，問的是開源的搜索引擎，但是很抱歉，我對此領域並不熟悉。

我所知道的搜索引擎方案僅有:

1. Nutch ()

2. Datapark search

以下列表不是一個完整的搜索引擎方案，一般都不包括爬蟲，確切的說是IR或者全文檢索引擎更為恰當：

1. Zettair

2. Indri

3. Terrier

4. Galago

5. Zebra

6. Lucene 及其變種

Lucene

Solr

Elasticsearch

7. Sphinx

8. Xiapian

怎麼用java 開發一個搜索引擎呀？

一．創建索引

1．一般創建索引的核心步驟

（1）. 創建索引寫入對象IndexWriter：

IndexWriter indexWriter = new IndexWriter(INDEX_STORE_PATH,new StandardAnalyzer(),create);

參數說明：INDEX_STORE_PATH：索引文件存放路徑

new StandardAnalyzer()：分詞工具

create：此參數為Boolean型，true表示重新創建整個索引， false 表示增量式創建索引。

（2）．創建文檔模型,並用IndexWriter對象寫入

Document doc = new Document();

Field field1 = new Field(fieldName1, fieldValue , Field.Store.YES, Field.Index.TOKENIZED);

doc.add(field1);

Field field2 = new Field(fieldName2, fieldValue , Field.Store.YES, Field.Index.TOKENIZED);

doc.add(field2)；

……

indexWriter.addDocument(doc);

indexWriter.close();

參數說明：

Document ：負責搜集數據源,它可以從不同的物理文件提取數據並放入同一個Document 中或從一個物理文件中提取出不同的數據並放入同一個Document中。

如下圖所示

Field ：用來表示不同的數據源

fieldName1: 表示field名稱

fieldValue: 表示field 的值

Field.Store.YES,：表示是否在索引文件中完整的存儲該值。

在創建索引時，有些內容需要以摘要的形式完整地或以片段的方式顯示在頁面上，來便於用戶查找想要的記錄，那麼就應該選擇存儲,如果不需要完整或片段的顯示就不需要存儲。

Field.Index.TOKENIZED ：表示是否索引和分詞。

只要是需要當作關鍵字讓用戶查找的字段就需要建立索引。

在建立索引的過程中，如果像文章標題、文章內容這樣的Field, 一般是靠用戶輸入幾個關鍵字來查詢的，就應該選擇分詞。

如果需要用戶輸入完整字符也就是精確查找才能查詢到的，例如：beanName，就可以不分詞。

Document最直觀的理解方式：

Document就相當於我們平台中的一個普通javaBean,，而Field 就是javaBean中的一個屬性。lucene搜索的機制就是靠搜索指定的Field的值，來得到含有要搜索內容的Document 集合，所以問題的關鍵在於如何組織Document .

2．結合平台創建索引的思路

(1) 經分析搜索元素應該由如下內容組成（Document的屬性）

(2) 數據庫數據轉化為Document 的構造過程：

JavaBean / Attachment → (Temp Object) BaseData → (Finally Object) Document

分析：

要建立索引的源數據分為兩大部分：一個是數據庫數據 BeanData ,另一個是附件數據 FileData , 這樣可以建立一個抽象類 BaseData , 來存放它們共有的屬性。同時為了管理這些相應的數據，在相同的等級結構上，建立了相應的管理類（xxxDataManager），對這些數據類的操作（建立或刪除索引）進行管理，並用一個工廠類(DataManagerFactory)來創建所需要的管理類，IndexHelper用來充當整個索引模塊對外的接口，為了實現一些與平台特定的業務，特用SupportManager來提供一些額外的業務支持，索引模塊代碼結構如下圖所示。

二．搜索索引

1. lucene 搜索的核心步驟：

String[] fields = {「title」, 「summary」,……}; //要查找的field範圍

BooleanClause.Occur[] flags = {BooleanClause.Occur.SHOULD, BooleanClause.Occur. MUST ,……};

Query query = MultiFieldQueryParser.parse(queryStr, fields,flags,new StandardAnalyzer());

Hits hits = new IndexSearcher(INDEX_STORE_PATH).search(query);

for (int i = 0;i hitsLength ; i++)

{

Document doc = hits.doc(i);

String title = doc.get(「title」);

String summary = doc.get(「summary」);

// 搜索出來的結果高亮顯示在頁面上

if (title != null) {

TokenStream tokenStream = analyzer.tokenStream(「title」,new StringReader(title));

String highlighterValue = highlighter.getBestFragment(tokenStream, title) ;

if(highlighterValue != null){

title = highlighterValue ;

}

//log.info(“SearchHelper.search.title=”+title);

}

if(summary!= null){

TokenStream tokenStream = analyzer.tokenStream(「summary」,new StringReader(summary));

String highlighterValue = highlighter.getBestFragment(tokenStream, creator) ;

if(highlighterValue != null){

summary = highlighterValue ;

}

//log.info(“SearchHelper.search. summary =”+ summary);

}

2．結合平台構造搜索模塊

PageData 類用來存放檢索結果集數據。

PageInfo 類用來存放頁面相關信息例如，PageData對象集合、總記錄個數、每一頁的記錄數、總頁面數量等等。

SearchHelper用來充當整個搜索模塊的對外接口。

三．為平台組件添加索引的步驟（以知識中心為例）

1．在com.cscec.oa.searchengine.extend.module 目錄下添加一個新的package

例如：com.cscec.oa.searchengine.extend.module.resourcestore

2．在新的目錄下建立data package 並建立相應的數據類，並使這個數據類繼承BeanData。

例如：

package com.cscec.oa.searchengine.extend.module.resourcestore.data

public class ResourceStoreBeanData extends BeanData{

}

3. 與data package 同一級目錄建立manager package 並建立相應管理類，並使這個管理類繼承BeanDataManager

例如：

com.cscec.oa.searchengine.extend.module.resourcestore.manager

public class ResourceStoreBeanDataManagerImpl extends BeanDataManager{

}

4．以管理員的身份登陸OA後，在菜單中找到「索引模塊管理」鏈接，將相應信息添加完成後，便可以在List 頁面點擊「創建索引」對該模塊的數據進行索引的建立，建立完成後便可以進行查詢。

原創文章，作者：XKOB，如若轉載，請註明出處：https://www.506064.com/zh-hk/n/150032.html

java搜索引擎,java搜索引擎技術

本文目錄一覽：

java如何實現文件搜索功能

有沒有java 開源的簡單搜索引擎

怎麼用java 開發一個搜索引擎呀？

相關推薦

發表回復