java搜索引擎,java搜索引擎技術

本文目錄一覽:

java如何實現文件搜索功能

java實現文件搜索主要使用file類和正則表達式,如下示例:

package com.kiritor.util;

import java.io.File;

import java.io.FileFilter;

import java.util.Arrays;

import java.util.Collections;

import java.util.List;

/**

 * 文件的相關操作類

 * 

 * @author Kiritor

 */

public class FileOperation {

private static String contentPath;

private static String filePath;

private static File[] fileList = null;// 保存文件列表,過濾掉目錄

public FileOperation() {

}

/** 構造函數的參數是一個目錄 */

public FileOperation(String path) {

File file = new File(path);

if (file.isDirectory())

this.contentPath = path;

else

this.filePath = path;

}

    /**獲取文件列表*/

public static File[] getFiles() {

if (contentPath == null) {

File file = new File(filePath);

fileList = new File[1];

fileList[0] = file;

return fileList;

}

fileList = new File(contentPath).listFiles(new FileFilter() {

/**使用過濾器過濾掉目錄*/

@Override

public boolean accept(File pathname) {

if(pathname.isDirectory())

{

return false;

}else

return true;

}

});

return fileList;

}

/** 對當前目錄下的所有文件進行排序 */

public static File[] sort() {

getFiles();

Arrays.sort(fileList, new FileComparator());

return fileList;

}

public static void tree(File f, int level) {

String preStr = “”;

for(int i=0; ilevel; i++) {

preStr += ”    “;

}

File[] childs = f.listFiles();

//返回一個抽象路徑名數組,這些路徑名表示此抽象路徑名表示的目錄中的文件。

for(int i=0; ichilds.length; i++) {

System.out.println(preStr + childs[i].getName());

if(childs[i].isDirectory()) {

tree(childs[i], level + 1);

}

}

}

// 提供一個”比較器”

static class FileComparator implements java.util.ComparatorFile {

@Override

public int compare(File o1, File o2) {

// 按照文件名的字典順序進行比較

return o1.getName().compareTo(o2.getName());

}

}

}

有沒有java 開源的簡單搜索引擎

被邀請回答這個問題,但是似乎問錯人了,問的是開源的搜索引擎,但是很抱歉,我對此領域並不熟悉。

我所知道的搜索引擎方案僅有:

1. Nutch ()

2. Datapark search

以下列表不是一個完整的搜索引擎方案,一般都不包括爬蟲,確切的說是IR或者全文檢索引擎更為恰當:

1. Zettair

2. Indri

3. Terrier  

4. Galago

5. Zebra

6. Lucene 及其變種

Lucene

Solr

Elasticsearch  

7. Sphinx

8. Xiapian

怎麼用java 開發一個搜索引擎呀?

一.           創建索引

1.一般創建索引的核心步驟

(1). 創建索引寫入對象IndexWriter:

IndexWriter indexWriter = new IndexWriter(INDEX_STORE_PATH,new StandardAnalyzer(),create);

參數說明:INDEX_STORE_PATH:  索引文件存放路徑

new StandardAnalyzer(): 分詞工具

create: 此參數為Boolean型,true表示重新創建整個索引, false 表示增量式創建索引。

(2).創建文檔模型,並用IndexWriter對象寫入

Document doc = new Document();

Field field1 = new Field(fieldName1, fieldValue ,  Field.Store.YES, Field.Index.TOKENIZED);

doc.add(field1);

Field field2 = new Field(fieldName2, fieldValue ,  Field.Store.YES, Field.Index.TOKENIZED);

doc.add(field2);

……

indexWriter.addDocument(doc);

indexWriter.close();

參數說明:

Document :負責搜集數據源,它可以從不同的物理文件提取數據並放入同一個Document 中或從一個物理文件中提取出不同的數據並放入同一個Document中。

如下圖所示

                 

Field :用來表示不同的數據源

fieldName1: 表示field名稱

fieldValue:  表示field 的值

Field.Store.YES,:表示是否在索引文件中完整的存儲該值。

在創建索引時,有些內容需要以摘要的形式完整地或以片段的方式顯示在頁面上,來便於用戶查找想要的記錄,那麼就應該選擇存儲,如果不需要完整或片段的顯示就不需要存儲。

Field.Index.TOKENIZED :表示是否索引和分詞。

只要是需要當作關鍵字讓用戶查找的字段就需要建立索引。

在建立索引的過程中,如果像文章標題、文章內容這樣的Field, 一般是靠用戶輸入幾個關鍵字來查詢的,就應該選擇分詞。

如果需要用戶輸入完整字符也就是精確查找才能查詢到的,例如:beanName,就可以不分詞。

Document最直觀的理解方式:

Document就相當於我們平台中的一個普通javaBean,,而Field 就是javaBean中的一個屬性。lucene搜索的機制就是靠搜索指定的Field的值 ,來得到含有要搜索內容的Document 集合,所以問題的關鍵在於如何組織Document .

2.結合平台創建索引的思路

(1) 經分析搜索元素應該由如下內容組成(Document的屬性)

(2) 數據庫數據轉化為Document 的構造過程:

JavaBean / Attachment     →   (Temp Object) BaseData  →   (Finally Object) Document

分析:

要建立索引的源數據分為兩大部分:一個是數據庫數據 BeanData ,另一個是附件數據 FileData , 這樣可以建立一個抽象類 BaseData , 來存放它們共有的屬性。同時為了管理這些相應的數據,在相同的等級結構上,建立了相應的管理類(xxxDataManager) ,對這些數據類的操作(建立或刪除索引)進行管理,並用一個工廠類(DataManagerFactory)來創建所需要的管理類,IndexHelper用來充當整個索引模塊對外的接口,為了實現一些與平台特定的業務,特用SupportManager來提供一些額外的業務支持,索引模塊代碼結構如下圖所示。

二.搜索索引

1.   lucene 搜索的核心步驟:

String[]  fields  =  {「title」, 「summary」,……};     //要查找的field範圍

BooleanClause.Occur[]   flags  =  {BooleanClause.Occur.SHOULD, BooleanClause.Occur. MUST ,……};

Query  query = MultiFieldQueryParser.parse(queryStr, fields,flags,new StandardAnalyzer());

Hits  hits  =  new  IndexSearcher(INDEX_STORE_PATH).search(query);

for (int i = 0;i hitsLength ; i++)

{

Document doc = hits.doc(i);

String title = doc.get(「title」);

String summary = doc.get(「summary」);

// 搜索出來的結果高亮顯示在頁面上

if (title != null) {

TokenStream tokenStream = analyzer.tokenStream(「title」,new StringReader(title));

String highlighterValue = highlighter.getBestFragment(tokenStream, title) ;

if(highlighterValue != null){

title = highlighterValue ;

}

//log.info(“SearchHelper.search.title=”+title);

}

if(summary!= null){

TokenStream tokenStream = analyzer.tokenStream(「summary」,new StringReader(summary));

String highlighterValue = highlighter.getBestFragment(tokenStream, creator) ;

if(highlighterValue != null){

summary = highlighterValue ;

}

//log.info(“SearchHelper.search. summary =”+ summary);

}

}

2.結合平台構造搜索模塊

PageData 類用來存放檢索結果集數據。

PageInfo 類用來存放頁面相關信息例如,PageData對象集合、總記錄個數、每一頁的記錄數、 總頁面數量等等。

SearchHelper用來充當整個搜索模塊的對外接口。

三.為平台組件添加索引的步驟(以知識中心為例)

1.在com.cscec.oa.searchengine.extend.module 目錄下添加一個新的package

例如:com.cscec.oa.searchengine.extend.module.resourcestore

2.在新的目錄下建立data package 並建立相應的數據類,並使這個數據類繼承BeanData。

例如:

package com.cscec.oa.searchengine.extend.module.resourcestore.data

public class ResourceStoreBeanData extends BeanData{

}

3. 與data package 同一級目錄建立manager package 並建立相應管理類,並使這個管理類繼承BeanDataManager

例如:

com.cscec.oa.searchengine.extend.module.resourcestore.manager

public class ResourceStoreBeanDataManagerImpl extends BeanDataManager{

}

4.以管理員的身份登陸OA後,在菜單中找到「索引模塊管理」鏈接,將相應信息添加完成後,便可以在List 頁面 點擊「創建索引」對該模塊的數據進行索引的建立,建立完成後便可以進行查詢。

原創文章,作者:XKOB,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/150032.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
XKOB的頭像XKOB
上一篇 2024-11-07 09:48
下一篇 2024-11-07 09:49

相關推薦

  • java client.getacsresponse 編譯報錯解決方法

    java client.getacsresponse 編譯報錯是Java編程過程中常見的錯誤,常見的原因是代碼的語法錯誤、類庫依賴問題和編譯環境的配置問題。下面將從多個方面進行分析…

    編程 2025-04-29
  • Java JsonPath 效率優化指南

    本篇文章將深入探討Java JsonPath的效率問題,並提供一些優化方案。 一、JsonPath 簡介 JsonPath是一個可用於從JSON數據中獲取信息的庫。它提供了一種DS…

    編程 2025-04-29
  • Java騰訊雲音視頻對接

    本文旨在從多個方面詳細闡述Java騰訊雲音視頻對接,提供完整的代碼示例。 一、騰訊雲音視頻介紹 騰訊雲音視頻服務(Cloud Tencent Real-Time Communica…

    編程 2025-04-29
  • Java Bean加載過程

    Java Bean加載過程涉及到類加載器、反射機制和Java虛擬機的執行過程。在本文中,將從這三個方面詳細闡述Java Bean加載的過程。 一、類加載器 類加載器是Java虛擬機…

    編程 2025-04-29
  • Java Milvus SearchParam withoutFields用法介紹

    本文將詳細介紹Java Milvus SearchParam withoutFields的相關知識和用法。 一、什麼是Java Milvus SearchParam without…

    編程 2025-04-29
  • Java 8中某一周的周一

    Java 8是Java語言中的一個版本,於2014年3月18日發佈。本文將從多個方面對Java 8中某一周的周一進行詳細的闡述。 一、數組處理 Java 8新特性之一是Stream…

    編程 2025-04-29
  • Java判斷字符串是否存在多個

    本文將從以下幾個方面詳細闡述如何使用Java判斷一個字符串中是否存在多個指定字符: 一、字符串遍歷 字符串是Java編程中非常重要的一種數據類型。要判斷字符串中是否存在多個指定字符…

    編程 2025-04-29
  • VSCode為什麼無法運行Java

    解答:VSCode無法運行Java是因為默認情況下,VSCode並沒有集成Java運行環境,需要手動添加Java運行環境或安裝相關插件才能實現Java代碼的編寫、調試和運行。 一、…

    編程 2025-04-29
  • Java任務下發回滾系統的設計與實現

    本文將介紹一個Java任務下發回滾系統的設計與實現。該系統可以用於執行複雜的任務,包括可回滾的任務,及時恢復任務失敗前的狀態。系統使用Java語言進行開發,可以支持多種類型的任務。…

    編程 2025-04-29
  • Java 8 Group By 會影響排序嗎?

    是的,Java 8中的Group By會對排序產生影響。本文將從多個方面探討Group By對排序的影響。 一、Group By的概述 Group By是SQL中的一種常見操作,它…

    編程 2025-04-29

發表回復

登錄後才能評論