java搜索引擎,用java實現搜索引擎

本文目錄一覽：

1、北大青鳥設計培訓：學習Java應該了解的大數據和框架？
2、JAVA實現BAIDU的搜索功能
3、怎麼用java 開發一個搜索引擎呀？
4、java如何實現文件搜索功能
5、java如何實現搜索功能。比如，輸入txt就能搜索出這個文件夾內所有txt格式的文件。請給完整代碼。
6、java 搜索引擎

北大青鳥設計培訓：學習Java應該了解的大數據和框架？

很多人都在知道，計算機行業的發展是非常迅速的，軟體開發人員想要跟上時代的發展，最重要的就是不斷挑戰自己。

在學習軟體開發的過程，前期學習的知識是遠遠不夠的，需要了解更多的知識，並且挑戰更多的複雜性。

現在學習Java語言不能忽略工具和框架的使用，工具和框架的構建越來越複雜。

很多人不知道學習工具和框架有什麼用？下面煙台電腦培訓為大家具體了解Java開發應該了解的大數據工具和框架。

一、MongoDB這是一種最受歡迎的，跨平台的，面向文檔的資料庫。

MongoDB的核心優勢是靈活的文檔模型，高可用性複製集和可擴展的碎片集群。

煙台java培訓建議可以嘗試以多種方式了解MongoDB，例如MongoDB工具的實時監控，內存使用和頁面錯誤，連接，資料庫操作，複製集等。

二、Elasticsearch主要是能夠為雲構建的分散式RESTful搜索引擎。

Elasticsearch主要是使用在Lucene之中的伺服器，能夠進行分散式多用戶能力的全文搜索引擎，並且還是使用在Java的開發中，這是現在很多企業中使用最流行的搜索引擎。

ElasticSearch不僅是一個全文搜索引擎，而且是一個分散式實時文檔存儲，每個欄位都能夠被索引並且可以被搜索。

它也是一個具有實時分析功能的分散式搜索引擎，java課程發現它還可以擴展到數百個伺服器存儲和處理數PB的數據。

三、Cassandra這是一個開源的分散式資料庫管理系統，最初由Facebook開發，用於處理許多商用伺服器上的大量數據，提供高可用性而無單點故障。

ApacheCassandra是一套開源分散式NoSQL資料庫系統。

集GoogleBigTable的數據模型與AmazonDynamo的完全分散式架構於一身。

於2008開源，此後，由於Cassandra良好的可擴展性，被Digg、Twitter等Web2.0網站所採納，成為了一種流行的分散式結構化數據存儲方案。

四、Redis開源（BSD許可證）內存數據結構存儲，用作資料庫，緩存和消息代理。

Redis是一個開源的，基於日誌的Key-Value資料庫，用ANSIC編寫，支持網路，可以基於內存持久化，並提供多種語言的API。

Redis有三個主要功能，煙台IT培訓認為可以將它與許多其他競爭對手區分開來：Redis是一個將數據完全存儲在內存中的資料庫，僅使用磁碟用於持久性目的。

JAVA實現BAIDU的搜索功能

下列的程序實現了數據文件zip方式的壓縮和解壓縮方法。randomData()函數隨機生成

50個double數據,並放在doc字元串變數中;openFile()函數讀取ZIP壓縮文件;saveFile()函數

將隨機生成的數據存到ZIP格式的壓縮文件中。

import java.util.zip.*;

import java.awt.event.*;

import java.awt.*;

import java.lang.Math;

import java.io.*;

public class TestZip extends Frame implements ActionListener {

TextArea textarea; ‖顯示數據文件的多行文本顯示域

TextField infotip; ‖顯示數據文件未壓縮大小及壓縮大小單行文本顯示域

String doc; ‖存儲隨機生成的數據

long doczipsize = 0;‖壓縮數據文件的大小

public TestZip(){

‖生成菜單

MenuBar menubar = new MenuBar();

setMenuBar(menubar);

Menu file = new Menu(“File”,true);

menubar.add(file);

MenuItem neww= new MenuItem(“New”);

neww.addActionListener(this);

file.add(neww);

MenuItem open=new MenuItem(“Open”);

open.addActionListener(this);

file.add(open);

MenuItem save=new MenuItem(“Save”);

save.addActionListener(this);

file.add(save);

MenuItem exit=new MenuItem(“Exit”);

exit.addActionListener(this);

file.add(exit);

‖隨機生成的數據文件的多行文本顯示域

add(“Center”,textarea = new TextArea());

‖提示文本原始大小、壓縮大小的單行文本顯示域

add(“South”,infotip = new TextField());

}

public static void main(String args[]){

TestZip ok=new TestZip();

希望採納謝謝

怎麼用java 開發一個搜索引擎呀？

一．創建索引

1．一般創建索引的核心步驟

（1）. 創建索引寫入對象IndexWriter：

IndexWriter indexWriter = new IndexWriter(INDEX_STORE_PATH,new StandardAnalyzer(),create);

參數說明：INDEX_STORE_PATH：索引文件存放路徑

new StandardAnalyzer()：分詞工具

create：此參數為Boolean型，true表示重新創建整個索引， false 表示增量式創建索引。

（2）．創建文檔模型,並用IndexWriter對象寫入

Document doc = new Document();

Field field1 = new Field(fieldName1, fieldValue , Field.Store.YES, Field.Index.TOKENIZED);

doc.add(field1);

Field field2 = new Field(fieldName2, fieldValue , Field.Store.YES, Field.Index.TOKENIZED);

doc.add(field2)；

……

indexWriter.addDocument(doc);

indexWriter.close();

參數說明：

Document ：負責搜集數據源,它可以從不同的物理文件提取數據並放入同一個Document 中或從一個物理文件中提取出不同的數據並放入同一個Document中。

如下圖所示

Field ：用來表示不同的數據源

fieldName1: 表示field名稱

fieldValue: 表示field 的值

Field.Store.YES,：表示是否在索引文件中完整的存儲該值。

在創建索引時，有些內容需要以摘要的形式完整地或以片段的方式顯示在頁面上，來便於用戶查找想要的記錄，那麼就應該選擇存儲,如果不需要完整或片段的顯示就不需要存儲。

Field.Index.TOKENIZED ：表示是否索引和分詞。

只要是需要當作關鍵字讓用戶查找的欄位就需要建立索引。

在建立索引的過程中，如果像文章標題、文章內容這樣的Field, 一般是靠用戶輸入幾個關鍵字來查詢的，就應該選擇分詞。

如果需要用戶輸入完整字元也就是精確查找才能查詢到的，例如：beanName，就可以不分詞。

Document最直觀的理解方式：

Document就相當於我們平台中的一個普通javaBean,，而Field 就是javaBean中的一個屬性。lucene搜索的機制就是靠搜索指定的Field的值，來得到含有要搜索內容的Document 集合，所以問題的關鍵在於如何組織Document .

2．結合平台創建索引的思路

(1) 經分析搜索元素應該由如下內容組成（Document的屬性）

(2) 資料庫數據轉化為Document 的構造過程：

JavaBean / Attachment → (Temp Object) BaseData → (Finally Object) Document

分析：

要建立索引的源數據分為兩大部分：一個是資料庫數據 BeanData ,另一個是附件數據 FileData , 這樣可以建立一個抽象類 BaseData , 來存放它們共有的屬性。同時為了管理這些相應的數據，在相同的等級結構上，建立了相應的管理類（xxxDataManager），對這些數據類的操作（建立或刪除索引）進行管理，並用一個工廠類(DataManagerFactory)來創建所需要的管理類，IndexHelper用來充當整個索引模塊對外的介面，為了實現一些與平台特定的業務，特用SupportManager來提供一些額外的業務支持，索引模塊代碼結構如下圖所示。

二．搜索索引

1. lucene 搜索的核心步驟：

String[] fields = {「title」, 「summary」,……}; //要查找的field範圍

BooleanClause.Occur[] flags = {BooleanClause.Occur.SHOULD, BooleanClause.Occur. MUST ,……};

Query query = MultiFieldQueryParser.parse(queryStr, fields,flags,new StandardAnalyzer());

Hits hits = new IndexSearcher(INDEX_STORE_PATH).search(query);

for (int i = 0;i hitsLength ; i++)

{

Document doc = hits.doc(i);

String title = doc.get(「title」);

String summary = doc.get(「summary」);

// 搜索出來的結果高亮顯示在頁面上

if (title != null) {

TokenStream tokenStream = analyzer.tokenStream(「title」,new StringReader(title));

String highlighterValue = highlighter.getBestFragment(tokenStream, title) ;

if(highlighterValue != null){

title = highlighterValue ;

}

//log.info(“SearchHelper.search.title=”+title);

}

if(summary!= null){

TokenStream tokenStream = analyzer.tokenStream(「summary」,new StringReader(summary));

String highlighterValue = highlighter.getBestFragment(tokenStream, creator) ;

if(highlighterValue != null){

summary = highlighterValue ;

}

//log.info(“SearchHelper.search. summary =”+ summary);

}

2．結合平台構造搜索模塊

PageData 類用來存放檢索結果集數據。

PageInfo 類用來存放頁面相關信息例如，PageData對象集合、總記錄個數、每一頁的記錄數、總頁面數量等等。

SearchHelper用來充當整個搜索模塊的對外介面。

三．為平台組件添加索引的步驟（以知識中心為例）

1．在com.cscec.oa.searchengine.extend.module 目錄下添加一個新的package

例如：com.cscec.oa.searchengine.extend.module.resourcestore

2．在新的目錄下建立data package 並建立相應的數據類，並使這個數據類繼承BeanData。

例如：

package com.cscec.oa.searchengine.extend.module.resourcestore.data

public class ResourceStoreBeanData extends BeanData{

}

3. 與data package 同一級目錄建立manager package 並建立相應管理類，並使這個管理類繼承BeanDataManager

例如：

com.cscec.oa.searchengine.extend.module.resourcestore.manager

public class ResourceStoreBeanDataManagerImpl extends BeanDataManager{

}

4．以管理員的身份登陸OA後，在菜單中找到「索引模塊管理」鏈接，將相應信息添加完成後，便可以在List 頁面點擊「創建索引」對該模塊的數據進行索引的建立，建立完成後便可以進行查詢。

java如何實現文件搜索功能

java實現文件搜索主要使用file類和正則表達式，如下示例：

package com.kiritor.util;

import java.io.File;

import java.io.FileFilter;

import java.util.Arrays;

import java.util.Collections;

import java.util.List;

/**

* 文件的相關操作類

* @author Kiritor

public class FileOperation {

private static String contentPath;

private static String filePath;

private static File[] fileList = null;// 保存文件列表,過濾掉目錄

public FileOperation() {

}

/** 構造函數的參數是一個目錄 */

public FileOperation(String path) {

File file = new File(path);

if (file.isDirectory())

this.contentPath = path;

else

this.filePath = path;

}

/**獲取文件列表*/

public static File[] getFiles() {

if (contentPath == null) {

File file = new File(filePath);

fileList = new File[1];

fileList[0] = file;

return fileList;

}

fileList = new File(contentPath).listFiles(new FileFilter() {

/**使用過濾器過濾掉目錄*/

@Override

public boolean accept(File pathname) {

if(pathname.isDirectory())

{

return false;

}else

return true;

}

});

return fileList;

}

/** 對當前目錄下的所有文件進行排序 */

public static File[] sort() {

getFiles();

Arrays.sort(fileList, new FileComparator());

return fileList;

}

public static void tree(File f, int level) {

String preStr = “”;

for(int i=0; ilevel; i++) {

preStr += ” “;

}

File[] childs = f.listFiles();

//返回一個抽象路徑名數組，這些路徑名表示此抽象路徑名表示的目錄中的文件。

for(int i=0; ichilds.length; i++) {

System.out.println(preStr + childs[i].getName());

if(childs[i].isDirectory()) {

tree(childs[i], level + 1);

}

// 提供一個”比較器”

static class FileComparator implements java.util.ComparatorFile {

@Override

public int compare(File o1, File o2) {

// 按照文件名的字典順序進行比較

return o1.getName().compareTo(o2.getName());

}

java如何實現搜索功能。比如，輸入txt就能搜索出這個文件夾內所有txt格式的文件。請給完整代碼。

import java.io.*;

public class FileDemo{

public static void main(String[] args)throws Exception{

//第一個參數是文件路徑，第二個參數是要搜索的文件擴展名

getFile(“D:\\JavaDemo”,”.txt”);

}

private static void getFile(String pathName, final String endsWith)throws Exception{

File file = new File(pathName);

if(!file.exists())

throw new RuntimeException(“文件不存在,你檢索個P呀。”);

file.listFiles(new FileFilter(){

public boolean accept(File file){

if(file.getName().endsWith(endsWith)){

System.out.println(file.getName());

return true;

}else

return false;

}

});

}