本文目錄一覽:
java word中提取關鍵字
給個思路吧。
讀取word用doc4j,然後就是讀成字元串進行處理了。
提取關鍵字首先是中文分詞技術,就是把一段話劃分成多個組成的詞語,然後統計詞語的出現次數,這個是主要依據。這個是有實現的jar包的,可以去baidu搜,搜java 中文分詞就行。
分詞之後,記錄詞語出現位置,這個是輔助的依據,記錄詞語一句話中的位置,越靠前越像關鍵字,權重越高。
甚至可能需要建立一個權重體系,次數設置一個權重,整體位置設置一個權重,不同位置權重也不同。不了解權重可以理解成係數(百分比的,然後計算那個詞是關鍵詞)。
同時需要注意,可能需要排除一些常用詞,哪些次需要排除,這個需要根據程序反覆運行,讀取不同word文章的結果來定。
不明白的話在問吧。
如何用java實現文本的關鍵字提取
可以使用java API中的URL抓取流,也可以使用Apache的HttpClient等多種方法,最終得到的就是字元串咯,得到字元串就好辦了,使用正則匹配,將匹配的保存起來就可以了
java 如何在一篇文章中取出某個關鍵字
這個方法是取出了含有keyword的那一行,你要去關鍵字,只要返回true,直接取就O了!!忘樓主採納!
public void selectKeyWord(String keyWord){
String filepath = “”;
try {
DataInputStream dis = new DataInputStream(new FileInputStream(filepath));
while(dis.read()!=-1){
String str = dis.readUTF();
if(str.contains(keyWord)){
System.out.println(str);
}
}
} catch (FileNotFoundException e) {
System.out.println(“文件不存在”);
System.exit(0);
} catch (IOException e) {
e.printStackTrace();
}
}
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/155373.html