本文目錄一覽:
誰來推薦一個JAVA的分詞工具
java讀取中文分詞工具:linger
Java開源中文分詞器
1、word分詞器
2、Ansj分詞器
3、Stanford分詞器
4、FudanNLP分詞器
5、Jieba分詞器
6、Jcseg分詞器
7、MMSeg4j分詞器
8、IKAnalyzer分詞器
9、Paoding分詞器
10、smartcn分詞器
java語言中文分詞程序怎麼編寫分詞程序正
現可以提供兩種思路:
1.String或是StringBuffer(建議用) 中的indexOf(“中華”)方法,查找給定的的字符串中是否有給定詞表中的詞。
2.借鑒編譯原理中的狀態裝換的思想。
先編寫一個狀態機,用於測試給定字符串中的詞是否滿足詞表中的內容。
寫在最後:1)建議使用第一種方法,因為在java 內部實現的查找操作其實 和你想得思路是相同的,不過他的效率會高些。
2)如果個人的編程能力比較強或是不考慮效率只是想實現專有的分詞算法。可以使用第二種方法。
3)以上的兩種方法都可以使用多線程來提高程序的效率。
java如何分詞??
如果你的分詞規則是在一個字符串的開頭和結尾加上”_”,然後兩個字符一分的話,代碼可以這樣寫:
import java.util.ArrayList;
import java.util.List;
public class Participle
{
private static final String HEAD_END_STR = “_”;
private static final int PARTICIPLE_LENGTH = 2;
public static void main(String[] args)
{
String exampleWord = “計算機”;
exampleWord = “_” + exampleWord + “_”;
int length = exampleWord.length();
ListString result = new ArrayListString();
for (int i = 0; i length – 1; i++)
{
String str = exampleWord.substring(i, i + PARTICIPLE_LENGTH);
result.add(str);
}
System.out.println(result);
}
}
輸出結果:_計, 計算, 算機, 機_
java word分詞器怎樣安裝在java中
word分詞是一個Java實現的分布式的中文分詞組件,提供了多種基於詞典的分詞算法,並利用ngram模型來消除歧義。
如果需要安裝word分詞器可以參考下面的步驟:
1、確保電腦上已經安裝了JDK軟件和Eclispe工具,沒有安裝的可以到對應的官網下載安裝:
JDK官網:
Eclipse官網:
2、下載word分詞器的相關jar包:
打開word分詞器的官方github主頁:
下拉找到ReadME部分,點擊“編譯好的jar下載”:
頁面將會跳轉到到百度雲盤的下載頁面,按照需求下載指定的版本即可。
注意:word1.3需要JDK1.8。
下載完成之後解壓到指定目錄。
3、創建Java項目,導入word分詞器的相關jar包:
打開Eclipse,右鍵創建Java project項目:
然後右鍵項目選擇Build path打開導入頁面,導入剛才下載的jar包到項目中:
導入成功之後就可以在自己的項目中使用word分詞器了。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/286974.html