本文目錄一覽:
- 1、誰來推薦一個JAVA的分詞工具
- 2、java中文分詞為什麼用「ik」?
-
3、用myeclipse將英文按照空格切分
用java做,將英文按照空格切分,並且抽出of,and等詞 - 4、java用什麼分詞器去 標註英文單詞的詞性
- 5、java word分詞器怎樣安裝在java中
- 6、你常用的Java工具庫都有哪些
誰來推薦一個JAVA的分詞工具
java讀取中文分詞工具:linger
Java開源中文分詞器
1、word分詞器
2、Ansj分詞器
3、Stanford分詞器
4、FudanNLP分詞器
5、Jieba分詞器
6、Jcseg分詞器
7、MMSeg4j分詞器
8、IKAnalyzer分詞器
9、Paoding分詞器
10、smartcn分詞器
java中文分詞為什麼用「ik」?
為什麼呢?因為Lucene自帶的分詞器比較適合英文的分詞,而IK首先是一個中文的分詞器。
具體的優點先不細說,單說分詞的結果來看:
1 比如說 我愛北京
使用自帶的分詞 我/愛/北/京
IK分詞 我/愛/北京
2 可以自己擴展詞典
有很多分詞器是不能夠進行自己擴展詞典的,有自己的詞典,導致分詞的結果才是自己想要的結果。
3 可以自己定義停用詞字典
4 和Lucene結合比較高,有很多封裝好的模塊。用來檢索非常順手。
當然,IK自2012年已經不再維護了。後面有出現了很多其他的分詞器。
用myeclipse將英文按照空格切分
用java做,將英文按照空格切分,並且抽出of,and等詞
參考代碼如下
import java.util.ArrayList;
public class EnDemo {
public static void main(String[] args) {
ArrayListString preps = new ArrayListString();//用於保存不需要的介詞of and等
preps.add(“in”);
preps.add(“and”);
preps.add(“of”);
String str = “Lucy and Lily in the class The day of week is Monday”;//一句英語
String[] ss = str.trim().split(“\\s+”);//按照1個 或者多個空格切分
ArrayListString result = new ArrayListString();//用於保存踢掉分詞後的結果
for (int i = 0; i ss.length; i++) {
String temp = ss[i];
if(preps.contains(temp)){//如果是介詞.那麼繼續下次循環
continue;
}else{
result.add(temp);//不是介詞 就添加進來
}
}
for (String w : result) {
System.out.print(w+” “);
}
}
}
java用什麼分詞器去 標註英文單詞的詞性
可以試試stanford Tagger, 百度搜索下stanford Tagger。
中文詞性標註可以用hanlp.
java word分詞器怎樣安裝在java中
word分詞是一個Java實現的分佈式的中文分詞組件,提供了多種基於詞典的分詞算法,並利用ngram模型來消除歧義。
如果需要安裝word分詞器可以參考下面的步驟:
1、確保電腦上已經安裝了JDK軟件和Eclispe工具,沒有安裝的可以到對應的官網下載安裝:
JDK官網:
Eclipse官網:
2、下載word分詞器的相關jar包:
打開word分詞器的官方github主頁:
下拉找到ReadME部分,點擊「編譯好的jar下載」:
頁面將會跳轉到到百度雲盤的下載頁面,按照需求下載指定的版本即可。
注意:word1.3需要JDK1.8。
下載完成之後解壓到指定目錄。
3、創建Java項目,導入word分詞器的相關jar包:
打開Eclipse,右鍵創建Java project項目:
然後右鍵項目選擇Build path打開導入頁面,導入剛才下載的jar包到項目中:
導入成功之後就可以在自己的項目中使用word分詞器了。
你常用的Java工具庫都有哪些
Java SDK 肯定是使用最廣的庫,所以本文的名單焦點是流行的第三方庫。該列表可能並不完善,所以如果你覺得有什麼應該出現在列表中的,請留下您的評論。非常感謝!
1、核心庫
Apache Commons Lang:來自Apache的核心庫,為java.lang API補充了許多常用的工具類,如字符串操作、對象的創建等。
Google Guava:來自谷歌的核心庫,包括集合(Collection)、緩存(Caching)、支持原語(Primitives)等。(示例)
2、HTML、XML Parser
Jsoup:一個簡化了的 HTML操作的庫。(示例)
STaX:一組可以高效處理 XML的API。 (示例)
3、Web框架
Spring:Java平台上眾所周知的開源框架和依賴注入容器。(示例)
Struts2:來自Apache的流行Web框架。 (示例)
Google Web Toolkit:Google提供的開發工具庫,主要用於構建和優化複雜的Web程序用。 (示例)
Strips:使用最新Java技術構建的Web程序框架,推薦使用。
Tapestry:面向組件的框架,用於使用Java創建動態、健壯、擴展性高的Web應用程序。
請猛擊這裡 查看以上面框架之間的比較。
4、圖表、報表、圖像
JFreeChart:用於創建如條形圖、折線圖、餅圖等圖表。
JFreeReport:創建於輸出PDF格式的報表。
JGraphT:創建圖像,其中只包含由線段連接的點集。
5、窗口
Swing:SDK提供的GUI庫。(示例)
SWT:eclipse提供的GUI庫。
SWT與Swing的比較。
6.、GUI框架
Eclipse RCP。(示例)
7、自然語言處理
OpenNLP:來自Apache的自然語言處理庫。 (示例)
Stanford Parser:斯坦福大學提供的自然語言處理庫。(示例)
如果你是一名NLP專家,請猛擊這裡 查看更多工具庫介紹。
8、靜態分析
Eclipse JDT:由IBM提供的靜態分析庫,可以操作Java源代碼。(示例)
WALA:可以處理jar包文件(即位元組碼)的工具庫。(示例)
9、JSON
Jackson: 用於處理JSON數據格式的多用途的Java庫。Jackson 旨在快速、準確、輕量、對開人員友好之間找到最好的平衡點。
XStream:一個簡單用於對象和XML互相轉換的庫。
Google Gson:一個專門用於Java對象和Json對象相互轉換的工具庫。(示例)
JSON-lib:用於 beans、maps、collections、java arrays、XML 和 JSON 之間相互轉換操作的工具庫。
10、數學
Apache Commons Math:提供數學計算和數值統計需函數的工具庫。
11、日誌
Apache Log4j:風行一時的日誌記錄操作庫。 (示例)
Logback:當前流行的log4j項目的繼任者。
SLF4J(The Simple Logging Facade for Java): 各種日誌框架的一個簡單的外觀或抽象(如java.util.logging 、logback、log4j等),允許用戶在部署時加入需要的日誌框架。
12、Office
Apache POI:利用其提供的APIs,可以使用純Java代碼操作各種基於微軟OLE2合成文檔格式的文檔。
Docx4j:一個用於創建、操作微軟公開的XML文件的庫(支持Word docx、 Powerpoint pptx和Excel xlsx)。
13、日期和時間
Joda-Time:如有質量問題包退包換的Java日期和時間類。
14、數據庫
Hibernate、EclipseLink、JPA
JDO
jOOQ
SpringJDBC、Spring Data
Apache DbUtils
15、開發工具
Lambok: 旨在減少代碼編寫的Java開發庫。
原創文章,作者:GZNY,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/132762.html