11大Java开源中文分词器的使用方法和分词效果对比

开发 后端
本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断。

[[171673]]

本文的目标有两个:

1、学会使用11大Java开源中文分词器

2、对比分析11大Java开源中文分词器的分词效果

本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断。

11大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也不一样,我们先定义一个统一的接口:

 

 

从上面的定义我们知道,在Java中,同样的方法名称和参数,但是返回值不同,这种情况不可以使用重载。

这两个方法的区别在于返回值,每一个分词器都可能有多种分词模式,每种模式的分词结果都可能不相同,***个方法忽略分词器模式,返回所有模式的所有不重复分词结果,第二个方法返回每一种分词器模式及其对应的分词结果。

在这里,需要注意的是我们使用了Java8中的新特性默认方法,并使用stream把一个map的value转换为不重复的集合。

下面我们利用这11大分词器来实现这个接口:

1、word分词器

 

 

2、Ansj分词器

 

 

3、Stanford分词器

 

 

4、FudanNLP分词器

 

 

5、Jieba分词器

 

 

6、Jcseg分词器

 

 

7、MMSeg4j分词器

 

 

8、IKAnalyzer分词器

 

 

9、Paoding分词器

 

 

10、smartcn分词器

 

 

11、HanLP分词器

 

 

现在我们已经实现了本文的***个目的:学会使用11大Java开源中文分词器。

***我们来实现本文的第二个目的:对比分析11大Java开源中文分词器的分词效果,程序如下:

 

 

运行结果如下:

 

 

 

 

责任编辑:赵宁宁 来源: 36大数据
相关推荐

2021-09-03 11:26:39

分词器ElasticSear

2019-01-10 14:49:14

开源技术 工具包

2021-04-12 08:17:12

ElasticSear分词中文

2024-09-04 15:12:35

2011-06-03 16:04:05

SEO分词

2022-09-07 08:16:09

MySQL索引

2010-02-22 09:54:19

Ubuntu mysq

2011-06-30 18:33:09

分词

2012-03-16 10:07:30

IK AnalyzerJava

2011-08-16 16:24:28

全文检索数据挖掘

2024-02-26 00:40:00

AIGPT

2023-09-21 23:05:50

jiebaPython

2024-08-02 11:00:00

分词器搜索查询

2020-10-28 14:03:22

NLP自然语言分词

2023-12-14 15:27:12

中文分词Python

2010-05-28 19:32:24

MySQL使用方法

2016-12-09 13:45:21

RNN大数据深度学习

2024-02-22 09:51:56

代码AI

2013-07-15 15:12:40

iOS多线程NSOperationNSOperation

2011-06-03 13:25:32

分词索引库
点赞
收藏

51CTO技术栈公众号