IK Analyzer 2012发布 中文分词库

开发 后端
IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。

IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开 始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词 歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。

IK Analyzer 2012特性:

  • 采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式;
  • 在系统环境:Core2 i7 3.4G双核,4G内存,window 7 64位, Sun JDK 1.6_29 64位 普通pc环境测试,IK2012具有160万字/秒(3000KB/S)的高速处理能力。
  • 2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。
  • 采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符。
  • 优化的词典存储,更小的内存占用。支持用户词典扩展定义。特别的,在2012版本,词典支持中文,英文,数字混合词语。

下载地址:http://code.google.com/p/ik-analyzer/downloads/list

原文链接:http://www.oschina.net/news/26788/ikanalyzer-2012

【编辑推荐】

  1. 推荐5个提高Java开发效率的工具
  2. Magnolia 4.5发布 Java的企业级CMS系统
  3. ExpressionJ 0.9 Beta2发布 Java算数表达式计算
  4. Apache Camel 2.9.1发布 Java规则引擎
  5. EWeb4J-1.8.6发布 Java开源框架
责任编辑:林师授 来源: 开源中国社区
相关推荐

2012-01-25 19:35:08

SQL Server

2021-04-12 08:17:12

ElasticSear分词中文

2011-11-18 13:48:38

SQL Server

2011-10-25 13:54:25

2012-05-11 14:51:06

Windows Ser

2012-04-20 09:50:20

云计算微软System Cent

2011-11-02 17:08:48

OpenBSD发布

2009-02-25 09:35:12

LinuxBASH 4.0OS X v10.4

2009-06-21 13:37:53

2009-09-27 13:41:55

Eclipse 3.5

2012-03-15 16:46:02

JavaMyBatis

2011-08-02 09:15:49

LibreOffice

2012-11-14 09:31:13

CloudStackIaaSCitrix

2012-03-15 09:57:59

JavaDynamicRepo

2011-12-21 08:58:23

Java

2011-02-24 09:36:33

LibreOffice

2011-06-07 10:07:06

LibreOffice

2009-07-03 14:47:50

PHPnow中文

2013-08-15 10:17:40

Windows SerWindows Ser

2009-03-18 14:42:23

LinuxGTK+ 2.16.0发布
点赞
收藏

51CTO技术栈公众号