这四款Python分词工具,你用过吗?

开发 后端
分词工具在关键词提取,在中文搜索领域都是非常重要的,在自然语言处理中有着常见的场景,python中,有很多开源的分词工具,今天小编就跟大家介绍几款。

[[397844]]

 1、 jieba 分词 github地址:

https://github.com/fxsjy/jieba

“结巴”分词,可以说是 GitHub 最受欢迎的分词工具,支持自定义词典,支持多种分词模式,立志成为 Python 中最好的中文分词组件。

 

这四款python分词工具,你用过吗?

 

2. pkuseg 分词 github地址:

https://github.com/lancopku/pkuseg-python

pkuseg 的特点是支持多种不同的分词领域,新闻、网络、医药、v旅游等领域的分词训练模型,相比于其他分词工具,不但可以自由的选择不同模型,而且可以提供更高的分词准确率。

 

这四款python分词工具,你用过吗?

 

3. FoolNLTK 分词 github地址:

https://github.com/rockyzhengwu/FoolNLTK

FoolNLTK 分词是基于BiLSTM模型训练而来的,支持用户自定义词典,有人说它是最准确的开源中文分词,不知道你有没有尝试过呢?

 

[[397845]]

 

4. THULAC github地址:

https://github.com/thunlp/THULAC-Python

THULAC由清华大学自然语言处理与社会人文计算实验室,研制推出的具有词性标注功能的中文词法分析工具包。能分析出某个词是名词还是动词或者形容词。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当。速度较快。

 

这四款python分词工具,你用过吗?

 

跟同事聊起分词工具,他们很多人在用的还是结巴分词,配合用户自定义词典,解决常见的网络词语。你在用哪个工具呢?

 

责任编辑:华轩 来源: 今日头条
相关推荐

2021-05-08 23:22:01

Python工具开发

2020-10-13 14:54:11

机器学习技术工具

2021-06-04 10:38:33

PythonIDE代码编辑器

2020-05-27 14:41:51

主流软件测试工具

2020-12-15 09:43:20

Python可视化工具网络应用

2020-09-09 10:53:06

前端开发工具

2024-03-21 10:39:24

CIOAI

2024-11-08 09:37:10

C#组件

2021-09-30 16:22:34

程序员工具编程

2016-07-28 09:37:30

开源协作软件Collabtive

2024-09-06 18:01:24

2021-05-09 06:25:53

Word技巧开发工具

2020-06-03 16:50:09

Node.js框架开发

2021-05-21 05:24:03

Excel数据技巧

2022-05-22 07:29:24

工具插件客户端软件

2019-06-27 16:28:39

数据可视化JupyterGoogle Char

2016-12-26 09:49:28

Linux发行版

2023-11-22 07:42:01

2021-07-16 23:32:28

工具职场软件

2024-05-07 07:40:26

Visual工具XAML
点赞
收藏

51CTO技术栈公众号