自然语言处理·HanLP

01-16 +关注

http://hanlp.com/ 自然语言处理中文分词词性标注命名实体识别依存句法分析

地址: https://github.com/hankcs/HanLP 地点: |国内| 变现: |白白|

内容形式: |人工智能| 终端UI: |PC|

|工具|
No.236

点击: 817

推荐理由: |工具|

N/P: 联名手机卡汇总/关键词挖掘平台及私有化工具

站点详情

>返回列表

自然语言处理·HanLP

http://hanlp.com/ 自然语言处理中文分词词性标注命名实体识别依存句法分析新词发现关键词短语提取自动摘要文本分类聚类拼音简繁

HanLP是一系列模型与算法组成的NLP工具包，由大快搜索主导并完全开源，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

HanLP提供下列功能：

中文分词

最短路分词、N-最短路分词
HMM-Bigram（速度与精度最佳平衡；一百兆内存）
由字构词（侧重精度，全世界最大语料库，可识别新词；适合NLP任务）
词典分词（侧重速度，每秒数千万字符；省内存）
所有分词器都支持：

词性标注

HMM词性标注（速度快）
感知机词性标注、CRF词性标注（精度高）

命名实体识别

感知机命名实体识别、CRF命名实体识别
中国人名识别、音译人名识别、日本人名识别、地名识别、实体机构名识别
基于HMM角色标注的命名实体识别（速度快）
基于线性模型的命名实体识别（精度高）

关键词提取

TextRank关键词提取

自动摘要

TextRank自动摘要

短语提取

基于互信息和左右信息熵的短语提取

拼音转换

多音字、声母、韵母、声调

简繁转换

简繁分歧词（简体、繁体、臺灣正體、香港繁體）

文本推荐

语义推荐、拼音推荐、字词推荐

依存句法分析

文本分类

情感分析

文本聚类

KMeans、Repeated Bisection、自动推断聚类数目k

word2vec

词向量训练、加载、词语相似度计算、语义运算、查询、KMeans聚类
文档语义相似度计算

语料库工具

部分默认模型训练自小型语料库，鼓励用户自行训练。所有模块提供训练接口，语料可参考OpenCorpus。

在提供丰富功能的同时，HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布，使用非常方便。默认模型训练自全世界最大规模的中文语料库，同时自带一些语料处理工具，帮助用户训练自己的模型。

最新入库站点