http://hanlp.com/ 自然语言处理 中文分词 词性标注 命名实体识别 依存句法分析 新词发现 关键词短语提取 自动摘要 文本分类聚类 拼音简繁
HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
HanLP提供下列功能:
中文分词
HMM-Bigram(速度与精度最佳平衡;一百兆内存)
由字构词(侧重精度,全世界最大语料库,可识别新词;适合NLP任务)
词典分词(侧重速度,每秒数千万字符;省内存)
所有分词器都支持:
词性标注
命名实体识别
关键词提取
自动摘要
短语提取
多音字、声母、韵母、声调
简繁分歧词(简体、繁体、臺灣正體、香港繁體)
语义推荐、拼音推荐、字词推荐
依存句法分析
KMeans、Repeated Bisection、自动推断聚类数目k
词向量训练、加载、词语相似度计算、语义运算、查询、KMeans聚类
文档语义相似度计算
部分默认模型训练自小型语料库,鼓励用户自行训练。所有模块提供训练接口,语料可参考OpenCorpus。
在提供丰富功能的同时,HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便。默认模型训练自全世界最大规模的中文语料库,同时自带一些语料处理工具,帮助用户训练自己的模型。