皇上,还记得我吗?我就是1999年那个Linux伊甸园啊-----24小时滚动更新开源资讯,全年无休!

Jcseg 2.4.0 发布,Java 轻量级开源自然语言处理包

Jcseg 是基于 mmseg 算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于 Jetty 的 web 服务器,方便各大语言直接 http 调用,同时提供了最新版本的 lucene,solr 和 elasticsearch 的分词接口!

Jcseg 2.4.0 更新如下:

1,修复时间组合实体识别的 bug,有时候会出现错误组合的情况。

2,优化 NLP 模式的时间实体的识别,区分组合时间,例如:” 米” 实体为”length.m”,”3 米” 为”nuc_length.m”。

长度单位/null 米/n/length.m ,/w/null 例如/d/null 这/r/null 根/q/null 线/q/null 长/d/null 3 米/q/nuc_length.m

3,依据百度的汉语数据修复词条中的部分拼音错误:https://gitee.com/lionsoul/jcseg/commit/4f08a01ea94828e4c4ac585a744b4755f33c8c4b

4,修复中文数字转阿拉伯数字后词条的 offset 错误。

5,依据百度的汉语数据修复词条中的部分拼音错误:https://gitee.com/lionsoul/jcseg/commit/3de95015056a7ea683c5955faef891fa68af36b5

6,修改 Elasticsearch 的资源访问为官网建议的安全资源访问形式,意味着 es 插件不需要再 grant privileges。

7,Elasticsearch 插件中增加插件级别的单例词库创建接口并且使用安全方式加载词库。

8,修改 jcseg-server 中的 jetty 版本为:9.3.24.v20180605

9,jcseg-server.properties 配置文件增加自定义 host 支持,便于外网访问。

10,修复 maven 编译中的全部 javadoc 报错。

11,README 中增加了 jcseg 的使用案例和链接,以及微信和 QQ 沟通账号。

下载地址:

Gitee: https://gitee.com/lionsoul/jcseg/tree/v2.4.0-release

Github: https://github.com/lionsoul2014/jcseg/releases/tag/v2.4.0-release

maven 仓库地址:

<dependency>
    <groupId>org.lionsoul</groupId>
    <artifactId>jcseg-core</artifactId>
    <version>2.4.0</version>
</dependency>

转自 https://www.oschina.net/news/101581/jcseg-2-4-0-released

分享到:更多 ()