[发明专利]一种用于优化中文分词的系统及方法在审

申请号：	202111481121.9	申请日：	2021-12-06
公开（公告）号：	CN114398880A	公开（公告）日：	2022-04-26
发明（设计）人：	石川	申请（专利权）人：	北京思特奇信息技术股份有限公司
主分类号：	G06F40/284	分类号：	G06F40/284;G06F40/242;G06F40/30
代理公司：	北京汇信合知识产权代理有限公司 11335	代理人：	孙民兴
地址：	100086 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于优化中文分词系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种用于优化中文分词的系统及方法，属于数据处理技术领域。本发明系统，包括：辅助词典模块，所述辅助词典模块基于核心词典，并根据业务需求建立辅助词典，通过所述辅助词典对业务中的待识别的词句进行识别，获取识别结果；中文分词优化模块，所述中文分词优化模块，对所述识别结果进行分词。本发明弥补了现有中文分词工具多方面的不足，通过中文分词优化算法规则，辅助词典技术，以及按场景的线性动态配置定制，提升了中文分词准确性、完整性和有效性的同时增强了相关组件工具的配置扩展性，为中文分词操作提供一种安全可靠的通用解决方案/方法。

技术领域

本发明涉及数据处理技术领域，并且更具体地，涉及一种用于优化中文分词的系统及方法。

背景技术

IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词语言包，只能实现简单的支持简单的分词排歧义处理和数量词合并输出，面对复杂中文信息，实际分词结果很不理想，很多词组无法正确识别分词，导致结果不能有效应用。

英文字母、数字、其他字符不能进行有效区分；尤其是中英文词组等多字符类型组合情况，无法进行有效分词。

本发明就是要屏蔽现有技术的缺点，按照中文特性，增加中文分词优化工具组件和辅助词典技术，强化了中文语义分析、中文分词、中文检索等功能、自主设计和改进，增强/增加了中文识别、中英混合识别、简称识别、歧义识别等等，提升中文信息智能分词的准确性、完整性和有效性。

发明内容

本发明的目的在于屏蔽现有技术的缺点，按照中文特性，增加分词时中文分词优化工具组件和辅助词典技术，强化中文语义分析、中文分词、中文检索等功能、自主设计和改进，增强/增加了中文识别、中英混合识别、简称识别、歧义识别等分词能力，提升中文信息智能分词的准确性、完整性和有效性，而提出了一种用于优化中文分词的系统，包括：

辅助词典模块，所述辅助词典模块基于核心词典，并根据业务需求建立辅助词典，通过所述辅助词典对业务中的待识别的词句进行识别，获取识别结果；

中文分词优化模块，所述中文分词优化模块，对所述识别结果进行分词。

可选的，中文分词优化模块，包括：

歧义裁决器以及歧义词元链优化器，所述歧义裁决器以及歧义词元链优化器用于对歧义词句进行分词；

英文字符分词优化器，所述英文字符分词优化器用于对所述英文词句进行分词；

数字分词优化器，所述数字分词优化器用于对数字词句进行分词；

简写分词优化器，所述简写分词优化器用于对简写词句进行分词；

特殊格式优化器，所述特殊格式优化器用于对特殊格式词句进行分词。

可选的，辅助词典模块包括：

核心识别能力扩展单元，所述核心识别能力扩展单元基于核心词典，并根据业务需求建立辅助词典；

词典管理工具单元，用于对辅助词典管理；

所述管理包括：