[发明专利]一种基于文本规则的公司简称识别方法及系统有效

申请号：	201710486058.5	申请日：	2017-06-23
公开（公告）号：	CN107423285B	公开（公告）日：	2020-08-28
发明（设计）人：	吴远辉	申请（专利权）人：	广州市万隆证券咨询顾问有限公司
主分类号：	G06F40/295	分类号：	G06F40/295;G06F16/31
代理公司：	广州嘉权专利商标事务所有限公司 44205	代理人：	胡辉
地址：	510600 广东省广州市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于文本规则公司简称识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于文本规则的公司简称识别方法及系统，方法包括：根据需要识别的公司全称，通过对应的上市公司公告文本进行简称抽取，得到待检测简称，并对待检测简称进行有效性分析；根据需要识别的公司全称，通过网络搜索进行简称识别。系统包括公告文本分析单元和搜索分析单元。本发明通过公告文本挖掘和网络搜索规则相结合的方式进行简称识别，从而在保证中文公司简称准确率的同时，大大提高了查全率，有效提升识别效果。本发明可广泛应用于识别领域中。

技术领域

本发明涉及识别处理领域，尤其涉及一种基于文本规则的公司简称识别方法及系统。

背景技术

由于中文公司名称命名的用字规律不强，使用比较随意，经常以简称的形式出现，如“中国银行股份有限公司”经常以简称的形式出现，如“中国银行”或“中行”，这为公司名的识别、应用带来了困难。

目前市面并没有一套可以能查全率比较高的简称识别方法。一般中文公司简称识别的难点在于，在不同领域和场景下，命名简称的外延有差异，名称变化频繁，并且没有严格的规律可以遵循，表达形式多样，而且在中文文本的处理中，由于中文分词效果很容易影响识别效果，导致识别准确率较低。

发明内容

为了解决上述技术问题，本发明的目的提供是一种能提高识别准确率，基于文本规则的公司简称识别方法及系统。

本发明所采取的技术方案是：

一种基于文本规则的公司简称识别方法，包括以下步骤：

根据需要识别的公司全称，通过对应的上市公司公告文本进行简称抽取，得到待检测简称，并对待检测简称进行有效性分析；

根据需要识别的公司全称，通过网络搜索进行简称识别。

作为所述的一种基于文本规则的公司简称识别方法的进一步改进，所述的根据需要识别的公司全称，通过对应的证券公告文本进行简称抽取，得到待检测简称，并对待检测简称进行有效性分析，这一步骤具体包括：