[发明专利]公司有效简称的提取方法、设备和存储介质有效
申请号: | 202110764749.3 | 申请日: | 2021-07-07 |
公开(公告)号: | CN113220863B | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 刘帅;刘斌 | 申请(专利权)人: | 企查查科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/295;G06F40/216 |
代理公司: | 苏州威世朋知识产权代理事务所(普通合伙) 32235 | 代理人: | 沈晓敏 |
地址: | 215000 江苏省苏州市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 公司 有效 简称 提取 方法 设备 存储 介质 | ||
1.一种公司有效简称的提取方法,其特征在于,所述方法包括:
使用预先训练好的实体识别模型,对待处理公司的公司全称进行实体识别,得到多个不同类型的有效实体,其中,所述有效实体的类型包括地区、商号和行业;
根据所述有效实体,使用预设提取规则从所述有效实体中提取所述待处理公司的公司简称;
根据搜索引擎的搜索日志,剔除所述待处理公司的公司简称中不符合预设条件的公司简称,得到所述待处理公司的有效简称;
其中,所述实体识别模型的训练方法包括:
采用以BiLSTM模型为基础的标注模型对各公司的公司全称进行实体标注,得到公司名称语料库;
使用Jiagu深度学习自然语言处理工具,根据所述公司名称语料库,训练所述实体识别模型;
所述根据所述有效实体,使用预设提取规则从所述有效实体中提取所述待处理公司的公司简称包括:
根据所述有效实体结合所述待处理公司的行业,使用对应行业的预设提取规则从所述有效实体中提取所述待处理公司的公司简称。
2.根据权利要求1所述公司有效简称的提取方法,其特征在于,所述方法还包括:
根据搜索引擎的搜索日志,提取不同公司的有效简称,根据所述有效简称,反向推导出所述预设提取规则。
3.根据权利要求2所述公司有效简称的提取方法,其特征在于,所述根据所述有效简称,反向推导出所述预设提取规则包括:
根据所述有效简称对应公司的行业,反向推导出不同行业的有效简称的预设提取规则。
4.根据权利要求1所述公司有效简称的提取方法,其特征在于,所述根据所述有效实体,使用预设提取规则从所述有效实体中提取所述待处理公司的公司简称包括:
根据所述有效实体的实体名称和实体类型数量,提取不同类型的有效实体的名称、所述名称的首字或者尾字,按照实体类型顺序进行组合,得到所述待处理公司的公司简称,其中,所述按照实体类型顺序进行组合为将所述地区、商号、行业按照前后顺序进行排列。
5.根据权利要求1所述公司有效简称的提取方法,其特征在于,所述不符合预设条件的公司简称是指:
在预定时间段内,在所述搜索引擎的搜索日志出现的次数少于设定阈值的公司简称。
6.根据权利要求1所述公司有效简称的提取方法,其特征在于,所述方法还包括:
根据不同的实体类型,对多个公司的公司全称进行标注,得到公司名称语料库;
根据所述公司名称语料库,训练所述实体识别模型。
7.根据权利要求1所述公司有效简称的提取方法,其特征在于,所述方法还包括:
将所述待处理公司的有效简称作为所述待处理公司的别名,存入所述搜索引擎的对应公司的数据库中。
8.一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-7任意一项所述公司有效简称的提取方法中的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任意一项所述公司有效简称的提取方法中的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于企查查科技有限公司,未经企查查科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110764749.3/1.html,转载请声明来源钻瓜专利网。