[发明专利]实体识别方法、装置、计算机可读存储介质和计算机设备在审
申请号: | 202010031702.1 | 申请日: | 2020-01-13 |
公开(公告)号: | CN113111656A | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 谢润泉 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/289;G06F40/30;G06K9/62 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 董慧 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 识别 方法 装置 计算机 可读 存储 介质 设备 | ||
本申请涉及一种实体识别方法、装置、计算机可读存储介质和计算机设备,所述方法包括:获取待识别文本的分词;确定相邻所述分词之间的紧密概率;将所述分词进行组合得到紧邻词组;根据所述紧邻词组对应分词的紧密概率,从所述紧邻词组中确定候选实体;确定所述候选实体的实体类型;当所述候选实体的实体类型为目标实体类型时,将所述候选实体作为目标实体。本实施例是通过紧密概率来预测紧邻词组是否可以作为候选实体,因此不需要为待识别文本的分词设置位置标签即可识别出候选实体,也不需要通过复杂的训练过程来训练模型以实现实体识别,包括嵌套实体的识别,简化了实体识别过程,提高了实体识别效率。
技术领域
本申请涉及互联网技术领域,特别是涉及一种实体识别方法、装置、计算机可读存储介质和计算机设备。
背景技术
随着人工智能和大数据技术的发展,对于自然语言处理的技术需求不断提高,其中,实体识别作为语义理解、语音合成等任务的必要前操作,在自然语言理解中具有重要的作用。实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名和专有名词等。
目前实体识别任务中,主要关注人名、地名、机构名三个类别的实体识别,其类别相对固定,并且实体中的结构相对扁平化,较少嵌套结构。其中,嵌套结构的实体被称为嵌套实体,存在包含结构的实体,比如,菜品实体“毛氏红烧肉”中,“红烧肉”也是菜品实体,再比如,“狗不理包子”中,“包子”也是菜品实体。
随着自然语言处理深入到不同的垂类领域,比如餐饮、医疗、金融等,实体识别更加关注垂类实体的识别,比如餐饮中的菜品名识别、金融中的行业名识别。区别于传统命名实体,垂类实体中存在很多嵌套实体,嵌套实体中的名词可以作为一个实体,名词词组也可以作为一个实体,其特点是其类型范围比较开放,同时实体间存在较多的嵌套结构。然而,目前能够识别出嵌套实体的实体识别方法较少,且这些方法需要复杂的过程实现且识别效率低下,并不能满足实际的识别需求。
发明内容
基于此,有必要针对目前实体识别方法比较复杂且效率低的技术问题,提供一种实体识别方法、装置、计算机可读存储介质和计算机设备。
一种实体识别方法,包括:
获取待识别文本的分词;
确定相邻所述分词之间的紧密概率;
将所述分词进行组合得到紧邻词组;
根据所述紧邻词组对应分词的紧密概率,从所述紧邻词组中确定候选实体;
确定所述候选实体的实体类型;
当所述候选实体的实体类型为目标实体类型时,将所述候选实体作为目标实体。
在一个实施例中,所述根据所述紧邻词组对应分词的紧密概率,从所述紧邻词组中确定候选实体包括:
获取所述紧邻词组的外部特征资源;所述外部特征资源为采用所述紧邻词组从互联网中获取、用于反映所述紧邻词组的信息量的特征资源;
根据所述紧邻词组对应分词的紧密概率和外部特征资源,从所述紧邻词组中确定候选实体。
在一个实施例中,所述确定相邻所述分词之间的紧密概率包括:
通过预测模型对所述相邻所述分词进行处理,得到紧密概率;
其中,所述预测模型为根据采集的关系训练样本,基于预设的网络模型训练获取的,用于对输入的各相邻所述分词进行处理,得到紧密概率;所述关系训练样本包括所述输入的各相邻所述分词以及对应的紧密概率。
在一个实施例中,所述根据所述紧邻词组对应分词的紧密概率,从所述紧邻词组中确定候选实体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010031702.1/2.html,转载请声明来源钻瓜专利网。