[发明专利]一种实体挖掘方法及装置,电子设备有效
申请号: | 201711243198.6 | 申请日: | 2017-11-30 |
公开(公告)号: | CN108228712B | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 陈健锋;曾轲;张艳霞;李容;张倩;蔡勋梁 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100083 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请提供了一种实体挖掘方法,属于计算机技术领域,解决现有技术中的实体挖掘方法存在的效率低、可靠性差、可移植性差的问题。本申请实施例公开的实体挖掘方法,包括:获取候选后缀字,并将包含在待挖掘语料中的所述候选后缀字生成候选实体字典;根据所述候选实体字典中各候选后缀字和左邻字的转移概率,更新所述候选实体字典;根据更新后的所述候选实体字典中候选实体在所述待挖掘语料中的出现次数,确定所述待挖掘语料中的实体。本申请公开的实体挖掘方法不需要人工对语料进行标注、不需要设置规则模板,因此,避免了人为因素导致的可靠性差的缺陷,同时,进一步提升了实体挖掘的效率,并且可移植性更强。 | ||
搜索关键词: | 挖掘 候选实体 字典 语料 可移植性 申请 计算机技术领域 电子设备 规则模板 人为因素 转移概率 更新 标注 | ||
【主权项】:
1.一种实体挖掘方法,其特征在于,包括:获取候选后缀字;根据待挖掘语料中包括的所述候选后缀字,构建候选实体字典;根据所述候选实体字典中各候选后缀字和左邻字的转移概率,更新所述候选实体字典;根据更新后的所述候选实体字典中候选实体在所述待挖掘语料中的出现次数,确定所述待挖掘语料中的实体;其中,所述根据所述候选实体字典中各候选后缀字和左邻字的转移概率,更新所述候选实体字典,包括:确定所述候选实体字典中各候选后缀字和左邻字的转移概率;其中,所述左邻字为所述候选实体字典中所有候选后缀字在所述待挖掘语料中的左邻字;如果存在符合预设条件的转移概率,则根据所述转移概率更新所述候选实体字典,并重复执行根据所述转移概率更新所述候选实体字典的操作,直至先后两次更新后的候选实体字典相同。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711243198.6/,转载请声明来源钻瓜专利网。