[发明专利]文本中的人物挖掘方法、装置、电子设备及存储介质有效
申请号: | 202011162912.0 | 申请日: | 2020-10-27 |
公开(公告)号: | CN112270173B | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 白洁;王毅;潘政林 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 田宏宾 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 中的 人物 挖掘 方法 装置 电子设备 存储 介质 | ||
1.一种文本中的人物挖掘方法,其中,所述方法包括:
采用预先训练的人名识别模型,预测指定文本中的候选人物集合;
对所述指定文本进行新词发现,获取新词列表;
基于预先训练的信息抽取模型预测各句子的潜在说话人以及预测概率;从所述新词列表中获取属于潜在说话人的数个新词;将所述数个新词基于所述预测概率以及在所述指定文本中的频率权重系数进行排序,获取前N个所述新词和所述候选人物集合中的所述候选人名作为所述指定文本中的人物信息,所述N为正整数。
2.根据权利要求1所述的方法,其中,采用预先训练的人名识别模型,预测指定文本中的候选人物集合,包括:
采用所述人名识别模型,基于所述指定文本中的各句子,进行人名提取,获取到数个备选人名;
从所述数个备选人名中筛选词频大于预设词频阈值的数个候选人名,构成所述候选人物集合。
3.根据权利要求2所述的方法,其中,采用所述人名识别模型,基于所述指定文本中的各句子,进行人名提取,获取到数个备选人名之前,所述方法还包括:
检测各所述句子长度是否大于预设长度阈值;
若是,对所述句子进行断句处理,拆分为至少两个分句,使得各所述分句的长度不大于所述预设长度阈值。
4.根据权利要求1所述的方法,其中,对所述指定文本进行新词发现,获取新词列表,包括:
统计所述指定文本中各文本片段的出现频率;
获取所述指定文本中各所述文本片段的自由度;
获取所述指定文本中各所述文本片段的凝合度:
基于各所述文本片段的自由度、各所述文本片段的凝合度和各所述文本片段的出现频率中的至少一个,提取满足预设条件的多个文本片段,作为多个新词,构成所述新词列表。
5.根据权利要求4所述的方法,其中,统计所述指定文本中各文本片段的出现频率之前,所述方法还包括:
基于预设的词库,从所述指定文本中获取不属于所述词库中的词语的各所述文本片段。
6.根据权利要求4所述的方法,其中,获取所述指定文本中各文本片段的自由度,包括:
获取所述指定文本中各所述文本片段的左邻字集合和右邻字集合;
计算对应的所述文本片段分别与所述左邻字集合和所述右邻字集合中各字构成的片段的信息熵;
取所述文本片段分别与所述左邻字集合和所述右邻字集合中各字构成的片段的信息熵的最小值,作为对应的所述文本片段的自由度。
7.根据权利要求4所述的方法,其中,获取所述指定文本中各所述文本片段的凝合度,包括:
对于各所述文本片段,获取对应的所述文本片段包括的至少一组拆分片段;
统计对应的所述文本片段中各组所述拆分片段的出现频率;
基于对应的所述文本片段的出现频率以及各组所述拆分片段的出现频率,计算所述文本片段的凝合度。
8.根据权利要求1-7任一所述的方法,其中,在所述基于预先训练的信息抽取模型预测各句子的潜在说话人以及预测概率之前,还包括:
检测所述候选人物集合中的候选人名和所述新词列表中的新词是否有共同片段;若有,采用对应的所述新词更新所述候选人物集合中对应的所述候选人名;将更新后的所述候选人物集合中的候选人名作为所述指定文本中的人物信息;
否则,继续执行所述基于预先训练的信息抽取模型预测各句子的潜在说话人以及预测概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011162912.0/1.html,转载请声明来源钻瓜专利网。