[发明专利]一种信息挖掘方法和装置、一种用于信息挖掘的装置有效
申请号: | 201710062815.6 | 申请日: | 2017-01-25 |
公开(公告)号: | CN108345625B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 邸楠;尹顺顺;邓超 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/33 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 刘祥景 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息 挖掘 方法 装置 用于 | ||
1.一种信息挖掘方法,其特征在于,包括:
从网页文本语料中获取包含预置谓语的目标语句;
从所述目标语句对应的句法分析结果中提取主语和宾语;
依据提取得到的主语和宾语,建立实体-属性对;
确定所述实体-属性对对应的第一置信度,若所述第一置信度超过第一置信度阈值,则保存所述实体-属性对;
其中,所述确定实体-属性对对应的第一置信度,包括:针对所述实体-属性对,提取对应的独立特征和/或联合特征;其中,所述独立特征用于表示所述实体-属性对中实体或者属性自身的特征,所述联合特征用于表示所述实体-属性对中实体和关键属性的特征;依据所述实体-属性对对应的独立特征和/或联合特征,确定对应的第一置信度;
所述独立特征包括如下特征中的至少一种:所述实体或者属性或者关键属性对应词汇在实体-属性对集合中的词频、共现次数、分布熵和在实体-属性对中作为后缀的次数;和/或
所述联合特征包括如下特征中的至少一种:所述实体-属性对或者实体-关键属性对在实体-属性对集合中的共现信息、互相的条件概率和独立特征的差值。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从实体对应的多个属性中获取对所述实体有指向性的关键属性;
依据所述实体和所述关键属性,建立实体-关键属性对,并保存所述实体-关键属性对。
3.根据权利要求2所述的方法,其特征在于,所述从实体对应的多个属性中获取对所述实体有指向性的关键属性的步骤,包括:
针对所述实体对应的各属性,统计获取各属性对应的条件概率;所述属性对应的条件概率为预置语料中出现所述实体的情况下同时出现所述属性的概率;
将所述条件概率超过概率阈值的属性作为对所述实体有指向性的关键属性。
4.根据权利要求2所述的方法,其特征在于,在所述建立实体-关键属性对之后,所述保存所述实体-关键属性对之前,所述方法还包括:
确定所述实体-关键属性对对应的第二置信度;
若所述第二置信度超过第二置信度阈值,则保存所述实体-关键属性对。
5.根据权利要求4所述的方法,其特征在于,所述确定实体-关键属性对对应的第二置信度的步骤,包括:
针对所述实体-关键属性对,提取对应的独立特征和/或联合特征;其中,所述独立特征用于表示所述实体-关键属性对中实体或者关键属性自身的特征,所述联合特征用于表示所述实体-关键属性对中实体和关键属性的特征;
依据所述实体-关键属性对对应的独立特征和/或联合特征,确定对应的第二置信度。
6.一种信息挖掘装置,其特征在于,包括:
目标语句获取模块,用于从网页文本语料中获取包含预置谓语的目标语句;
主宾提取模块,用于从所述目标语句对应的句法分析结果中提取主语和宾语;
实体属性对建立模块,用于依据提取得到的主语和宾语,建立实体-属性对;以及
实体属性对保存模块,用于保存所述实体-属性对;
所述装置还包括:
第一置信度确定模块,用于在所述实体属性对保存模块保存所述实体-属性对之前,确定所述实体-属性对对应的第一置信度;
则所述实体属性对保存模块,具体用于在所述第一置信度超过第一置信度阈值时,保存所述实体-属性对;
所述第一置信度确定模块包括:
第一特征提取子模块,用于针对所述实体-属性对,提取对应的独立特征和/或联合特征;其中,所述独立特征用于表示所述实体-属性对中实体或者属性自身的特征,所述联合特征用于表示所述实体-属性对中实体和关键属性的特征;以及
第一置信度计算子模块,用于依据所述实体-属性对对应的独立特征和/或联合特征,确定对应的第一置信度;
其中,所述独立特征包括如下特征中的至少一种:所述实体或者属性或者关键属性对应词汇在实体-属性对集合中的词频、共现词数、分布熵和在实体-属性对中作为后缀的次数;和/或
所述联合特征包括如下特征中的至少一种:所述实体-属性对或者实体-关键属性对在实体-属性对集合中的共现信息、互相的条件概率和独立特征的差值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710062815.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:生成页面的方法及装置
- 下一篇:一种云系统的跨目录的数据分类资料集合
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置