[发明专利]一种提取特征词的方法和装置在审
申请号: | 201711391968.1 | 申请日: | 2017-12-21 |
公开(公告)号: | CN109948141A | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 古迎志 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;杨晓伟 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标文本 特征词 词性特征 方法和装置 提取特征 词语 信息技术领域 准确度 多维特征 获取目标 提取规则 文本特征 词性 预设 文本 保存 | ||
1.一种提取特征词的方法,其特征在于,包括:
获取目标文本,确定所述目标文本中各词语的词性特征;
根据所述各词语的词性特征以及预设的特征词词性提取规则,确定所述目标文本的特征词。
2.根据权利要求1所述的方法,其特征在于,所述根据所述各词语的词性特征以及预设的特征词词性提取规则,确定所述目标文本的特征词包括:
当相邻的四个词语中,第一个词语的词性为形容词或名词且出现次数大于等于零,第二个词语的词性为名词性短语且出现次数为零或一次,第三个词语的词性为形容词或名词且出现次数大于等于零,第四个词语的词性为名词时,确定所述相邻的四个词语为所述目标文本的特征词;或
当第一相邻的三个词语中,第一个词语的词性为形容词或名词且出现次数大于等于一次,第二个词语的词性为形容词或名词且出现次数大于等于零,第三个词语的词性为名词时,确定所述第一相邻的三个词语为所述目标文本的特征词;或
当第二相邻的三个词语中第一个词语的词性为形容词或名词或动词,第二个词语的词性为动词或名词且出现次数至多为一次,且第三个词语的词性为名词或动词时,确定所述第二相邻的三个词语为所述目标文本的特征词;或
当词语的词性为学术性词语时,确定所述学术性词语为所述目标文本的特征词;或
当词语的词性为敏感性词语时,确定位于所述敏感性词语之后且与所述敏感性词语相邻最近的词语为所述目标文本的特征词。
3.根据权利要求1所述的方法,其特征在于,还包括:
分析所述目标文本中各语句的语法结构,确定各语句的语句特征;其中,所述语句特征包括限定词以及中心词;
根据预设的特征词语句特征提取规则,提取所述中心词以及位于所述中心词之前且与所述中心词相邻最近的限定词,确定所提取的所述中心词以及限定词所组合的组合词为所述目标文本的特征词。
4.根据权利要求1或3所述的方法,其特征在于,还包括:
当所述目标文本为概括性文本或所提取的特征词的数量小于预定数量阈值时,在预设的特征词库中获取与所提取的特征词相似的词语;
计算所获取的词语与所述特征词的第一相似度,当所述第一相似度大于或者等于第一预定相似度阈值时,确定所获取的词语为所述目标文本的特征词。
5.根据权利要求1或3所述的方法,其特征在于,还包括:
根据公式
L=x*[C-value(a)]+y*SCP(w1,...,wn)
计算各特征词的噪声值L,提取噪声值大于或者等于预定噪声值阈值的特征词为目标文本的特征词;其中,C-value(a)为术语性过滤特征词所得到的噪声值,SCP(w1,...,wn)为单元性过滤特征词所得到的噪声值,w1,...,wn为特征词词串,x、y分别代表C-value(a)、SCP(w1,...,wn)的权重,a为词串。
6.根据权利要求1所述的方法,其特征在于,在所述确定所述目标文本的特征词之后,还包括:
接收待测目标文本,获取所述待测目标文本的特征词;
计算所述目标文本的特征词与所述待测目标文本的特征词的第二相似度,当所述第二相似度大于或者等于第二预定相似度阈值时,确定所述目标文本与所述待测目标文本相似。
7.一种提取特征词的装置,其特征在于,包括:
确定模块,用于获取目标文本,确定所述目标文本中各词语的词性特征;
提取模块,用于根据所述各词语的词性特征以及预设的特征词词性提取规则,确定所述目标文本的特征词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711391968.1/1.html,转载请声明来源钻瓜专利网。