[发明专利]文本核心词识别方法和装置有效
申请号: | 201710044590.1 | 申请日: | 2017-01-19 |
公开(公告)号: | CN108334489B | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 骆彬;尹存祥;徐国强;钟辉强;秦首科 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/289 |
代理公司: | 北京志霖恒远知识产权代理事务所(普通合伙) 11435 | 代理人: | 陈姗姗 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 核心 识别 方法 装置 | ||
1.一种文本核心词识别方法,其特征在于,包括:
根据一级样本文本、所述一级样本文本的一级优选核心词,以及所述一级优选核心词的实体特征,训练得到条件随机场CRF模型;
从利用所述CRF模型和至少一种关键词提取算法分别针对二级样本文本所提取出的关键词中,选出所述二级样本文本的二级优选核心词;
根据所述二级样本文本和所述二级优选核心词,对深度神经网络模型进行训练,得到文本核心词识别模型;以及
利用所述文本核心词识别模型,识别目标文本的核心词。
2.根据权利要求1所述的识别方法,其特征在于,所述训练得到条件随机场CRF模型之前,包括:
针对所述一级样本文本,利用经训练的关键词识别模型和所述至少一种关键词提取算法,分别提取所述一级样本文本的关键词作为一级候选核心词;
利用投票机制选出得票率最高的一级候选核心词作为所述一级样本文本的一级优选核心词。
3.根据权利要求2所述的识别方法,其特征在于,所述训练得到条件随机场CRF模型之前,还包括:
基于所述一级样本文本所属领域的领域知识图谱,提取所述一级优选核心词的实体特征,
其中,所述领域知识图谱中记录有该领域的实体及对应的实体特征。
4.根据权利要求2或3所述的识别方法,其特征在于,所述关键词识别模型通过如下方式训练得到:
根据零级样本文本所属领域的领域知识图谱,对所述零级样本文本进行分词,从分词结果中筛选出零级候选核心词;
根据预设的择优因子及其对应的权重,对所述零级候选核心词进行加权排序,选取所述零级样本文本的关键词,其中,所述择优因子包括以下至少一项:词性、文本中位置、词频;以及
根据所述零级样本文本和选取的关键词,训练得到所述关键词识别模型。
5.根据权利要求4所述的识别方法,其特征在于,所述根据零级样本文本所属领域的领域知识图谱,对所述零级样本文本进行分词,从分词结果中筛选出零级候选核心词包括:
根据所述领域知识图谱中记录的实体和对应的实体特征,对所述零级样本文本进行分词;以及
对分词结果进行过滤,删除预设类型的分词,得到所述零级样本文本对应的零级候选核心词;所述预设类型包括如下至少一项:连词、副词、代词、感叹词。
6.根据权利要求3所述的识别方法,其特征在于,所述领域知识图谱通过如下方式构建:
抓取领域内网站页面;
抽取所述网站页面的页面结构化数据;以及
基于所述页面结构化数据,识别所述网站页面中包含的实体和对应的实体特征,并记录于所述领域知识图谱中,其中所述实体特征包括以下一项:实体属性和实体关联关系,所述实体属性包括以下至少一项:词性。
7.根据权利要求1-3任一所述的识别方法,其特征在于,所述从利用所述CRF模型和至少一种关键词提取算法分别针对二级样本文本所提取出的关键词中,选出所述二级样本文本的二级优选核心词,包括:
针对所述二级样本文本,利用所述CRF模型和所述至少一种关键词提取算法,分别提取所述二级样本文本的关键词,并作为二级候选核心词;
利用投票机制选出得票率最高的二级候选核心词作为所述二级样本文本的二级优选核心词;
其中,所述关键词提取算法包括如下至少一种:词频-逆向文件频率TF-IDF算法、文本排名TextRank算法。
8.根据权利要求7所述的识别方法,其特征在于,所述利用投票机制选出得票率最高的二级候选核心词作为所述二级样本文本的二级优选核心词,包括:
基于预设黑名单,对二级候选核心词进行过滤;
利用投票机制从过滤后的二级候选核心词中选取得票率最高的词作为所述二级样本文本的二级优选核心词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710044590.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种工单分类处理方法及服务器
- 下一篇:关键词提取方法以及关键词提取装置