[发明专利]文本核心词识别方法和装置有效
申请号: | 201710044590.1 | 申请日: | 2017-01-19 |
公开(公告)号: | CN108334489B | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 骆彬;尹存祥;徐国强;钟辉强;秦首科 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/289 |
代理公司: | 北京志霖恒远知识产权代理事务所(普通合伙) 11435 | 代理人: | 陈姗姗 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 核心 识别 方法 装置 | ||
本申请公开了一种文本核心词识别方法和装置,其中,该方法包括:根据一级样本文本、所述一级样本文本的一级优选核心词,以及所述一级优选核心词的实体特征,训练得到条件随机场CRF模型;从利用所述CRF模型和至少一种关键词提取算法分别针对二级样本文本所提取出的关键词中,选出所述二级样本文本的二级优选核心词;根据所述二级样本文本和所述二级优选核心词,对深度神经网络模型进行训练,得到文本核心词识别模型;以及利用所述文本核心词识别模型,识别目标文本的核心词。应用本申请,可通过多层次优化训练样本,提高文本核心词识别模型的识别准确率,以此提高抽取的核心词的准确度。
技术领域
本公开一般涉及互联网技术领域,具体涉及一种文本核心词识别方法和装置。
背景技术
随着计算机和网络技术的发展,数字化的文件正以惊人的速度在疯狂增长。人们每天要花费大量的时间和精力去阅读和查找文件。为了节省时间和提高人们工作的效率,原始文档的各种简洁表示(例如摘要、关键词、核心词等形式)应运而生。核心词被定义成压缩表示了原始文本重要信息和核心内容的词语。人们可以通过它快速了解文本的大致内容,而不需要通读全文。在信息检索中,核心词常被我们用来查找内容相关的文本或携带文本的图片、视频等内容。
比如,通过百度、谷歌Google等基于关键检索的搜索引擎,人们通过输入核心词,即可在互联网上可快速找到所求信息。在搜索推广领域,如何生成优质的广告物料至关重要,这将直接影响广告投放的效果和网民的用户体验。而文本核心词识别是广告物料挖掘和匹配技术的一个核心问题。其中,文本可以是网民查询Query、广告创意、网站落地页内信息等等。识别的核心词直接反应文本的主体内容,可以应用在Query与广告物料的相关性计算、广告排序、内容推荐等场景中。
传统依靠人工去阅读文本,然后抽取核心词的方法在文档数量剧增的今天越来越不能满足实际应用的需求。因此,如何自动抽取核心词成了时下文本处理领域的一个研究热点。
现有技术中,核心词自动抽取的技术可以分为简单统计的方法、语言分析的方法和机器学习的方法。其中,简单统计的方法有如下几种典型算法:TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆向文件频率)算法、Key Graph(关键图)算法、TextRank(文本排名)算法;语言分析的方法采用自然语言处理中词法、句法及语义分析等技术,在对文档进行深入理解的基础上抽取文档中反映其主要内容的词语;机器学习则主要是基于大量的样例进行训练学习得到核心词识别模型。
虽然,现有存在自动抽取文本中核心词的方案,但识别出的核心词的准确度有待进一步提高。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种能够提高文本核心词识别模型的识别准确率,以此提高抽取的核心词的准确度的方案。
第一方面,本申请实施例提供了一种文本核心词识别方法,包括:
根据一级样本文本、所述一级样本文本的一级优选核心词,以及所述一级优选核心词的实体特征,训练得到条件随机场CRF模型;
从利用所述CRF模型和至少一种关键词提取算法分别针对二级样本文本所提取出的关键词中,选出所述二级样本文本的二级优选核心词;
根据所述二级样本文本和所述二级优选核心词,对深度神经网络模型进行训练,得到文本核心词识别模型;以及
利用所述文本核心词识别模型,识别目标文本的核心词。
第二方面,本申请实施例还提供了一种文本核心词识别装置,包括:
CRF模型训练单元,配置用于根据一级样本文本、所述一级样本文本的一级优选核心词,以及所述一级优选核心词的实体特征,训练得到条件随机场CRF模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710044590.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种工单分类处理方法及服务器
- 下一篇:关键词提取方法以及关键词提取装置