[发明专利]一种主题词生成模型的训练方法及计算设备在审

专利信息
申请号: 202110710401.6 申请日: 2021-06-25
公开(公告)号: CN113609841A 公开(公告)日: 2021-11-05
发明(设计)人: 李辉;陈永生 申请(专利权)人: 北京齐尔布莱特科技有限公司
主分类号: G06F40/216 分类号: G06F40/216;G06F40/289;G06F40/30;G06N20/10
代理公司: 北京思睿峰知识产权代理有限公司 11396 代理人: 高攀;赵爱军
地址: 100080 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 主题词 生成 模型 训练 方法 计算 设备
【说明书】:

发明公开了一种主题词生成模型的训练方法,在计算设备中执行,包括步骤:获取文档集合和记录用户行为的日志;针对用户每一次搜索行为,对用户搜索的关键词进行分词处理,得到一个或多个切分后的词;针对每一个切分后的词和文档集合中的每一个文档,根据切分后的词、日志和文档集合生成特征向量,将切分后的词作为特征向量的标签,并确定包含特征向量及其标签的样本为正样本或负样本;根据样本,对主题词生成模型进行训练,得到训练后的主题词生成模型。本发明一并公开了相应的装置、计算设备及可读存储介质。

技术领域

本发明涉及自然语言处理领域,尤其涉及一种主题词生成模型的训练方法、装置、计算设备及可读存储介质。

背景技术

提取文本主题词在众多网络应用中起着至关重要的作用。例如,在搜索引擎建立索引以及内容推荐中,需要提取文本主题词,根据主题词建立各个文本的索引,并根据用户的搜索词推荐具有相关主题词的内容,从而提高检索效率;在基于内容的网络广告中,需要提取用户当前浏览内容的主题词,以便向用户推送与其浏览内容相关的广告;在根据用户搜索关键词进行内容排序阶段,文本的主题词作为一个相关特征对排序起着重要作用;以及在基于内容的文本分类中,需要根据提取到的文本主题词对文本进行分类。

现有技术中,提取文本主题词的一种方法是:计算文本中的词在语料库中词频(TF)、逆文本频率指数(IDF)或TF-IDF等指标的值,当指标的值达到一定阈值时,将相应的词作为文本的主题词。但是,这种方法会导致一些生僻词的IDF较高,而常见词的IDF较低,从而导致有些生僻词被当做文档关键词、错误地判断主题词的问题。另一种方法是:基于TextRank算法,获得文本中词的重要性的得分,确定得分高的指定个数的词作为文本的主题词。但是,这一方法仅考虑词语之间的共现关系,会导致一些局部主题词成为全局主题词,而导致主题词的选取精度低。

为此,需要一种主题词生成模型的训练方法来提高主题词提取的准确度,以力图解决或至少缓解上述技术方案中存在的问题。

发明内容

为此,本发明提供一种主题词生成模型的训练方法、装置、计算设备及可读存储介质,以力图解决或至少缓解上面存在的问题。

根据本发明的一个方面,提供了一种主题词生成模型的训练方法,在计算设备中执行,包括步骤:获取文档集合和记录用户行为的日志;针对用户每一次搜索行为,对用户搜索的关键词进行分词处理,得到一个或多个切分后的词;针对每一个切分后的词和文档集合中的每一个文档,根据切分后的词、日志和文档集合生成特征向量,将切分后的词作为特征向量的标签,并确定包含特征向量及其标签的样本为正样本或负样本;根据样本,对主题词生成模型进行训练,得到训练后的主题词生成模型。

可选地,在根据本发明的方法中,记录用户行为的日志包括第一日志和第二日志,其中,第一日志包括用户搜索关键词后所展示的文档集合中的文档,第二日志包括用户搜索关键词后所点击的文档集合中的文档,第一日志和第二日志中的文档通过标记用户搜索行为的唯一的标识号进行关联。

可选地,在根据本发明的方法中,用户每一次搜索行为对应唯一的标识号,其中,确定包含特征向量及其标签的样本为正样本或负样本的步骤,包括:如果切分后的词存在于第二日志中该标识号对应的文档中,则样本为正样本;如果切分后的词不存在于第二日志中该标识号对应的文档中,但存在于第一日志中该标识号对应的文档中,则样本为负样本。

可选地,在根据本发明的方法中,其中,特征向量中包括切分后的词的以下至少一个特征:是否出现在文档集合中当前文档的标题中、出现在文档集合中当前文档的标题中的次数、是否在预测的主题词中出现、TF、IDF、TF-IDF、词性、所对应的语义向量。

可选地,在根据本发明的方法中,其中,特征向量中还包括以下至少一个特征:是否为车系词、是否为品牌词。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京齐尔布莱特科技有限公司,未经北京齐尔布莱特科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110710401.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top