[发明专利]一种主题词生成模型的训练方法及计算设备在审
申请号: | 202110710401.6 | 申请日: | 2021-06-25 |
公开(公告)号: | CN113609841A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 李辉;陈永生 | 申请(专利权)人: | 北京齐尔布莱特科技有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06F40/30;G06N20/10 |
代理公司: | 北京思睿峰知识产权代理有限公司 11396 | 代理人: | 高攀;赵爱军 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 主题词 生成 模型 训练 方法 计算 设备 | ||
本发明公开了一种主题词生成模型的训练方法,在计算设备中执行,包括步骤:获取文档集合和记录用户行为的日志;针对用户每一次搜索行为,对用户搜索的关键词进行分词处理,得到一个或多个切分后的词;针对每一个切分后的词和文档集合中的每一个文档,根据切分后的词、日志和文档集合生成特征向量,将切分后的词作为特征向量的标签,并确定包含特征向量及其标签的样本为正样本或负样本;根据样本,对主题词生成模型进行训练,得到训练后的主题词生成模型。本发明一并公开了相应的装置、计算设备及可读存储介质。
技术领域
本发明涉及自然语言处理领域,尤其涉及一种主题词生成模型的训练方法、装置、计算设备及可读存储介质。
背景技术
提取文本主题词在众多网络应用中起着至关重要的作用。例如,在搜索引擎建立索引以及内容推荐中,需要提取文本主题词,根据主题词建立各个文本的索引,并根据用户的搜索词推荐具有相关主题词的内容,从而提高检索效率;在基于内容的网络广告中,需要提取用户当前浏览内容的主题词,以便向用户推送与其浏览内容相关的广告;在根据用户搜索关键词进行内容排序阶段,文本的主题词作为一个相关特征对排序起着重要作用;以及在基于内容的文本分类中,需要根据提取到的文本主题词对文本进行分类。
现有技术中,提取文本主题词的一种方法是:计算文本中的词在语料库中词频(TF)、逆文本频率指数(IDF)或TF-IDF等指标的值,当指标的值达到一定阈值时,将相应的词作为文本的主题词。但是,这种方法会导致一些生僻词的IDF较高,而常见词的IDF较低,从而导致有些生僻词被当做文档关键词、错误地判断主题词的问题。另一种方法是:基于TextRank算法,获得文本中词的重要性的得分,确定得分高的指定个数的词作为文本的主题词。但是,这一方法仅考虑词语之间的共现关系,会导致一些局部主题词成为全局主题词,而导致主题词的选取精度低。
为此,需要一种主题词生成模型的训练方法来提高主题词提取的准确度,以力图解决或至少缓解上述技术方案中存在的问题。
发明内容
为此,本发明提供一种主题词生成模型的训练方法、装置、计算设备及可读存储介质,以力图解决或至少缓解上面存在的问题。
根据本发明的一个方面,提供了一种主题词生成模型的训练方法,在计算设备中执行,包括步骤:获取文档集合和记录用户行为的日志;针对用户每一次搜索行为,对用户搜索的关键词进行分词处理,得到一个或多个切分后的词;针对每一个切分后的词和文档集合中的每一个文档,根据切分后的词、日志和文档集合生成特征向量,将切分后的词作为特征向量的标签,并确定包含特征向量及其标签的样本为正样本或负样本;根据样本,对主题词生成模型进行训练,得到训练后的主题词生成模型。
可选地,在根据本发明的方法中,记录用户行为的日志包括第一日志和第二日志,其中,第一日志包括用户搜索关键词后所展示的文档集合中的文档,第二日志包括用户搜索关键词后所点击的文档集合中的文档,第一日志和第二日志中的文档通过标记用户搜索行为的唯一的标识号进行关联。
可选地,在根据本发明的方法中,用户每一次搜索行为对应唯一的标识号,其中,确定包含特征向量及其标签的样本为正样本或负样本的步骤,包括:如果切分后的词存在于第二日志中该标识号对应的文档中,则样本为正样本;如果切分后的词不存在于第二日志中该标识号对应的文档中,但存在于第一日志中该标识号对应的文档中,则样本为负样本。
可选地,在根据本发明的方法中,其中,特征向量中包括切分后的词的以下至少一个特征:是否出现在文档集合中当前文档的标题中、出现在文档集合中当前文档的标题中的次数、是否在预测的主题词中出现、TF、IDF、TF-IDF、词性、所对应的语义向量。
可选地,在根据本发明的方法中,其中,特征向量中还包括以下至少一个特征:是否为车系词、是否为品牌词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京齐尔布莱特科技有限公司,未经北京齐尔布莱特科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110710401.6/2.html,转载请声明来源钻瓜专利网。