[发明专利]词权重生成模型训练方法及装置、词权重生成方法及装置在审
申请号: | 202110962135.6 | 申请日: | 2021-08-20 |
公开(公告)号: | CN113609248A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 王丙琛;李长亮 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06N3/08 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 刘晓楠 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 权重 生成 模型 训练 方法 装置 | ||
本申请提供词权重生成模型训练方法及装置、词权重生成方法及装置,其中所述词权重生成模型训练方法包括:分别获取目标问题、所述目标问题对应的目标答案;提取所述目标问题的关键词,组成关键词组合,根据至少一个所述关键词组合确定初始文档集合;根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合;根据所述目标关键词组合获得每个目标关键词的目标权重值;根据所述目标问题、每个目标关键词和目标权重值训练词权重生成模型,直至达到训练停止条件,通过本申请提供的方法,解决了无监督方法中无法利用语义和文本信息的缺点。
技术领域
本申请涉及计算机技术中的人工智能领域,特别涉及词权重生成模型训练方法及装置、词权重生成方法及装置、计算设备和计算机可读存储介质。
背景技术
人工智能(artificial intelligenc)是一门交叉学科,通常视为计算机科学的分支,研究表现出与人类智能(如推理和学习)相关的各种功能的模型和系统。随着人工智能技术的发展,自然语言处理领域也得到了快速发展,自然语言处理(Natural LanguageProcessing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。根据文本进行信息检索是自然语言处理领域的一个重要分支。
在根据文本进行信息检索的过程中,文本信息中的词权重值是信息检索研究的一个基本问题,目的是对文本中的词赋予不同的权重值,便于在后续的处理过程中更有侧重点,现有的常用词权重计算方法主要分为有监督训练模型和无监督计算的方法,其中,有监督训练方法需要通过大量的人工标注的数据训练一个回归模型进行词权重预测,但是人工标注成本较高且人工标注难度较大,而无监督计算方法通常是通过如TF-IDF、TextRank等算法进行计算,无监督计算的方法虽然不需要人工标注,但是无法有效利用文本中的语义信息,导致相同的词在不同的文本中具有相同的权重,生成的词权重值效果较差。
发明内容
有鉴于此,本申请实施例提供了词权重生成模型训练方法及装置、词权重生成方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种词权重生成模型训练方法,包括:
分别获取目标问题、所述目标问题对应的目标答案;
提取所述目标问题的关键词,组成关键词组合,根据至少一个所述关键词组合确定初始文档集合;
根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合;
根据所述目标关键词组合获得每个目标关键词的目标权重值;
根据所述目标问题、每个目标关键词和目标权重值训练词权重生成模型,直至达到训练停止条件。
根据本申请实施例的第二方面,提供了一种词权重生成方法,包括:
获取待处理问题,并提取所述待处理问题的目标关键词;
将所述待处理问题和所述目标关键词输入至预先训练好的词权重生成模型,其中,所述词权重生成模型是通过权利要求1-10任意一项所述的词权重生成模型训练方法或者其他训练方法训练获得的;
响应于作为输入的所述待处理问题和所述目标关键词,所述词权重模型生成每个目标关键词对应的预测权重值。
根据本申请实施例的第三方面,提供了一种词权重生成模型训练装置,包括:
获取模块,被配置为分别获取目标问题、所述目标问题对应的目标答案;
提取模块,被配置为提取所述目标问题的关键词,组成关键词组合,根据至少一个所述关键词组合确定初始文档集合;
确定模块,被配置为根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司,未经北京金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110962135.6/2.html,转载请声明来源钻瓜专利网。