[发明专利]信息获取方法、装置、设备及介质有效
申请号: | 202110762048.6 | 申请日: | 2021-07-06 |
公开(公告)号: | CN113468330B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 汪贻俊;孙长志;周浩;李磊 | 申请(专利权)人: | 北京有竹居网络技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/295 |
代理公司: | 北京开阳星知识产权代理有限公司 11710 | 代理人: | 王艳斌 |
地址: | 101299 北京市平*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息 获取 方法 装置 设备 介质 | ||
本公开实施例涉及一种信息获取方法、装置、设备及介质,其中该方法包括:设置与样本集合中每个样本句子对应的标签表,其中,标签表的行字符和列字符按照对应样本句子的字符顺序进行相同设置,以及对标签表中由行字符和列字符组成的各单元格标注对应的信息类别标签;将每个样本句子作为待训练模型的输入信息,将对应的标签表作为待训练模型的输出信息进行模型训练;根据训练后的模型参数生成信息抽取模型,以根据信息抽取模型提取目标句子信息。由此,通过句子的字符构建标签表,在标签表中标注句子字符或者字符之间的信息类别,从而,基于标签表训练的信息抽取模型可以高效准确的提取相关句子的信息类别等信息。
技术领域
本公开涉及数据处理领域,尤其涉及一种信息获取方法、装置、设备及介质。
背景技术
随着计算机技术的发展,句子的信息类别抽取成为较为常见的一种数据处理方式,比如,当信息类别包括实体词字符类别及其对应的关系类别时,实体词字符类别及其对应的关系类别的抽取通常作为信息抽取中的一个关键环节,被应用在问答系统,知识库等下游自然语言处理任务中。
相关技术中,基于流水线方法进行句子的信息类别抽取,即预先构建两个模型,其中一个模型用于字符的抽取,另一个模型用于根据字符进行有关信息类别的抽取,其中,另一个模型在抽取信息类别时,依赖于其中一个模型对字符的抽取结果,在抽取的字符的基础上进行信息类别的抽取。
然而,上述流水线方式在进行信息类别抽取时,由于依赖于字符的抽取结果,因此,字符抽取的误差必然会传播到信息类别的抽取中,导致句子中字符信息类别抽取不准确。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种信息获取方法,所述方法包括:设置与样本集合中每个样本句子对应的标签表,其中,所述标签表的行字符和列字符按照对应样本句子的字符顺序进行相同设置,以及对所述标签表中由所述行字符和所述列字符组成的各单元格标注对应的信息类别标签;将所述样本集合中每个样本句子作为待训练模型的输入信息,将与每个所述样本句子对应的所述标签表作为所述待训练模型的输出信息,根据预设的目标函数进行模型训练;根据训练后的模型参数生成信息抽取模型,以根据所述信息抽取模型提取目标句子信息。
本公开实施例还提供了一种信息获取装置,所述装置包括:设置模块,用于设置与样本集合中每个样本句子对应的标签表,其中,所述标签表的行字符和列字符按照对应样本句子的字符顺序进行相同设置,以及对所述标签表中由所述行字符和所述列字符组成的各单元格标注对应的信息类别标签;模型训练模块,用于将所述样本集合中每个样本句子作为待训练模型的输入信息,将与每个所述样本句子对应的所述标签表作为所述待训练模型的输出信息,根据预设的目标函数进行模型训练;提取模块,用于根据训练后的模型参数生成信息抽取模型,以根据所述信息抽取模型提取目标句子信息。
本公开实施例还提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现如本公开实施例提供的信息获取方法。
本公开实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行如本公开实施例提供的信息获取方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例提供的信息获取方案,设置与样本集合中每个样本句子对应的标签表,其中,标签表的行字符和列字符按照对应样本句子的字符顺序进行相同设置,以及对标签表中由行字符和列字符组成的各单元格标注对应的信息类别标签,进而,将样本集合中每个样本句子作为待训练模型的输入信息,将与每个样本句子对应的标签表作为待训练模型的输出信息,根据预设的目标函数进行模型训练,最后,根据训练后的模型参数生成信息抽取模型,以根据信息抽取模型提取目标句子信息。由此,通过句子的字符构建标签表,在标签表中标注句子字符或者字符之间的信息类别,从而,基于标签表训练的信息抽取模型可以高效准确的提取相关句子的信息类别等信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京有竹居网络技术有限公司,未经北京有竹居网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110762048.6/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置