[发明专利]文本信息生成方法和文本信息生成装置在审

专利信息
申请号: 201811015508.3 申请日: 2018-08-31
公开(公告)号: CN110929021A 公开(公告)日: 2020-03-27
发明(设计)人: 周鑫;王剑;陶秀莉;孙常龙;刘晓钟 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F16/34 分类号: G06F16/34;G06F16/9535;G06F16/9536;G06Q30/02
代理公司: 北京润泽恒知识产权代理有限公司 11319 代理人: 冀晓恺
地址: 英属开曼群岛大开*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要: 本申请公开了一种文本信息生成方法和文本信息生成装置。该文本信息生成方法包括:获取用户偏好信息和商品关联信息,所述商品关联信息包括商品的评论信息和/或描述信息;对所述商品关联信息分别进行分词处理和结构化处理;将所述用户偏好信息、分词处理后的商品关联信息和结构化处理后的商品关联信息输入机器学习模型,利用机器学习模型生成针对所述商品的文本信息。本发明实施例提出一种根据用户偏好信息生成针对商品的文本信息的方法和装置,能够生成符合用户偏好的文本信息,所生成的文本是按照用户偏好的维度有针对地对商品进行介绍,同时流利通顺。提高了用户根据文本信息获得商品相关信息的效率。
搜索关键词: 文本 信息 生成 方法 装置
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811015508.3/,转载请声明来源钻瓜专利网。

同类专利
  • 一种慕课的课程概念抽取方法和装置-202310780486.4
  • 侯磊;卢梦莹;王禹权;于济凡;孟斌杰;李涓子;郑海涛;唐杰;许斌 - 清华大学
  • 2023-06-28 - 2023-10-27 - G06F16/34
  • 本发明提供一种慕课的课程概念抽取方法和装置,首先,充分利用预训练语言模型的知识,学习词表中每一个概念的领域分布特征;而后,利用词表中每一个概念的领域分布特征辅助执行视频字幕文本课程概念的自动化标注,去掉领域无关噪音;之后,基于自动化标注的视频字幕文本,构建用于最小化视频字幕文本BIO标注中概念噪声和概念缺失的慕课课程概念标注模型;最后将慕课课程概念标注模型应用到慕课课程概念抽取任务中,从而高效准确地抽取课程中的高质量概念。
  • 事件总结文本的生成方法、装置、设备、介质及程序产品-202310993226.5
  • 王皓冉;刘星言;唐然;李峰;冯尧;郑哲;杜楠 - 腾讯科技(深圳)有限公司
  • 2023-08-08 - 2023-10-27 - G06F16/34
  • 本申请公开了一种事件总结文本的生成方法、装置、设备、介质及程序产品,涉及人工智能领域。该方法包括:基于第一标注信息和第二标注信息,将候选事件数据与第一风格的风格要求进行匹配,并根据匹配结果从多个候选事件数据中筛选得到第一事件数据;基于第一风格对第一事件数据进行文本预测,生成第一事件数据的事件总结文本。通过对事件数据进行文本预测,从而得到事件总结文本,提高了对事件总结文本的生成效率;在生成事件总结文本前,对多个候选事件数据进行了基于第一风格(即要求的风格)的筛选,提高了进行第一风格的文本预测的事件数据的质量,从而生成的事件总结文本与第一风格的适配度较高,提高了生成的事件总结文本准确性。
  • 摘要抽取方法、装置、设备及存储介质-202310090526.2
  • 李俊琪 - 腾讯科技(深圳)有限公司
  • 2023-01-17 - 2023-10-27 - G06F16/34
  • 本申请公开了一种摘要抽取方法、装置、设备及存储介质,涉及人工智能技术领域。所述方法包括:获取样本文档对应的样本结构图,该样本结构图用于表示句子节点之间的位置关系、词节点之间的关联关系,以及词节点与句子节点之间的归属关系;获取样本结构图中的各个句子节点分别对应的融合特征表示,该融合特征表示聚合有句子节点的特征信息和句子节点的邻居节点的特征信息;通过摘要抽取模型根据各个句子节点分别对应的融合特征表示,得到各个句子节点分别对应的分类结果;根据各个句子节点分别对应的分类结果和标签数据,对摘要抽取模型进行训练。本申请通过考量句子在文档中的位置信息,来对摘要抽取模型进行训练,提高了摘要的抽取准确性。
  • 一种文本摘要生成方法、装置、设备及存储介质-202310327287.8
  • 刘烨 - 腾讯科技(深圳)有限公司
  • 2023-03-24 - 2023-10-27 - G06F16/34
  • 本申请公开了一种文本摘要生成方法、装置、设备及存储介质。该方法包括:获取目标文本和目标文本的初始摘要;将目标文本和初始摘要输入关键词提取模型进行关键词提取,得到目标文本的文本关键词;将目标文本和文本关键词输入目标摘要生成模型进行文本摘要生成,得到目标文本的目标摘要;其中,关键词提取模型和目标摘要生成模型是对待训练关键词提取模型和待训练摘要生成模型进行联合训练后得到的,在联合训练的过程中,待训练摘要生成模型的输入为待训练关键词提取模型的输出,待训练关键词提取模型的输入为待训练摘要生成模型的输出。利用本申请提供的技术方案可以修正存在事实不一致性问题的初始摘要,提升目标摘要的准确性。
  • 摘要抽取方法、装置及计算机设备-201910591171.9
  • 缪畅宇 - 腾讯科技(深圳)有限公司
  • 2019-07-02 - 2023-10-27 - G06F16/34
  • 本申请涉及一种摘要抽取方法、装置及计算机设备,获取待抽取文本;基于神经网路模型的句子编码器,确定待抽取文本中各句子属于文本摘要的预测概率;通过神经网络模型的句子抽取器,基于预测概率确定属于待抽取文本的文本摘要的目标句子集;其中,神经网络模型的确定过程包括:获取样本记录,每条样本记录包括样本文本以及众包标注,众包标注包括至少两个标注人员对样本文本进行标注的标注结果;根据标注结果以及学习过程中针对样本文本得到的学习结果,确定回报函数值;基于回报函数值与学习结果,确定句子抽取器及句子编码器。如此,使得摘要抽取的方式多样化,从而,提高摘要抽取的泛化性。
  • 标记语言文本解析方法及装置、存储介质、电子设备-201910678876.4
  • 卓达城 - 腾讯科技(深圳)有限公司
  • 2019-07-25 - 2023-10-27 - G06F16/34
  • 本公开提供一种标记语言文本解析方法及装置、电子设备、存储介质;涉及计算机技术领域。所述文本解析方法包括:获取标记语言文本,将所述标记语言文本中的数字内容解析为对应的文本类型数据;在接收到针对任意数字内容的应用请求时,将该数字内容对应的文本类型数据解析为对应的数字类型数据。本公开可以提高标记语言文本解析的效率,节省计算机资源。
  • 路面结构层的展示方法、装置、计算机设备及存储介质-202010977586.2
  • 康来元 - 广联达科技股份有限公司
  • 2020-09-17 - 2023-10-27 - G06F16/34
  • 本发明提供一种路面结构层的展示方法、装置、计算机设备及可读存储介质,所述方法包括:获取路面结构层图纸中的描述文本,所述描述文本用于描述路面的结构层信息;根据所述描述文本提取路面结构层的结构层名称;根据所述结构层名称提取结构层类型和结构层厚度,所述结构层类型包括面层或基层;以表格方式展示所述结构层名称、结构层类型和结构层厚度,其中属于同一结构层的结构层名称、结构层类型和结构层厚度位于同一行;获取所述路面结构层图纸中与每个结构层对应的加宽数据和放坡数据并显示在所述表格的相应行;根据所述结构层名称、所述结构层类型、所述结构层厚度、所述加宽数据和所述放坡数据生成并显示结构层示意图。
  • 一种基于预训练模型的文本摘要生成方法和装置-202310857864.4
  • 黄登蓉;岳爱珍;张铮;常冰心;魏子重 - 山东浪潮科学研究院有限公司
  • 2023-07-13 - 2023-10-24 - G06F16/34
  • 本发明涉及机器学习技术领域,具体为一种基于预训练模型的文本摘要生成方法和装置,包括以下步骤:收集大规模语言模型微调相关的数据集;大语言模型相关训练数据的前期处理;基于数据处理模块得到训练数据;基于模型训练模块得到的模型,对输入的任何中文文本生成具体的摘要信息;有益效果为:本发明提出的基于预训练模型的文本摘要生成方法和装置,引入时间信息,生成包含时间信息的摘要,更能反映文本信息的变化和演变;大规模语言模型的引入,可以更好的理解文本内容,生成的摘要具有更高的准确度和灵活性;构建的包含时间的样本,有效的克服了大规模语言模型生成摘要的偏差,使得生成的摘要信息更加有针对性和实用性。
  • 摘要提取方法以及装置-202310532760.6
  • 申琛惠;程丽颖;邴立东 - 阿里巴巴(中国)有限公司
  • 2023-05-10 - 2023-10-24 - G06F16/34
  • 本说明书实施例提供摘要提取方法以及装置,其中摘要提取方法包括:获取多个文档文本;基于文档标识符,拼接多个文档文本,获得拼接文档文本;将拼接文档文本输入至摘要提取模型,获得摘要提取结果,摘要提取模型基于注意力分布信息对拼接文档文本进行处理,注意力分布信息由第一文档标识符与第一文档文本中的文本字符、第二文档文本中的第二文档标识符确定,第一文档文本与第二文档文本为多个文档文本中任意两个文档文本。基于由多文档的文档标识符和文本字符确定得到的注意力分布信息,对拼接文档文本进行处理获得摘要提取结果,在处理过程中充分考虑到多个文档文本之间字符的关系,提高了对多文档文本进行摘要提取的准确性。
  • 摘要生成方法及装置-202210351256.1
  • 管静;王惠欣;冯俊兰;邓超;胡珉 - 中国移动通信有限公司研究院;中国移动通信集团有限公司
  • 2022-04-02 - 2023-10-24 - G06F16/34
  • 本申请公开了一种摘要生成方法及装置,涉及文本摘要技术领域。该摘要生成方法,包括:获取目标向量表示,目标向量表示是目标文本的向量表示;按照静态领域知识库中的描述向量表示与目标向量表示的匹配度从高到低的顺序,从静态领域知识库的描述向量表示中确定K个第一向量表示;从静态领域知识库中获取K个第一领域知识;根据所述K个第一领域知识以及每个所述第一领域知识与所述目标文本的匹配度,生成所述目标文本对应的摘要。上述方案,通过在静态领域知识库中检索匹配K个领域知识的第一向量表示,进而基于该向量表示进行摘要内容的生成,能够提高为目标文本匹配的领域知识的准确度,进而改善为目标文本生成的摘要的质量。
  • 文本摘要生成方法及系统-202310869688.6
  • 李志杰;郭晋;姜波清;于瑞清;刀国羚 - 乐麦信息技术(杭州)有限公司
  • 2023-07-17 - 2023-10-24 - G06F16/34
  • 本公开提供一种文本摘要生成方法及系统,包括获取目标文本信息的字节长度,若所述字节长度超过预设字节阈值,则对所述目标文本信息进行筛选确定所述目标文本信息对应的筛选摘要;将所述筛选摘要拆分为多个句子,并将多个句子进行向量化表示,确定多个句子之间的相似度,并将所述多个句子作为节点,所述多个句子之间的相似度作为连接边,构建所述筛选摘要对应的摘要图;通过预设的摘要生成模型提取所述摘要图中节点的局部语义特征、全局语义特征,以及节点中各个词语在节点中的位置信息,并根据注意力机制分别为所述局部语义特征、所述全局语义特征以及所述位置信息分配对应的权重系数,生成所述目标文本信息对应的文本摘要。
  • 基于知识图谱的语义感知自动文本摘要方法-202310853694.2
  • 徐菲菲;曹阳泽;王纯;朱轶涛 - 上海电力大学
  • 2023-07-12 - 2023-10-20 - G06F16/34
  • 本发明提供了一种基于知识图谱的语义感知自动文本摘要方法,具有这样的特征,包括以下步骤:步骤S1,对待识别文档进行预处理操作,得到预处理文档;步骤S2,将预处理文档输入文档表示转换器,得到文档表示向量;步骤S3,根据预处理文档和文档表示向量,通过双向长短期记忆网络得到主题上下文特征向量;步骤S4,根据RotatE方法构建得到知识图谱的特征矩阵;步骤S5,将主题上下文特征向量与特征矩阵进行连接,再经由自注意矩阵,得到最终上下文主题表示向量;步骤S6,将最终上下文主题表示向量输入TCR‑Enhanced辅助解码层,得到文本摘要。总之,本方法能够提高生成的文本摘要的质量。
  • 一种基于对比学习的文本摘要辅助生成方法-202310765480.X
  • 郭哲;张智博;周炜杰;王毅;樊养余 - 西北工业大学
  • 2023-06-27 - 2023-10-20 - G06F16/34
  • 本发明公开了一种基于对比学习的文本摘要辅助生成方法,首先构建了候选摘要生成模型,包含文本嵌入模块和源文本编码模块;文本嵌入模块将源文本分别进行词表分词、词嵌入和位置编码嵌入来获得源文本的嵌入向量;源文本编码模块则负责对源文本进行语义建模和特征提取,得到编码隐向量。然后基于自注意力结构来生成多条候选摘要。接着采用候选摘要生成模型的编码器网络获得句向量编码。最后,基于对比学习思想设计了一种新型排序损失函数,基于该损失函数对每一条候选摘要根据源文本进行语义相似度的有效评价,最终给出源文本最为合理的文本摘要。本发明有效缓解了高概率候选摘要与源本文的语义匹配度低的问题,能够实现高效的文本摘要辅助生成。
  • 一种基于深度学习的文学人物关系识别方法-202110602698.4
  • 刘忠宝;赵文娟;荀恩东 - 山东外国语职业技术大学
  • 2021-05-31 - 2023-10-20 - G06F16/34
  • 一种基于深度学习的文学人物关系识别方法,属于自然语言处理技术领域,该方法首先将文学文本进行分割得到一系列句子,即语料集;其次对语料集进行人物实体识别,再筛选出语料集中包含人物实体的句子,组成子语料集;再次利用RBERT+BiLSTM模型对子语料集进行人物关系抽取;接着计算出人物实体在同一句子之间的共现频数;然后根据人物关系和共现频数构建人物图谱;并且根据人物图谱进行社区发现;最后将人物图谱进行可视化。本发明提出的RBERT+BiLSTM模型不仅可以计算出人物实体的实体向量,还可以计算出对应句子的句子向量,将二者进行结合来计算人物关系,因此本方法在计算人物关系时,充分考虑句子的语义,以此来适用于文学作品。
  • 代码摘要生成方法、装置、设备及存储介质-202310835707.3
  • 刘淇;黄振亚;赵宇泽;张凯;陈恩红 - 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室)
  • 2023-07-10 - 2023-10-20 - G06F16/34
  • 本发明公开一种代码摘要生成方法、装置、设备及存储介质,涉及代码摘要生成技术领域,方法包括:根据待处理代码,生成多个初始代码摘要和代码图;代码图包括待处理代码对应的抽象语法树和数据流边,且抽象语法树的令牌节点通过数据流边连接;从多个初始代码摘要中,提取出多个摘要语义特征;根据代码图中各令牌节点的节点流向路径,获得代码语义特征;根据摘要语义特征与代码语义特征之间的语义相似度,从多个初始代码摘要中筛选出目标代码摘要;根据目标代码摘要和代码语义特征,生成待处理代码的结果代码摘要。本发明解决了现有代码摘要生成方法,生成的代码摘要准确性低的技术问题,提高了代码摘要的准确性。
  • 摘要生成方法、装置、设备、存储介质及产品-202311009460.6
  • 刘刚 - 腾讯科技(深圳)有限公司
  • 2023-08-11 - 2023-10-17 - G06F16/34
  • 本申请公开了摘要生成方法、装置、设备、存储介质及产品,属于人工智能技术领域。该方法包括对长文本对象进行分片,得到多个内容单元。对各内容单元分别进行关键内容提取,得到长文本对象的文本对象关键内容,基于该关键信息进行模板构造得到摘要提示信息,该摘要提示信息用于约束目标摘要的生成结果,将该摘要提示信息输入摘要生成模型的摘要生成器进行内容预测,得到目标摘要,该摘要生成器由大型生成式语言模型通过提示学习得到。该方法可以对长文本对象实现一次性的摘要生成。既利用到了大型生成式语言模型自身丰富的文本处理方面的知识提升了摘要生成效果,又对该大型生成式语言模型进行提示学习,缩短了训练周期,降低了数据准备难度。
  • 基于语义切分的法律文书自动摘要方法和系统-202310880337.5
  • 杨洋;王惠娟 - 浙江大学
  • 2023-07-18 - 2023-10-17 - G06F16/34
  • 本发明公开了一种基于语义切分的法律文书自动摘要方法和系统,属于自然语言处理领域。本发明获取民事一审裁判文书作为输入,使用连续句子分类的方法,对裁判文书进行语义切分,将裁判文书划分为争议类别,原告诉求,被告陈述,事实与理由,裁判依据、裁判主文与尾部共五个部分的文本段落;对切分后的每个文本段落分别使用生成式文本摘要的方法得到摘要;对于同一裁判文书的各切分后段落生成的摘要,按顺序拼接得到最终结果。本发明对法律文书进行自动摘要,使用语义切分的方法,缩短了单次输入生成摘要模型的文本长度,并能够保留完整的原文语义结构特征。
  • 一种基于主题模型的微服务关注点识别方法、设备及介质-202010431043.0
  • 陈坚;张贺;刘博涵;荣国平;邵栋 - 南京大学
  • 2020-05-20 - 2023-10-17 - G06F16/34
  • 本发明属于软件测试技术领域,具体涉及一种模型的微服务关注点识别方法、设备及介质。其中,微服务关注点的识别方法,包括:基于微服务项目源代码的文本文件,利用主题模型识别出其中的主题集;分析微服务项目代码的语法树以及服务接口调用关系,确定所有代码文件间的依赖关系网络;根据所识别出来的主题集以及代码文件依赖关系网络,判断主题集中每一个主题是能够体现软件需求的功能性主题还是噪声主题,并给出每一个微服务对应的功能性主题集,用来表示微服务的关注点。本发明实施例的技术方案,实现了在快速迭代开发的微服务项目中,自动化地识别出微服务的关注点,以辅助微服务架构师确定微服务的粒度,从而支持微服务架构设计的决策。
  • 一种基于关键词引导的缺陷报告标题生成技术-202310834703.3
  • 邹卫琴;孟千爽 - 南京航空航天大学
  • 2023-07-07 - 2023-10-13 - G06F16/34
  • 本发明提出了一种基于关键词引导的缺陷报告标题生成技术,采用关键词抽取技术从缺陷报告问题详细描述中抽取关键词;将抽取的关键词按是否在标题中出现以及出现的顺序重新筛选和排序,形成关键词引导;将关键词引导和标题通过特殊符号连接,作为模型的训练目标;训练过程中,BART模型的输入为关键词引导,生成标题时,充分利用语言模型的自回归机制,让其先生成关键词引导,再生成标题。通过本发明,能够为开发者自动生成高质量标题,帮助其快速把握缺陷报告中的重点内容。
  • 一种小说剧情回顾生成方法、电子设备及存储介质-202310791125.X
  • 汪晴;林水辉 - 福州佳软软件技术有限公司
  • 2023-06-30 - 2023-10-13 - G06F16/34
  • 本申请涉及电子书阅读技术领域,提供了一种小说剧情回顾生成方法、电子设备及存储介质,其方法包括:计算章节的热度,并通过热度的高低筛选出热点章节;提取出热点章节的内容介绍;按照热点章节的先后,将对应的内容介绍进行排序,以生成剧情回顾。本技术方案实现了剧情回顾的自动生成,提升了读者的阅读体验,无需人工撰写内容摘要,提高了效率,降低了人工成本。其章节通过热度高低来进行选取,章节选取科学、智能,精选出读者感兴趣、内容量大的章节进行提炼,在总结回顾剧情的同时,避免了内容过于臃肿无聊的问题。
  • 一种书籍名场面的提取方法、电子设备及存储介质-202310793694.8
  • 汪晴;黄陈海 - 福州佳软软件技术有限公司
  • 2023-06-30 - 2023-10-13 - G06F16/34
  • 本申请提供了一种书籍名场面的提取方法、电子设备及存储介质,方法包括步骤:筛选出被反复观看的书籍片段;统计书籍片段的阅读数据,阅读数据包括反复观看该书籍片段的读者人数、观看次数、观看时长;根据阅读数据判断该书籍片段是否为名场面;如是,则提取该书籍片段内容,加入至书籍简介/书籍推荐内容中。通过统计筛选出被大量读者反复阅读、长时间阅读的片段,并对其进行内容的梳理、提取,后续在书籍简介页面、书籍推荐的页面展示其内容。通过读者数据的分析,能更好提取到读者感兴趣的内容,将其作为简介或者推荐展示内容,可以吸引读者的兴趣,有利于电子书运营平台提高留存率、增加阅读量和营收。
  • 提升用户对话理解和ChatGPT回答质量的可视分析方法和系统-202310815553.1
  • 孙国道;叶丹薇;梁盼;朱子昊;梁荣华 - 浙江工业大学
  • 2023-07-05 - 2023-10-13 - G06F16/34
  • 提升用户对话理解和ChatGPT回答质量的可视化分析方法和系统,其方法包括:S1.获取用户与ChatGPT的对话历史并将其分解成多个对话节点,每个节点包含一个用户提问和相应的ChatGPT回答;S2.使用多粒度主题分类方法对原始数据进行分析,获取带有时序信息的多层次主题文本数据;S3.将带有时序信息的多层次主题文本数据导入预构建的可视化模型用于数据呈现。本发明能帮助用户深入理解对话历史的整体结构和内容,同时为模型提供足够上下文信息,从而提高ChatGPT的回答质量。
  • 生成客服咨询摘要的方法和装置-202210311300.6
  • 李薛;司鹏 - 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司
  • 2022-03-28 - 2023-10-13 - G06F16/34
  • 本发明公开了一种生成客服咨询摘要的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:对客服咨询内容进行对话拆解得到不少于一个咨询任务;对每个咨询任务,确定所述咨询任务对应的表单数据,并对所述咨询任务进行特征提取以得到咨询任务向量;将所述咨询任务向量和所述表单数据嵌入到预先训练的图模型中得到嵌入图模型,并对所述嵌入图模型进行特征提取以得到图模型嵌入向量;根据所述图模型嵌入向量得到咨询问题和关键摘要信息;根据所述咨询问题和所述关键摘要信息生成客服咨询摘要。该实施方式能够基于客服咨询过程中所涉及的多种特征进行自动化摘要生成,摘要生成结果具有客观性,且结果统一化,生成效率高。
  • 结合局部主题和层次结构信息的抽取式摘要方法及系统-202310699985.0
  • 杨川;王婷;梁佳莹;向东;杨文杰;马洪江 - 成都信息工程大学
  • 2023-06-13 - 2023-10-10 - G06F16/34
  • 本发明属于文本摘要提取技术领域,公开了一种结合局部主题和层次结构信息的抽取式摘要方法及系统,首先给定原文档,通过编码器得到文档的上下文表示,将其输入局部主题信息提取模块提取该句子所属片段的主题信息,将局部主题信息表示和文档的上下文表示相融合,得到融合局部主题信息的文本上下文表示;文本层次结构信息嵌入模块将文本的层次结构信息嵌入到融合局部主题信息的文本上下文表示中;通过Sigmoid层算出每个句子的置信度分数以判断该句是否属于摘要句。本发明更关注文本重要部分,提升生成摘要质量;通过修改Longformer的TokenPositionEmbeddings,使得其能够处理更长的文本数据。
  • 一种基于知识图和BART语义的多文档摘要方法-202310812349.4
  • 杨陟卓;褚强 - 山西大学
  • 2023-08-10 - 2023-10-10 - G06F16/34
  • 本发明属于自然语言处理技术领域,具体涉及一种基于知识图和BART语义的多文档摘要方法。该方法包括以下步骤:构建多文档摘要训练数据集;构建面向多文档摘要的知识图;构建融合知识和图注意力的多文档摘要模型;训练多文档摘要模型并生成摘要。本发明融合外部知识的语义知识图加强远距离实体的联系,采用知识图和BART语义信息融合的方法,使模型能够更好地结合知识图和文本序列的注意力,弥补深度学习模型的缺点,降低模型对大规模标注样本的依赖,生成质量更高的摘要内容。
  • 一种基于扩张卷积的主题感知抽取式文本摘要生成方法及系统-202310845489.1
  • 肖红;李泽霖;姜文超;黄子豪 - 广东工业大学;广州凡沙智能科技有限公司
  • 2023-07-10 - 2023-10-10 - G06F16/34
  • 本发明涉及自然语言处理技术领域,提出一种基于扩张卷积的主题感知抽取式文本摘要生成方法,包括以下步骤:S1:获取文档D中的文本数据进行预处理,得到文本编码x;S2:把所述文本编码x输入扩张卷积主题抽取模型中,获得主题分布θt以及候选句集C;S3:将所述候选句集C输入BERT模型,对所述候选句集C中的句子进行编码,获得包含语义特征的句子级向量;S4:将所述句子级向量输入到融合有所述主题分布θt的文档级解码器,获得包含隐藏状态的候选句子si;S5:对所述候选句子si进行评分,根据分值对句子进行降序排序,选择前S个句子用于生成摘要。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top