[发明专利]从结构化数据生成文本在审
申请号: | 201711348978.7 | 申请日: | 2017-12-15 |
公开(公告)号: | CN110019471A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 唐都钰;段楠;吕元华;周明 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F17/22 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 王茂华 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结构化数据 文本 自然语言语句 转换 关联 | ||
根据本公开的各种实现,提供了一种从结构化数据生成文本的方案。在该方案中,将结构化数据转换为其表示,其中结构化数据包括多个单元。结构化数据的表示包括多个单元的多个表示。基于结构化数据的表示,可以确定与结构化数据相关联的自然语言语句,从而实现结构化数据转换为文本的功能。
背景技术
表等结构化数据是网络上广泛使用的数据源类型,其具有形式结构并且包括有价值的信息。理解表等结构化数据的含义并对其内容进行正确的描述是人工智能领域重要的问题。一些可能的应用包括问答系统、构造对话代理和支持搜索引擎等等。
目前,可以使用基于模板的方法将表转换为文本。然而,这种方法严重依赖于人工,成本较高,昂贵的人力成本使其无法处理多样性的问题。基于神经网络的自然语言处理模型广泛应用于机器翻译等领域。然而,机器翻译是将一种自然语言转换为另一种自然语言。因此,目前需要一种将表等结构化数据转换为自然语言的行之有效的解决方案。
发明内容
根据本公开的实现,提供了一种从结构化数据生成文本的方案。在该方案中,将结构化数据转换为其表示,其中结构化数据包括多个单元,并且结构化数据的表示包括多个单元的多个表示。基于结构化数据的表示,可以确定与结构化数据相关联的自然语言语句,从而实现结构化数据转换为文本的功能。
提供发明内容部分是为了简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征,也无意限制要求保护的主题的范围。
附图说明
图1示出了能够实现本公开的多个实现的计算设备的框图;
图2示出了根据本公开的一个实现的将表转换为文本的任务的示意图;
图3示出了根据本公开的一个实现的用于从结构化数据生成文本的神经网络架构;以及
图4示出了根据本公开的一个实现的用于从结构化数据生成文本的方法的流程图。
这些附图中,相同或相似参考符号用于表示相同或相似元素。
具体实施方式
现在将参照若干示例实现来论述本公开。应当理解,论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开,而不是暗示对本主题的范围的任何限制。
如本文中所使用的,术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“或者”要被解读为“和/或”,除非上下文明确另外指示。术语“基于”要被解读为“至少部分地基于”。术语“一个实现”和“一种实现”要被解读为“至少一个实现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。除非另外地明确指出,术语的定义贯穿说明书是一致的。
以下参考附图来说明本公开的基本原理和若干示例实现。图1示出了能够实施本公开的多个实现的计算设备100的框图。应当理解,图1所示出的计算设备100仅仅是示例性的,而不应当构成对本公开所描述的实现的功能和范围的任何限制。如图1所示,计算设备100包括通用计算设备形式的计算设备100。计算设备100的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150以及一个或多个输出设备160。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711348978.7/2.html,转载请声明来源钻瓜专利网。