[发明专利]一种基于自然语言理解的智能取数系统及其方法有效
| 申请号: | 201910292704.3 | 申请日: | 2019-04-12 |
| 公开(公告)号: | CN110119404B | 公开(公告)日: | 2021-10-08 |
| 发明(设计)人: | 王同和;凌立刚;孙锐 | 申请(专利权)人: | 杭州量之智能科技有限公司 |
| 主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F16/2452 |
| 代理公司: | 杭州云睿专利代理事务所(普通合伙) 33254 | 代理人: | 张骁敏 |
| 地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 自然语言 理解 智能 系统 及其 方法 | ||
本发明公开了一种基于自然语言理解的智能取数系统及其方法,包括用户自然语言交互模块、Search Engine、Schema Graph、Tokenizer、Tree Builder、SQL Generation,用户自然语言交互模块输送自然语言至外部分词器进行外部分段来分隔单词,Tokenizer识别每个分隔单词含义和将单词组合成短语,最终自动或与用户交互选择最佳组合和解释;Tree Builder根据Tokenizer内的节点序列构建Query Tree,SQL Generation则将Query Tree转化成SQL至数据库DB内、并反馈至用户自然语言交互模块内供用户参考,能够支持更多的问句形式和支持更丰富的复杂查询,运用更少的信息可以在没有与用户交互的情况下在MAS数据集上达到更高的准确度。
技术领域
本发明涉及计算机科学领域,特别涉及一种基于自然语言理解的智能取数系统及其方法。
背景技术
数据库的自然语言接口为人们提供了一种更简单、更符合习惯的方式来访问数据库,即使是缺乏计算机专业知识的人也可以通过该接口,使用自然语言查询的方式,轻松获取数据库中的数据。使用这样的查询方式,用户既不需要掌握复杂的结构化查询语言(如SQL),也不需要了解数据库的表结构,然而数据库自然语言的接口构建一直是个难题,目前最主流的解决方案有NaLIR、ATHENA等。
图1展示了NaLIR的系统架构,整个系统由三个主要部分组成:问句解析部分、交互式通信器和查询树翻译器部分。问句解析部分包含分析树节点映射器(parse tree nodemapper)和分析树结构调整器(parse tree structure Adjustor),负责将自然语言查询解析成一颗查询树。交互式通信器(interactive communicator)负责与用户交流,来确保解析过程的正确性。被用户所确认的查询树会被查询树翻译器(query tree translator)翻译成SQL语句,然后由RDBMS(关系型数据库管理系统)执行。
图2展示了ATHENA的系统架构,假设用户提交了这样一个查询:“Show merestricted stock investments in Alibaba since 2012by investor and year”。第一步,NLQ引擎将确定这个查询对应至本体中的哪些元素。比如,片段“restricted stock”将被对看作是InstitutionalInvestment.type或是Holding.type属性的一个值。相似的,片段“Alibaba”可能指Company.name、一个InvestorCompany或者一个Lender。NLQ引擎会处理所有这些可能的对应关系,并生成符合条件的解释结果的列表,解释结果需要遵循本体结构和语法上的约束,对于每个解释结果,会生成相应的自然语言解释。
在查询被解释的过程中,NLQ引擎依赖于一个附属的服务,叫做翻译索引(Translation Index,TI)。TI为RS中的数据和元数据、本体中的概念、属性、关系提供了索引。比如,在上述例子中,NLQ引擎会在TI中搜索“Alibaba”这个词,“Alibaba”被映射至本体中的Company.name属性。而基于本体至数据库映射关系,TI会知道“Alibaba”是RS中保存的Company表name列中的一个数据值。当然,事实上“Alibaba”还对应着本体中的其他元素(InvestorCompany、Lender),TI会获得“Alibaba”与数据库对象之间的所有关系。TI通过使用语义变体生成方案提供了强大而灵活的匹配功能。重要的是,通过TI索引的数据,ATHENA不仅可以索引准确的值,也可以支持某个值的不同别名。ATHENA提供了语义变体生成器(variant generator,VG),对人名、公司名等有效。比如,给一个输入字符串“AlibabaInc”,公司名的VG会给出以下一些别名:f“Alibaba”,“Alibaba Inc”,“Alibaba Inc.”,“Alibaba Incorporated”}。这使得ATHENA的用户可以通过索引中值的任何别名准确的表达一个查询,TI在离线初始化阶段被构建,并由RS中的数据填充。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州量之智能科技有限公司,未经杭州量之智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910292704.3/2.html,转载请声明来源钻瓜专利网。





