[发明专利]一种基于自然语言理解的智能取数系统及其方法有效
| 申请号: | 201910292704.3 | 申请日: | 2019-04-12 |
| 公开(公告)号: | CN110119404B | 公开(公告)日: | 2021-10-08 |
| 发明(设计)人: | 王同和;凌立刚;孙锐 | 申请(专利权)人: | 杭州量之智能科技有限公司 |
| 主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F16/2452 |
| 代理公司: | 杭州云睿专利代理事务所(普通合伙) 33254 | 代理人: | 张骁敏 |
| 地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种基于自然语言理解的智能取数系统及其方法,包括用户自然语言交互模块、Search Engine、Schema Graph、Tokenizer、Tree Builder、SQL Generation,用户自然语言交互模块输送自然语言至外部分词器进行外部分段来分隔单词,Tokenizer识别每个分隔单词含义和将单词组合成短语,最终自动或与用户交互选择最佳组合和解释;Tree Builder根据Tokenizer内的节点序列构建Query Tree,SQL Generation则将Query Tree转化成SQL至数据库DB内、并反馈至用户自然语言交互模块内供用户参考,能够支持更多的问句形式和支持更丰富的复杂查询,运用更少的信息可以在没有与用户交互的情况下在MAS数据集上达到更高的准确度。 | ||
| 搜索关键词: | 一种 基于 自然语言 理解 智能 系统 及其 方法 | ||
【主权项】:
1.一种基于自然语言理解的智能取数方法,其特征是,包括如下步骤:步骤1,用户输入搜索自然语言,外部分词器进行外部分段来分隔中文查询单词、并输送每个分隔单词至标记解析器Tokenizer内识别含义;步骤2,标记解析器Tokenizer尝试识别每个分隔单词的含义,必要时将分隔单词组合成短语,最后将单词和短语映射到含有语义信息的节点上,所有的单词最初都会标记成UnknownNode节点类型;步骤2.1,标记解析器Tokenizer首先解析与数据库不相关的节点,并配备一个词库用于识别这些类型的节点,为了解决同一个词在不同语境中有不同的含义,标记解析器Tokenizer允许编写识别规则,识别规则匹配的是句子中的节点,根据上下文解释单词;步骤2.2,标记解析器Tokenizer第二步解析与数据库相关的节点,首先从词本身出发,从所有匹配和组合方式中,通过打分的方式找到最佳的匹配和组合方式,接着将最佳匹配所有的节点的所有映射全排列,得到所有可能的组合,并将每个组合映射到数据模型Schema Graph的节点上,对这些节点生成Steiner Tree,在所有的Steiner Tree中,权重最小的组合即为最终标记解析器Tokenizer的结果,如果依旧有多个结果,则随机选出一个,并将所有结果返回用户,如有误用户可以订正;步骤3,将得到的节点序列转化成查询树Query Tree,查询树Query Tree的构建方式采用先局部建成小的子树,再合并的建树方法;步骤4,将查询树Query Tree转化成结构化查询语言SQL至数据库DB内、并反馈至用户自然语言交互模块内供用户参考。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州量之智能科技有限公司,未经杭州量之智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910292704.3/,转载请声明来源钻瓜专利网。





