[发明专利]一种面向自然语言的城市领域知识模型查询方法和装置在审
申请号: | 202110630148.3 | 申请日: | 2021-06-07 |
公开(公告)号: | CN114297350A | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 赵俊峰;王亚沙;陈俊宇;单中原;杨恺 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06F40/211;G06F40/216;G06F40/247;G06F40/289;G06F40/30;G06K9/62;G06N3/02 |
代理公司: | 北京天悦专利代理事务所(普通合伙) 11311 | 代理人: | 田明;杨方 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 自然语言 城市 领域 知识 模型 查询 方法 装置 | ||
1.一种面向自然语言的城市领域知识模型查询方法,其特征在于,包括:
S100、基于城市领域知识模型,对用户输入的自然语言问题进行解析,解析之后,经过与用户迭代式交互,构建所述自然语言问题的词素集合,解析过程包括用户查询主体识别、N-gram算法产生备选词素和词素扩展;
S200、基于所述词素集合和所述智慧城市领域知识模型,通过隐马模型查询图生成和隐马模型查询图排序,或者通过迭代式查询图生成和迭代式查询图排序,得到最符合所述自然语言问题的查询子图;
S300、将所述查询子图与预设的模板进行筛选匹配,得到所述自然语言问题的答案,所述预设的模板为基于所述自然语言问题的各类型预设的查询模板。
2.根据权利要求1所述的方法,其特征在于,S100包括:
(1)用户查询主体识别:通过主体识别算法和查询主体词典匹配,识别出所述自然语言问题中的实体,以及所述自然语言问题的类型;对所述自然语言问题进行预处理,预处理过程包括自然语言问句分词,用以得到最细粒度的问句切分后的词语集合,还包括去除停用词;所述自然语言问题的类型包括事实型、定义型、导航型、解决方案型、列表型、原因型六个类型;
(2)N-gram算法产生备选词素:对所述词语集合,以N-gram的方式进行不同粒度的词语组合,得到备选词素集合;
(3)词素扩展:对所述备选词素集合进行扩展,向所述备选词素集合中加入各备选词素的同义词。
3.根据权利要求1所述的方法,其特征在于,S200包括:
(1)隐马模型查询图生成:将所述词素集合中的词语元素模糊查找所述智慧城市领域知识模型,为每个词素集合中的词语元素产生备选匹配集合,将所述备选匹配集合进行笛卡尔积组合,生成备选匹配词素集合,将隐马尔可夫模型融合所述备选匹配词素集合中每个序列元素的相似度信息、词素共现信息和词频信息,构建所述自然语言问题的匹配依赖图,经过与用户交互,得到隐马模型查询图;
(2)隐马模型查询图排序:基于所述隐马模型查询图,进行路径相似度计算和排序,得到最符合所述自然语言问题的查询子图,所述路径相似度计算包括相关性计算、最短路径和可信度计算。
4.根据权利要求1所述的方法,其特征在于,S200包括:
(1)迭代式查询图生成:选取所述词素集合中的实体元素,生成查询图,选取所述词素集合中的链接元素并判断链接元素的属性,将链接元素以边或者节点的方式迭代式添加至所述查询图中,直到所有链接元素添加完毕,构成完整的查询子图;
(2)迭代式查询图排序:若存在多个查询子图,则抽取所述查询图的特征,依据相似度排序从各查询子图中找出最符合所述自然语言问题的查询子图,抽取的特征包括所述自然语言问题与各查询子图字符级别的相似度、句子级别的相似度以及所述查询图中实体数量。
5.根据权利要求1-4任一项所述的方法,其特征在于,S300包括:
计算所述查询子图中每种类型的元素数量;
基于每种类型的元素数量,初步确定查询模板的范围,并将筛选出的查询模板作为候选模板;
将所述查询子图与所述候选模板进行匹配,确定最符合所述查询子图的模板,得到所述自然语言问题的答案,所述匹配包括节点类型的匹配和图结构的匹配,所述节点类型的匹配指查询子图中节点元素的类型与模板类型的匹配。
6.一种面向自然语言的城市领域知识模型查询装置,其特征在于,包括:
构建模块,用于基于城市领域知识模型,对用户输入的自然语言问题进行解析,解析之后,经过与用户迭代式交互,构建所述自然语言问题的词素集合,解析过程包括用户查询主体识别、N-gram算法产生备选词素和词素扩展;
生成模块,用于基于所述词素集合和所述智慧城市领域知识模型,通过隐马模型查询图生成和隐马模型查询图排序,或者通过迭代式查询图生成和迭代式查询图排序,得到最符合所述自然语言问题的查询子图;
查询模块,用于将所述查询子图与预设的模板进行筛选匹配,得到所述自然语言问题的答案,所述预设的模板为基于所述自然语言问题的各类型预设的查询模板。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110630148.3/1.html,转载请声明来源钻瓜专利网。