[发明专利]基于计算机可识别自然语言描述的语义匹配方法及系统有效
申请号: | 201711460123.3 | 申请日: | 2017-12-28 |
公开(公告)号: | CN108170679B | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 杨学红 | 申请(专利权)人: | 中国联合网络通信集团有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/247 |
代理公司: | 北京天昊联合知识产权代理有限公司 11112 | 代理人: | 彭瑞欣;罗瑞芝 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于编程技术领域,具体涉及基于计算机可识别自然语言描述的语义匹配方法及其相应的语义匹配系统。该基于计算机可识别自然语言描述的语义匹配方法包括步骤:步骤S1):以目标语言的语法规则限定的逻辑和步骤作为参考,将自然语言需求描述约束为具备逻辑的步骤的结构;步骤S2):对约束后的自然语言需求描述中固定的句式,获得包括自然语言需求描述中的词根的候选词语集合;步骤S3):对目标语言中的消息名/操作名进行分词,获得包括消息名/操作名中的词根的备用词语集合;步骤S4):计算候选词语集合和备用词语集合的匹配度。该语义匹配方法及语义匹配系统,能协调用户和开发人员对于自然语言应用上的分歧,实现机器语言的自动编程。 | ||
搜索关键词: | 基于 计算机 识别 自然语言 描述 语义 匹配 方法 系统 | ||
步骤S1):以目标语言的语法规则限定的逻辑和步骤作为参考,将自然语言需求描述约束为具备逻辑的步骤的结构;
步骤S2):对约束后的自然语言需求描述中固定的句式,获得包括自然语言需求描述中的词根的候选词语集合;
步骤S3):对目标语言中的消息名/操作名进行分词,获得包括消息名/操作名中的词根的备用词语集合;
步骤S4):计算候选词语集合和备用词语集合的匹配度。
2.根据权利要求1所述的基于计算机可识别自然语言描述的语义匹配方法,其特征在于,步骤S2)包括:步骤S21):根据设定的限定词,获取自然语言描述的需求语句,将需求语句分词后形成初级词语集合;
步骤S22):移除初级词语集合中的停用词,形成适用词语集合;
步骤S23):对适用词语集合中的各词语进行同义词扩展;
步骤S24):对扩展词语集合进行词根还原,获得包括自然语言需求描述中的词根的候选词语集合。
3.根据权利要求2所述的基于计算机可识别自然语言描述的语义匹配方法,其特征在于,步骤S21)中,对于需求语句转为目标语言设定的限定词以前缀作为标识;
步骤S22)中,将助词、介词、连词类作为停用词预存作为停用词词库;
步骤S23)中,根据同义词词库对适用词语集合中的各词语进行同义词扩展;
步骤S24)中,词根还原算法为Porter算法或者Lucene算法。
4.根据权利要求1所述的基于计算机可识别自然语言描述的语义匹配方法,其特征在于,步骤S4)包括步骤:步骤S41):遍历备用词语集合的词语,筛选与候选词语集合存在交集的词语;
步骤S42):对满足交集的词语,计算匹配度。
5.根据权利要求4所述的基于计算机可识别自然语言描述的语义匹配方法,其特征在于,步骤S4)中,候选词语集合和备用词语集合的匹配度的公式为:其中,count为查找到的语义相近的词语个数,|wordsetA|为需求描述语句中分词个数,|wordsetB|为消息名/操作名中的分词个数。
6.一种基于计算机可识别自然语言描述的语义匹配系统,其特征在于,包括约束模块、候选词语集合构成模块、备用词语集合构成模块和匹配模块,其中:所述约束模块,用于以目标语言的语法规则限定的逻辑和步骤作为参考,将自然语言需求描述约束为具备逻辑的步骤的结构;
所述候选词语集合构成模块,用于对约束后的自然语言需求描述中固定的句式,获得包括自然语言需求描述中的词根的候选词语集合;
所述备用词语集合构成模块,用于对目标语言中的消息名/操作名进行分词,获得包括消息名/操作名中的词根的备用词语集合;
所述匹配模块,用于计算候选词语集合和备用词语集合的匹配度。
7.根据权利要求6所述的基于计算机可识别自然语言描述的语义匹配系统,其特征在于,所述候选词语集合构成模块包括初级词语集合单元、适用词语集合单元、同义词扩展单元和词根还原单元,其中:所述初级词语集合单元,用于根据设定的限定词,获取自然语言描述的需求语句,将需求语句分词后形成初级词语集合;
所述适用词语集合单元,用于移除初级词语集合中的停用词,形成适用词语集合;
所述同义词扩展单元,用于对适用词语集合中的各词语进行同义词扩展;
所述词根还原单元,用于对扩展词语集合进行词根还原,获得包括自然语言需求描述中的词根的候选词语集合。
8.根据权利要求7所述的基于计算机可识别自然语言描述的语义匹配系统,其特征在于,所述初级词语集合单元中,对于需求语句转为目标语言设定的限定词以前缀作为标识;
所述适用词语集合单元中,将助词、介词、连词类作为停用词预存作为停用词词库;
所述同义词扩展单元中,根据同义词词库对适用词语集合中的各词语进行同义词扩展;
所述词根还原单元中,词根还原算法为Porter算法或者Lucene算法。
9.根据权利要求6所述的基于计算机可识别自然语言描述的语义匹配系统,其特征在于,所述匹配模块包括求交单元、匹配单元,其中:所述求交单元,用于遍历备用词语集合的词语,筛选与候选词语集合存在交集的词语;
所述匹配单元,对满足交集的词语,计算匹配度。
10.根据权利要求9所述的基于计算机可识别自然语言描述的语义匹配系统,其特征在于,所述匹配单元中,候选词语集合和备用词语集合的匹配度的公式为:其中,count为查找到的语义相近的词语个数,|wordsetA|为需求描述语句中分词个数,|wordsetB|为消息名/操作名中的分词个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国联合网络通信集团有限公司,未经中国联合网络通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711460123.3/,转载请声明来源钻瓜专利网。