[发明专利]句型识别方法及其系统有效
| 申请号: | 201810865005.9 | 申请日: | 2018-08-01 |
| 公开(公告)号: | CN109086272B | 公开(公告)日: | 2023-02-17 |
| 发明(设计)人: | 张新华;王朝选;柴鹏飞 | 申请(专利权)人: | 浙江蓝鸽科技有限公司 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/20;G06F18/22 |
| 代理公司: | 上海一平知识产权代理有限公司 31266 | 代理人: | 成春荣;竺云 |
| 地址: | 314000 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 句型 识别 方法 及其 系统 | ||
1.一种句型识别方法,其特征在于,包括:
基于预先设置的关键词库,识别出待识别的句子中包含的所有关键词;根据识别出的所有关键词和所述待识别的句子句末标点,与预先设置的案例句型库中的各案例句型进行匹配,初步筛选出包含所述所有关键词和所述句末标点的案例句型的集合,以所述集合中的案例句型对所述待识别的句子进行后续的句型识别,其中,所述案例句型是指根据标准例句、句法规则以及语言习惯,从关键词、标点符号、词性特征、空间信息、负信息的多个维度对句子成分进行数字化标注,从而形成一种句型特征的数字化表达式;
对于每一个待识别的句子,根据逗号位置,将该句子分为至少一个小节;
对于每一个小节,根据关键词位置,将该小节分为至少一段;
依次将一个句子中每一个小节的每一段与预先设置的案例句型中每一个小节的每一段进行匹配,根据匹配结果确定该句子的句型;其中,所述匹配包括:判断该句子中每一段是否包含所述案例句型相应段的特征,和,是否存在所述案例句型相应段的负信息,其中,所述特征包括以下之一或其任意组合:关键词,标点符号,词性特征,空间信息;所述负信息是指相对于句型中的有效特征而言,在该句型中错误使用的单词、标点符号、词性、空间信息的特征信息;其中,通过正匹配与反检测相结合的匹配方式,利用对句型中负信息的检测进一步排除不可能存在的句型;并且,如果句子匹配到多个案例句型,则分别计算该句子与匹配的多个案例句型的关键特征匹配度;选择关键特征匹配度最高的案例句型作为该句子的句型,其中,使用以下方式计算关键特征匹配度:将句子与案例句型中的关键词进行匹配,对句子中包含的关键词数量与关键词之间的紧密程度进行加权计算,获取该句子与案例句型的关键特征匹配度,即设句子中包含该案例句型的关键词数量为m,句型的第一个关键词匹配到句子的第i个单词,句型最后一个关键词匹配到句子的第j个单词,则待识别句子与该句型的关键特征匹配度为mx/((j-i)y),其中x为关键词数量所占权重,y为关键词之间紧密程度所占权重。
2.根据权利要求1所述的句型识别方法,其特征在于,所述将该句子分为至少一个小节的步骤之前,还包括以下步骤:
导入待识别文本;
对所述待识别文本进行预处理,得到至少一个待识别的句子;
对所述待识别的句子进行数字化处理。
3.根据权利要求2所述的句型识别方法,其特征在于,所述预处理包括:根据预先设定的标点和特定字符的位置,将待处理文本拆分为至少一个完整的待识别的句子。
4.根据权利要求3所述的句型识别方法,其特征在于,所述预处理还包括:
识别所述待识别的句子中的缩写词,并将识别出的缩写词替换为单词原形。
5.根据权利要求2所述的句型识别方法,其特征在于,所述数字化处理进一步包括:
基于预先设置的词组库,识别所述待识别的句子中包含的所有词组,并对识别出的词组在所述待识别的句子中所担当的成分进行数字化标注;
基于预先设置的单词库,识别所述待识别的句子中各单词的词性,并对识别出的单词词性进行数字化标注。
6.根据权利要求1所述的句型识别方法,其特征在于,所述根据匹配结果确定该句子的句型,进一步包括:
如果一个句子中每一个小节的每一段与所述案例句型中对应小节的对应段都匹配成功,则判定该句子匹配到该案例句型。
7.根据权利要求6所述的句型识别方法,其特征在于,所述根据匹配结果确定该句子的句型,进一步还包括:
如果所述句子匹配到一个案例句型,则将该案例句型作为该句子的句型;
如果所述句子能够匹配到多个案例句型,则分别计算该句子与匹配的多个案例句型的关键特征匹配度;选择所述关键特征匹配度最高的案例句型作为该句子的句型;如果最高的关键特征匹配度有多个,则该句子从属于多个句型。
8.根据权利要求7所述的句型识别方法,其特征在于,所述关键特征匹配度的计算方法为:
关键特征匹配度=案例句型中关键词和标点符号的个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江蓝鸽科技有限公司,未经浙江蓝鸽科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810865005.9/1.html,转载请声明来源钻瓜专利网。





