[发明专利]句型识别方法及其系统有效
| 申请号: | 201810865005.9 | 申请日: | 2018-08-01 |
| 公开(公告)号: | CN109086272B | 公开(公告)日: | 2023-02-17 |
| 发明(设计)人: | 张新华;王朝选;柴鹏飞 | 申请(专利权)人: | 浙江蓝鸽科技有限公司 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/20;G06F18/22 |
| 代理公司: | 上海一平知识产权代理有限公司 31266 | 代理人: | 成春荣;竺云 |
| 地址: | 314000 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 句型 识别 方法 及其 系统 | ||
本申请涉及使用计算机对自然语言进行处理的领域,公开了一种句型识别方法及其系统,该方法中,对待识别的句子进行分节和分段,判断该句子中每一段是否包含案例句型相应段的特征,以及,是否存在案例句型相应段的负信息,其中特征的判断包括包括对关键词、标点符号、词性特征和空间信息的判断。通过这种正向特征匹配和负信息判断相结合的方案,大大提高了句型识别的准确率。
技术领域
本申请涉及使用计算机对自然语言进行处理的领域,特别涉及自然语言的句型识别。
背景技术
在英语句型教学、写作评估及翻译批改的过程中,过去一般使用人工标注的方式,获取英语句型的语法信息。随着人工智能技术在教育领域的应用,智能化教学成了未来教育技术的发展方向。教师智能备课、计算机自动批改作业、学生个性化学习等系统,在英语教学中逐步得到了应用。这就需要对英语句子中的组成成分进行自动分析和识别,包括对句子中各个单词、词组、短语、从句等特征进行智能识别,并在此基础上正确识别出句子的句型。正确识别句型有助于备课、组卷、个性化学习等各种具体应用。
目前虽然已经有了一些英语句型自动化识别技术,但这些现有技术存在句型识别准确率低的问题。
发明内容
本申请的目的在于提供一种句型识别方法及其系统,提高了句型识别的准确率。
为了解决上述问题,本申请公开了一种句型识别方法,包括:
对于每一个待识别的句子,根据逗号位置,将该句子分为至少一个小节;
对于每一个小节,根据关键词位置,将该小节分为至少一段;
依次将一个句子中每一个小节的每一段与预先设置的案例句型中每一个小节的每一段进行匹配,根据匹配结果确定该句子的句型;其中,该匹配包括:判断该句子中每一段是否包含该案例句型相应段的特征,和/或,是否存在该案例句型相应段的负信息。
在一优选例中,该将该句子分为至少一个小节的步骤之前,还包括以下步骤:
导入待识别文本;
对该待识别文本进行预处理,得到至少一个待识别的句子;
对该待识别的句子进行数字化处理。
在一优选例中,该预处理包括:根据预先设定的标点和特定字符的位置,将该待处理文本拆分为至少一个完整的待识别的句子。
在一优选例中,该预处理还包括:
识别该待识别的句子中的缩写词,并将识别出的缩写词替换为单词原形。
在一优选例中,该数字化处理进一步包括:
基于预先设置的词组库,识别该待识别的句子中包含的所有词组,并对识别出的词组在该待识别的句子中所担当的成分进行数字化标注;
基于预先设置的单词库,识别该待识别的句子中各单词的词性,并对识别出的单词词性进行数字化标注。
在一优选例中,该将该句子分为至少一个小节的步骤之前,还包括:
基于预先设置的关键词库,识别出该待识别的句子中包含的所有关键词;
根据识别出的所有关键词和该待识别的句子句末标点,与预先设置的案例句型库中的各案例句型进行匹配,初步筛选出包含该所有关键词和该句末标点的案例句型的集合,以该集合中的案例句型对该待识别的句子进行后续的句型识别。
在一优选例中,该判断该句子中每一段是否包含该案例句型相应段的特征的步骤中,该特征包括以下之一或其任意组合:
关键词,标点符号,词性特征,空间信息。
在一优选例中,该根据匹配结果确定该句子的句型,进一步包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江蓝鸽科技有限公司,未经浙江蓝鸽科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810865005.9/2.html,转载请声明来源钻瓜专利网。





