[发明专利]语病修正推荐方法及系统有效
申请号: | 201811526469.3 | 申请日: | 2018-12-13 |
公开(公告)号: | CN109800414B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 宋巍;付瑞吉;王士进;胡国平;秦兵;刘挺 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/289;G06F40/30 |
代理公司: | 北京维澳专利代理有限公司 11252 | 代理人: | 王立民;贾博雍 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语病 修正 推荐 方法 系统 | ||
1.一种语病修正推荐方法,其特征在于,包括:
识别待测文本的语病目标并确定语病信息,所述语病信息包括语病位置及语病类型;
根据所述语病目标的上下文内容和/或所述语病目标的字符属性,得到修正候选词;其中,根据所述语病目标的上下文内容得到修正候选词包括:由语病目标的邻近字词与其他词汇的相关程度得到所述修正候选词;根据所述语病目标的字符属性得到修正候选词包括:利用语病目标中的单个字符的下述至少一种属性:字义、字形、字音、字符所在词语中的词性,得到所述修正候选词;
利用所述修正候选词生成语病修正推荐列表。
2.根据权利要求1所述的语病修正推荐方法,其特征在于,所述根据所述语病目标的上下文内容,得到修正候选词包括:
根据所述语病位置以及预设的间距阈值,确定所述语病目标的邻近字词;
根据所述邻近字词与其他词汇的相关程度,得到所述修正候选词。
3.根据权利要求2所述的语病修正推荐方法,其特征在于,所述根据所述邻近字词与其他词汇的相关程度,得到所述修正候选词包括:
在包含所述邻近字词的预定场景中,根据词语间距获取所述邻近字词与其他词汇的精确互信息分值;
将所述其他词汇中符合预设标准的词汇,作为所述邻近字词的共现词;
根据所述共现词及相应的所述精确互信息分值,得到所述修正候选词。
4.根据权利要求3所述的语病修正推荐方法,其特征在于,所述根据所述共现词及相应的所述精确互信息分值,得到所述修正候选词包括:
根据预设的第一分值门限,确定单个所述邻近字词的共现词之中的高分值共现词;
将所述高分值共现词相应于每个所述邻近字词的精确互信息分值进行融合,得到每个所述高分值共现词的融合得分;
将所述融合得分符合预设的第二分值门限标准的所述高分值共现词,作为所述修正候选词。
5.根据权利要求1所述的语病修正推荐方法,其特征在于,所述根据所述语病目标的字符属性,得到修正候选词包括:
当所述语病类型为非缺失型语病时,获取所述语病目标中单个字符的笔画和/或拼音;
根据所述笔画和/或所述拼音,得到所述语病目标中单个字符的形近字和/或音近字;
将所述形近字和/或所述音近字作为修正候选词;或者,将多个所述形近字组合的合成词作为修正候选词和/或将多个所述音近字组合的合成词作为修正候选词。
6.根据权利要求1所述的语病修正推荐方法,其特征在于,所述利用所述修正候选词生成语病修正推荐列表包括:
逐个将所述修正候选词替换所述语病目标;
分别对每次替换后的语句的流畅度进行评价;
根据所述流畅度的评价结果,将所述修正候选词排序;
按照预设标准从排序中选取所述修正候选词,生成语病修正推荐列表。
7.根据权利要求1~6任一项所述的语病修正推荐方法,其特征在于,所述识别待测文本的语病目标并确定语病信息包括:
获取待测文本的字符级特征;
根据所述字符级特征以及预先训练的语病识别模型,确定所述待测文本中的语病目标及语病信息。
8.根据权利要求7所述的语病修正推荐方法,其特征在于,所述获取待测文本的字符级特征包括:
获取所述待测文本的单个字符特征;
根据所述待测文本中各词语的词性,获取词语中每个字符的词性特征;
根据所述待测文本中各词语的精确互信息,获取词语中每个字符的精确互信息特征;
将获取到上述特征进行拼接,得到所述待测文本的字符级特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811526469.3/1.html,转载请声明来源钻瓜专利网。