[发明专利]语病修正推荐方法及系统有效
申请号: | 201811526469.3 | 申请日: | 2018-12-13 |
公开(公告)号: | CN109800414B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 宋巍;付瑞吉;王士进;胡国平;秦兵;刘挺 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/289;G06F40/30 |
代理公司: | 北京维澳专利代理有限公司 11252 | 代理人: | 王立民;贾博雍 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语病 修正 推荐 方法 系统 | ||
本发明公开了一种语病修正推荐方法及系统,其中方法包括:识别待测文本的语病目标并确定语病信息,所述语病信息包括语病位置及语病类型;根据所述语病目标的上下文内容和/或所述语病目标的字符属性,得到修正候选词;利用所述修正候选词生成语病修正推荐列表。相比现有技术,本发明能够实现检错和纠错相结合,为修正语病提供可靠的参考建议。
技术领域
本发明涉及自然语言处理领域,尤其涉及一种语病修正推荐方法及系统。
背景技术
在文本输入(手写或人机接口)过程中经常由于各种原因导致输入的文本存在语病,例如由拼写别字、搭配不当、成分残缺等导致写作中产生语法错误、语义不明。而若需要对语病进行修正推荐通常需要经过两个阶段:检错和纠错。
现有对语病检错技术主要依靠词典或统计信息构建简单规则进行识别,例如下述处理过程:
1)词典构建,使用人工编撰的文学词典或在大规模文本语料上统计二元词串或三元词串等频次,将高频的词串补充进入词典。
2)分词,对待修正的文本进行分词,基于分词得到词序列。
3)匹配与校对,根据待修正文本中的词序列构建相应的词串,并将词串与已经构建好的词典中的词项进行一一比对;若无法匹配,则表明当前词串不常出现,判定为疑似错误。
4)将疑似错误作为最终结果,或人工对疑似错误进行判定后的结果返回。
但现有技术对表义文字的语病纠错(包括提供纠正建议)的具体实践和实现方式则相对较少。英文此类拼音文字经常出现的是拼写错误,对此可利用字符串匹配等技术提供错误纠正建议甚至直接纠错;但是表义文字,如汉语,其特点是多以字符为基本单位,从大概率而言,输入的字符本身几乎不存在拼写问题,汉语语病主要体现在选择型语病(错别字、搭配不当以及输入内容与输入意图不符等)和缺失型语病(丢字漏字)等方面,因而使得目前较为常见的文本编辑软件通常仅会对诸如汉语此类文本中疑似错误的字词进行标注,即仅仅侧重检错,而不能直接提供修改建议。
发明内容
本发明针对上述现有技术的弊端,提供了一种语病修正推荐方法及系统。
本发明采用的技术方案如下:
一种语病修正推荐方法,包括:
识别待测文本的语病目标并确定语病信息,所述语病信息包括语病位置及语病类型;
根据所述语病目标的上下文内容和/或所述语病目标的字符属性,得到修正候选词;
利用所述修正候选词生成语病修正推荐列表。
可选地,所述根据所述语病目标的上下文内容,得到修正候选词包括:
根据所述语病位置以及预设的间距阈值,确定所述语病目标的邻近字词;
根据所述邻近字词与其他词汇的相关程度,得到所述修正候选词。
可选地,所述根据所述邻近字词与其他词汇的相关程度,得到所述修正候选词包括:
在包含所述邻近字词的预定场景中,根据词语间距获取所述邻近字词与其他词汇的精确互信息分值;
将所述其他词汇中符合预设标准的词汇,作为所述邻近字词的共现词;
根据所述共现词及相应的所述精确互信息分值,得到所述修正候选词。
可选地,所述根据所述共现词及相应的所述精确互信息分值,得到所述修正候选词包括:
根据预设的第一分值门限,确定单个所述邻近字词的共现词之中的高分值共现词;
将所述高分值共现词相应于每个所述邻近字词的精确互信息分值进行融合,得到每个所述高分值共现词的融合得分;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811526469.3/2.html,转载请声明来源钻瓜专利网。