[发明专利]基于规则和语料库的汉语语病自动检测方法及设备有效
申请号: | 201811268613.8 | 申请日: | 2018-10-29 |
公开(公告)号: | CN109460552B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 朱丽莉;谭代龙 | 申请(专利权)人: | 朱丽莉 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/253;G06F40/289;G06F40/30 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 钱成岑 |
地址: | 646100 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 规则 语料库 汉语 语病 自动检测 方法 设备 | ||
本发明公开了一种基于规则和语料库的汉语语病自动检测方法及设备,该方法包括:文本获取、句子分层、自动分词和语病检测;所述自动分词包括以下步骤:切分字符串步骤和自动分词步骤;所述语病检测为根据所述自动分词的结果和预先构建的语料库进行语病检测。语病检测包括错别字检测、用词不当检测、句法结构检测、语义表达检测,语病检测可以包括这四种检测中的一种或几种。语病检测包括的几种检测可以并列执行,也可以依次执行,且这几种检测的前后顺序可以根据情况进行选择。本发明从词法、句法、语义等角度进行设计,自动检测文本中的各类语病问题。
技术领域
本发明涉及信息处理技术领域,尤其涉及一种基于规则和语料库的汉语语病自动检测方法及设备。
背景技术
汉语语病自动检测相对英文、日文等检测研究来说,起步较晚,缘于技术和汉语自身的特点,中文文本自动检测发展较慢。面对海量的待校对文本信息,汉语语病自动检测是亟待有效解决的一大难题。
目前,已有文献开始提出文本校对的思路和方法。从现有研究对象和进程看,中文字词检测已逐渐发展起来,错别字自动检测的理论研究和应用研究都取得了一定成效,但针对汉语语病的检测却鲜有人提及。至今,校对研究常限于某一领域(如,基于形态学、基于相邻词性的连接规则、基于某一语法规则或某一语义规则)设计相应方法,具体而言,目前比较成熟的校对方法主要有两类:
基于特征的校对方法(包括词法特征、句法特征)。其方法是对词句进行分类,分析词与词或单一句法成分的搭配。该方法能解决一部分典型案例,但未能找到合适的切入点,未从整体角度分析汉语的特点,未综合分析汉语内部各要素之间的组合聚合搭配规则,进而依次成系统地进行检测。
基于语义的校对方法(大多使用SUM算法、决策树、Bayes算法)。该检测方法结合了汉语的特征,符合汉语内部组合规律。但设计方法时直接从语义搭配开始,在极有限的样本分析基础上设计算法,存在样本信息有限、检测类型单一、参数需要不断调整、代表性不强等方面的不足。
从现有研究来看,我们面临的主要问题有:如何深入汉语本体研究,进一步分析和探讨汉语内部各构成要素之间的关系和规律;如何将汉语本体研究与信息处理技术充分结合,将不同学科不同领域的知识融会贯通;如何科学全面地设计符合汉语内部规律的语病检测方法等。回到汉语本体研究层面,我们结合语言学研究再做新的审核。索绪尔《普通语言学教程》(2009)中分析了汉语的运行特点和规律:汉语中的字词是线性的,它们彼此结成以线条性为基础的关系,单独成为一个要素,这些要素又按照一定的规则一个挨着一个进行排列组合。陆俭明《现代汉语语法研究教程》(2005)认为汉语语法不仅是构成关系,也是组合关系,它内部的规则,就是指小的结合体组成大的结合体所依据的一系列规则。结合众多语言学家的研究成果,汉语语病的自动检测,还是得从组合构成着手,以字词组合为基础,检测句子成分之间的搭配及相互关系,再上升到语义和语用分析。也就是说,汉语是成系统的,应系统地分析字词组合与搭配、句子结构、内部语义等,不能割裂它们之间的联系。
发明内容
本发明所要解决的技术问题是:针对现有技术存在的问题,本发明提供一种基于规则和语料库的汉语语病自动检测方法及设备,从词法、句法、语义等角度进行检测,自动检测文本中的各类语病问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于朱丽莉,未经朱丽莉许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811268613.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:签名信息提取方法及装置
- 下一篇:一种基于门限卷积神经网络的机器阅读理解方法