[发明专利]异常标点清洗方法、存储介质及服务器有效

申请号：	201810103364.0	申请日：	2018-02-01
公开（公告）号：	CN108319692B	公开（公告）日：	2021-03-19
发明（设计）人：	陈峰	申请（专利权）人：	云知声智能科技股份有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/211;G06F40/166
代理公司：	暂无信息	代理人：	暂无信息
地址：	100096 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	异常标点清洗方法存储介质服务器
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种针对医疗语料的异常标点清洗方法、存储介质及服务器，通过从医疗语料库中进行句子抽取，抽取出不包括任何标点和空格类字符的语句；对抽取出的语句进行泛化处理；基于抽取出的语句中的词频特征，对抽取出的语句进行聚类；针对聚类后得到的每一个句子类别，进行信息统计，找出异常标点，并对找出的异常标点进行自动清洗；达到了挖掘出医疗语料中的异常标点并对存在异常的标点进行自动清洗的目的，提高了医疗语料中标点的清洗效率。

技术领域

本发明涉及医疗文本数据处理技术领域，特别涉及一种针对医疗语料的异常标点清洗方法、存储介质及服务器。

背景技术

虽然医疗语料是一种专业性很强的语料，但在医疗语料中仍然存在大量的标点异常；也就是说，在医疗文本中，当文本内容的上下文一致的情况下，会存在大量的标点不一致。而针对医疗语料这种文本，由于标点符号在整个文本序列中的占比较低(粗略统计大概只有20％左右)，且本来样本就少，若质量还不高，则会给后续的数据处理带来很大干扰。因此，如何找出并清除上述不一致的标点，则成为目前亟待解决的问题之一。

发明内容

本发明提供一种针对医疗语料的异常标点清洗方法、存储介质及服务器，旨在挖掘出医疗语料中的异常标点并对存在异常的标点进行自动清洗。

本发明提供了一种针对医疗语料的异常标点清洗方法，所述异常标点清洗方法包括：

从医疗语料库中进行句子抽取，抽取出不包括任何标点和空格类字符的语句；

对抽取出的语句进行泛化处理；

基于抽取出的语句中的词频特征，对抽取出的语句进行聚类；

针对聚类后得到的每一个句子类别，进行信息统计，找出异常标点，并对找出的异常标点进行自动清洗。

优选地，所述基于抽取出的语句中的词频特征，对抽取出的语句进行聚类，包括：

根据抽取出的语句中的词频和逆向文件频率，采用基于距离的聚类算法，对抽取出的语句进行聚类。

优选地，所述采用基于距离的聚类算法，对抽取出的语句进行聚类，包括：

采用距离作为相似性的评价指标，利用误差平方和准则函数作为聚类准则函数，对抽取出的语句进行聚类。

优选地，所述针对聚类后得到的每一个句子类别，进行信息统计，找出异常标点，包括：