[发明专利]一种自由定制的中文预处理方法及其系统有效
申请号: | 201710827271.8 | 申请日: | 2017-09-14 |
公开(公告)号: | CN107577666B | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 何峻青;涂曼姝;赵学敏;颜永红 | 申请(专利权)人: | 中国科学院声学研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 11472 北京方安思达知识产权代理有限公司 | 代理人: | 陈琳琳;张红生<国际申请>=<国际公布> |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种自由定制的中文预处理方法,包括:步骤1)从配置文件中读取参数列表并记录;步骤2)判断输入是否为一个文件夹;步骤3)经过处理后,生成分词后的结果和带词频的结果,分别保存在用户指定的seg文件夹、tf文件夹;生成一个全局词典,保存在outputdir文件夹下的df文件夹中;步骤4)根据df文件夹中的全局词典和dfTheshold阈值,生成全局停用词词典,将其保存在df文件夹中;判断每个文件或子文件中的每个词是否在停用词词典中,将滤除后的文件或子文件保存到remove_words文件夹中;步骤5)判断步骤2)的输入是否为单文件且多进程;当步骤2)输入为单个文件且多进程时,合并remove_words文件夹中的子文件成一个大文件,并将这些子文件删除;否则,程序结束。 | ||
搜索关键词: | 一种 自由 定制 中文 预处理 方法 及其 系统 | ||
【主权项】:
1.一种自由定制的中文预处理方法,具体步骤如下:/n步骤1)从配置文件中读取参数列表并记录;/n步骤2)判断输入是否为一个文件夹;若输入为文件夹,则开辟进程池,进程数目为设定的参数threads,后续进行多进程操作,读取并处理所述文件夹中的每个文件,生成词典,合并词典;若输入不是一个文件夹,而是单个文件,再判断进程数threads是否大于1,如果进程数threads大于1,则将该单个文件分割成threads个子文件,然后开辟进程池,进程数目为设定的参数threads,后续进行多进程操作,读取并处理每个子文件,生成词典,然后合并词典;如果进程数等于1,则进行单进程操作,读取并处理单个文件,生成词典;/n步骤3)根据步骤2)处理得到的词典,进一步生成一个全局词典,保存在outputdir文件夹下的df文件夹中;对步骤2)输入的每一个文件夹中的文件或单个文件的子文件,生成分词后的结果和带词频的结果,并分别保存在用户指定的outputdir文件夹下的seg文件夹、tf文件夹;/n步骤4)根据df文件夹中的全局词典和参数列表中的dfTheshold阈值,计算全局的停用词,再结合用户指定的停用词典userstopwords,生成一个全局停用词词典,并将其保存在outputdir文件夹下的df文件夹中;根据步骤3)中的tf文件夹,生成一个当前文档特有的停用词词典;/n根据停用词词典,判断每个所述文件或子文件中的每个词是否在停用词词典中,若该词在停用词词典中,则滤除该词,若该停用词不在停用词词典中,则将该词保留;/n将滤除后的文件或子文件保存到outputdir文件夹下的remove_words文件夹中,每个文档特有的停用词词典在下一个文档进行停用词滤除前将被更新,程序结束后文档特有的停用词词典即被删除;/n步骤5)判断步骤2)的输入是否为单文件且多进程;如果步骤2)的输入为单个文件且多进程,将remove_words文件夹中被分割的处理后的多个子文件进行合并,得到一个大文件,并且将所述多个子文件删除;否则,再继续判断是否为文件夹;如果是文件夹,则程序结束;如果是单进程,则程序结束。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710827271.8/,转载请声明来源钻瓜专利网。
- 上一篇:文本情感倾向的判别方法
- 下一篇:一种实体词处理方法和装置