|
钻瓜专利网为您找到相关结果 12个,建议您 升级VIP下载更多相关专利
- [发明专利]一种自由定制的中文预处理方法及其系统-CN201710827271.8有效
-
何峻青;涂曼姝;赵学敏;颜永红
-
中国科学院声学研究所
-
2017-09-14
-
2019-11-19
-
G06F17/27
- 本发明涉及一种自由定制的中文预处理方法,包括:步骤1)从配置文件中读取参数列表并记录;步骤2)判断输入是否为一个文件夹;步骤3)经过处理后,生成分词后的结果和带词频的结果,分别保存在用户指定的seg文件夹、tf文件夹;生成一个全局词典,保存在outputdir文件夹下的df文件夹中;步骤4)根据df文件夹中的全局词典和dfTheshold阈值,生成全局停用词词典,将其保存在df文件夹中;判断每个文件或子文件中的每个词是否在停用词词典中,将滤除后的文件或子文件保存到remove_words文件夹中;步骤5)判断步骤2)的输入是否为单文件且多进程;当步骤2)输入为单个文件且多进程时,合并remove_words文件夹中的子文件成一个大文件,并将这些子文件删除;否则,程序结束。
- 一种自由定制中文预处理方法及其系统
|