[发明专利]一种基于词的关联特征的中文分词方法有效

申请号：	201711293044.8	申请日：	2017-12-08
公开（公告）号：	CN108845982B	公开（公告）日：	2021-08-20
发明（设计）人：	龙华;李康康;邵玉斌	申请（专利权）人：	昆明理工大学
主分类号：	G06F40/284	分类号：	G06F40/284;G06F40/289
代理公司：	暂无信息	代理人：	暂无信息
地址：	650093 云***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于词的关联特征的中文分词方法，属于信息处理技术领域。本发明从文本库中选出需要处理的文本，并对文本库进行预处理，包括去符号并使其形成语句，利用去符号后的语句构建语料库。采用前后拼接词的分词方法，对步骤a1中的语料库进行分词，形成分词碎片。采用二元切分前后词拼接，三元切分前后词拼接，四元切分前后词拼接方法，形成一个二元候选词库，三元候选词库和四元候选词库。对统计好了的词频的候选词设定一个词频门限，并对其进行判决，满足此判决的保留，形成新的语料库。
搜索关键词：	一种基于关联特征中文分词方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于词的关联特征的中文分词方法，其特征在于：a、从文本库中选出需要处理的文本，并对文本库进行预处理，包括去符号并使其形成语句，利用去符号后的语句构建语料库；b、采用前后拼接词的分词方法，对步骤1中的语料库进行分词，形成分词碎片；c、采用二元切分前后词拼接方法、三元切分前后词拼接方法、四元切分前后词拼接方法，形成二元候选词库、三元候选词库和四元候选词库；d、对二元候选词库、三元候选词库和四元候选词库中的二元候选词，三元候选词，四元候选词进行词频统计；e、对统计好词频的候选词设定一个词频门限，并对其进行判决，满足此门限的候选词保留，形成新的语料库，若不满足此门限的候选词则删除；f、计算出步骤5处理后的语料库中的候选词的自由度和凝合度，并给定所有候选词一个统一的自由度和凝合度的门限，并进行判决，满足判决的候选词保留,若不满足此判决的候选词则删除；g、采用分词过滤方法，在对筛选出来的三元候选词和四元候选词进行进一步的过滤，形成新的词库。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于昆明理工大学，未经昆明理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201711293044.8/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于词的关联特征的中文分词方法有效

专利文献下载