[发明专利]多领域词典自动构建方法在审

申请号：	201611150855.8	申请日：	2016-12-13
公开（公告）号：	CN106682128A	公开（公告）日：	2017-05-17
发明（设计）人：	张晓霞;刘世林	申请（专利权）人：	成都数联铭品科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	610041 四川省成都市高新区***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及自然语言处理领域，特别涉及多领域词典自动构建方法；在自动获取文本关键词的基础上，对待处理文本进行聚类，形成N个主题文本集；构建M个领域，选取各领域的种子词，依次统计各领域种子词在各主题文本集中出现的频率；将频率最高的主题文本集作为对应领域词典扩展的源文本集；计算各领域种子词与对应源文本集的文本中各候选词的关联度，将关联度到达设置阈值的候选词作为该领域词存入对应的词典中。本发明方法在自动区分文本主题领域的基础上，在较短的时间内可以构建数个词典，为相关的文本分析提供更多可用工具。也可以为某一具体分析提供更多分析维度，使得分析的视角更加全面，分析的结果更加准确。
搜索关键词：	领域词典自动构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

多领域词典自动构建方法，其特征在于，包含以下实现步骤：(1)构建初始文本集；(2)提取出初始文本集中各文本的关键词；(3)对待处理文本进行聚类，生成N个主题文本集，其中N为整数且N≥2；(4)构建M个领域，选取各领域的种子词，其中M为≤N的正整数；(5)依次统计各领域种子词在各主题文本集中出现的频率；将频率最高的主题文本集作为对应领域词典扩展的源文本集；(6)计算各领域种子词与对应源文本集的文本中各候选词的关联度，将关联度到达设置阈值的候选词作为该领域词存入对应的词典中。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司，未经成都数联铭品科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201611150855.8/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]多领域词典自动构建方法在审

专利文献下载