[发明专利]一种基于主题模型的文档标注方法有效

专利信息
申请号: 201610812364.9 申请日: 2016-09-09
公开(公告)号: CN106407169B 公开(公告)日: 2019-01-08
发明(设计)人: 赵霞;刘泽;钱国伟;马延辉;李司宇;于田昊 申请(专利权)人: 北京工商大学
主分类号: G06F17/24 分类号: G06F17/24;G06K9/62
代理公司: 北京万象新悦知识产权代理有限公司 11360 代理人: 贾晓玲
地址: 100048*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明的目的在于实现一种基于主题模型的标注文档的方法,能够快速地为文章标注标签,人们可以通过这些标签准确了解文章的主题以及类别。本发明为文章标注标签的过程分为四个阶段:1)选取训练集的文章,并分为若干类;2)对训练集中的每一类文档提取主题、标注标签;3)构造整个训练集的向量空间;4)对测试集的每篇文章进行打标签处理,从而实现为文章标注标签的功能。本发明具有高效性和准确性,可以减少用户的信息负担,并且在需求数据提取、特定主题文章搜索、广告针对投放等方面具有很好的应用价值。
搜索关键词: 一种 基于 主题 模型 文档 标注 方法
【主权项】:
1.一种为文章标注标签的方法,其步骤包括:A.选取训练集的文章,并分为若干类;B.选取某一类文档N篇作为训练样本,其中N≥1;用LDA方法提取主题的主题词及其概率分布,具体步骤如下:B1.对选取的每一篇文档进行预处理以及分词处理,形成训练集,具体步骤如下:B1.1.将文档中的繁体转化为简体;B1.2.将文档转化成UTF‑8编码;B1.3.去除文档中的标点符号;B1.4.对文档进行分词处理;B1.5.将处理后的每个文档作为一行合并到一个文档中,作为训练集;B2.通过LDA对训练集进行多次迭代提取主题模型,得到主题的主题词及其概率分布,具体步骤如下:B2.1.通过训练得到合适的α、β参数,以便获取能充分表达文档主题特征的主题,α的变化影响文档和主题之间的分布,调整α参数使得对于内容集中的文档,提取的主题可以表达全局文档共有的主题;对于内容分散的文档,提取的主题可以表达局部文档专有的主题,β的变化影响词语和主题之间的分布,调整β参数使得主题词表达的是比较集中的主题或者是比较分散的主题;B2.2.以N/25作为初始主题数,对训练集进行多次迭代提取主题模型;C.通过算法筛选优势主题,人工为每个优势主题标注标签Fi,具体步骤如下:C.1.求所有主题的主题词的概率的平均值p;C.2.选取阈值参数ε,其中1≤ε≤3,设置概率阈值p′=p/ε;C.3.将每个主题的主题词概率和与p′比较,概率值大于p′的主题为优势主题;C.4.请专业人士为每个优势主题标注标签Fi;D.将训练集中所有类别的所有优势主题的主题词用word2vec转换到一个高维向量空间S中,每个主题的主题词对应的向量构成一个集合Ai,具体步骤如下:D.1.将训练集中所有优势主题的主题词作为word2vec的输入,每一行代表一个优势主题的主题词;D.2.设置word2vec参数,经过word2vec训练,输出为多维词向量集合;E.求每个主题的向量集合Ai的重心向量Vi,将训练集中所有的向量Vi构成一个高维向量集合A′,具体步骤如下:E.1.假设训练集中的主题为{T1,T2,...,Tm},每个主题的主题词为{W1,W2,...,Wk},每个主题词向量为Wj(xj1,xj2,...,xjn),其中1≤j≤k,n=400,每个主题的重心向量为Vi(yi1,yi2,...,yin),其中1≤i≤m,n=400,求重心向量Vi的每一个元素yip的公式为:其中,1≤i≤m,1≤p≤n;E.2.将训练集中所有的高维向量Vi构成一个高维向量集合A′={V1,V2,...,Vm};F.为每篇被测文章提取一个主题,将该主题的主题词转换为S空间中的一个高维向量集合B,具体实现如下:F1.对被测文章进行预处理以及分词处理,具体实现按照B1过程进行;F2.通过LDA对被测文章进行多次迭代提取一个主题,得到该主题的主题词及其概率分布;F3.将主题词转换为S空间中的一个高维向量集合B,具体实现按照D过程进行;G.求集合B的重心向量B′,具体实现按照E.1过程进行;H.在A′中找到与B′最相似的主题的向量Vi,把Vi对应的标签Fi赋给被测文章,从而实现为文章标注标签的功能。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610812364.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top