[发明专利]一种基于主题模型的文档标注方法有效
申请号: | 201610812364.9 | 申请日: | 2016-09-09 |
公开(公告)号: | CN106407169B | 公开(公告)日: | 2019-01-08 |
发明(设计)人: | 赵霞;刘泽;钱国伟;马延辉;李司宇;于田昊 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06F17/24 | 分类号: | G06F17/24;G06K9/62 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 贾晓玲 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明的目的在于实现一种基于主题模型的标注文档的方法,能够快速地为文章标注标签,人们可以通过这些标签准确了解文章的主题以及类别。本发明为文章标注标签的过程分为四个阶段:1)选取训练集的文章,并分为若干类;2)对训练集中的每一类文档提取主题、标注标签;3)构造整个训练集的向量空间;4)对测试集的每篇文章进行打标签处理,从而实现为文章标注标签的功能。本发明具有高效性和准确性,可以减少用户的信息负担,并且在需求数据提取、特定主题文章搜索、广告针对投放等方面具有很好的应用价值。 | ||
搜索关键词: | 一种 基于 主题 模型 文档 标注 方法 | ||
【主权项】:
1.一种为文章标注标签的方法,其步骤包括:A.选取训练集的文章,并分为若干类;B.选取某一类文档N篇作为训练样本,其中N≥1;用LDA方法提取主题的主题词及其概率分布,具体步骤如下:B1.对选取的每一篇文档进行预处理以及分词处理,形成训练集,具体步骤如下:B1.1.将文档中的繁体转化为简体;B1.2.将文档转化成UTF‑8编码;B1.3.去除文档中的标点符号;B1.4.对文档进行分词处理;B1.5.将处理后的每个文档作为一行合并到一个文档中,作为训练集;B2.通过LDA对训练集进行多次迭代提取主题模型,得到主题的主题词及其概率分布,具体步骤如下:B2.1.通过训练得到合适的α、β参数,以便获取能充分表达文档主题特征的主题,α的变化影响文档和主题之间的分布,调整α参数使得对于内容集中的文档,提取的主题可以表达全局文档共有的主题;对于内容分散的文档,提取的主题可以表达局部文档专有的主题,β的变化影响词语和主题之间的分布,调整β参数使得主题词表达的是比较集中的主题或者是比较分散的主题;B2.2.以N/25作为初始主题数,对训练集进行多次迭代提取主题模型;C.通过算法筛选优势主题,人工为每个优势主题标注标签Fi,具体步骤如下:C.1.求所有主题的主题词的概率的平均值p;C.2.选取阈值参数ε,其中1≤ε≤3,设置概率阈值p′=p/ε;C.3.将每个主题的主题词概率和与p′比较,概率值大于p′的主题为优势主题;C.4.请专业人士为每个优势主题标注标签Fi;D.将训练集中所有类别的所有优势主题的主题词用word2vec转换到一个高维向量空间S中,每个主题的主题词对应的向量构成一个集合Ai,具体步骤如下:D.1.将训练集中所有优势主题的主题词作为word2vec的输入,每一行代表一个优势主题的主题词;D.2.设置word2vec参数,经过word2vec训练,输出为多维词向量集合;E.求每个主题的向量集合Ai的重心向量Vi,将训练集中所有的向量Vi构成一个高维向量集合A′,具体步骤如下:E.1.假设训练集中的主题为{T1,T2,...,Tm},每个主题的主题词为{W1,W2,...,Wk},每个主题词向量为Wj(xj1,xj2,...,xjn),其中1≤j≤k,n=400,每个主题的重心向量为Vi(yi1,yi2,...,yin),其中1≤i≤m,n=400,求重心向量Vi的每一个元素yip的公式为:
其中,1≤i≤m,1≤p≤n;E.2.将训练集中所有的高维向量Vi构成一个高维向量集合A′={V1,V2,...,Vm};F.为每篇被测文章提取一个主题,将该主题的主题词转换为S空间中的一个高维向量集合B,具体实现如下:F1.对被测文章进行预处理以及分词处理,具体实现按照B1过程进行;F2.通过LDA对被测文章进行多次迭代提取一个主题,得到该主题的主题词及其概率分布;F3.将主题词转换为S空间中的一个高维向量集合B,具体实现按照D过程进行;G.求集合B的重心向量B′,具体实现按照E.1过程进行;H.在A′中找到与B′最相似的主题的向量Vi,把Vi对应的标签Fi赋给被测文章,从而实现为文章标注标签的功能。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610812364.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种应用文自动生成方法
- 下一篇:数据报表快速生成方法及系统