[发明专利]一种文档主题确定方法及装置有效
申请号: | 201710301661.1 | 申请日: | 2017-05-02 |
公开(公告)号: | CN107193892B | 公开(公告)日: | 2019-08-13 |
发明(设计)人: | 赵耕弘;张霞;赵立军;崔朝辉 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘晓菲;王宝筠 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请实施例公开了一种文档主题确定方法和装置,实现对目标文档主题的确定。该方法预先根据Labeled LDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词‑标签”条件概率集合,根据所述训练单词集合得到单词概率集合;然后获取待确定主题的目标文档,以及所述目标文档中的目标单词;从所述“单词‑标签”条件概率集合中,查找所述目标单词对应的“单词‑标签”条件概率;从所述单词概率集合中,查找所述目标单词对应的词频;根据目标单词对应的“单词‑标签”条件概率和词频,得到所述目标文档对应的“标签‑目标文档”条件概率;根据所述目标文档对应的“标签‑目标文档”条件概率确定所述目标文档的主题。 | ||
搜索关键词: | 目标文档 条件概率 标签 目标单词 单词 集合 词频 单词概率 单词集合 文档主题 训练文档集合 方法和装置 查找 标签集合 申请 | ||
【主权项】:
1.一种文档主题确定方法,其特征在于,预先根据Labeled LDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词‑标签”条件概率集合,根据所述训练单词集合得到单词概率集合;所述训练文档集合为训练文档的集合,所述训练文档为携带有标签的文档,所述训练单词集合为根据所述训练文档得到的训练单词的集合,所述标签集合为所述标签的集合;所述“单词‑标签”条件概率集合中包括在所述标签集合中随机选择的标签分别为各个标签的条件下,各个训练单词在语义上分别表达所述各个标签的概率;所述单词概率集合包括每个训练单词分别在所述训练单词集合中的词频;所述方法包括:获取待确定主题的目标文档,以及所述目标文档中的目标单词;从所述“单词‑标签”条件概率集合中,查找所述目标单词对应的“单词‑标签”条件概率,所述目标单词对应的“单词‑标签”条件概率包括在所述标签集合中随机选择的标签分别为各个标签的条件下,所述目标单词在语义上分别表达所述各个标签的概率;从所述单词概率集合中,查找所述目标单词对应的词频,所述目标单词对应的词频为所述目标单词在所述训练单词集合中的词频;根据目标单词对应的“单词‑标签”条件概率和词频,得到所述目标文档对应的“标签‑目标文档”条件概率,所述“标签‑目标文档”条件概率为在随机选择的文档为目标文档的条件下,所述各个标签是所述目标文档的标签的概率;根据所述目标文档对应的“标签‑目标文档”条件概率确定所述目标文档的主题;其中,所述根据目标单词对应的“单词‑标签”条件概率和词频,得到所述目标文档对应的“标签‑目标文档”条件概率包括:根据所述目标单词对应的“单词‑标签”条件概率、所述目标单词的词频和每个标签的概率,得到每个标签的对应的“标签‑单词”条件概率,所述“标签‑单词”条件概率为在所述训练单词集合中随机选择的训练单词为所述目标单词的条件下,所述目标单词在语义上分别表达所述每个标签的概率;所述每个标签的概率为每个标签在所述标签集合中出现的概率;根据所述每个标签的“标签‑单词”条件概率得到所述目标文档对应的“标签‑目标文档”条件概率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710301661.1/,转载请声明来源钻瓜专利网。