[发明专利]一种基于互补语料的短文本观点挖掘方法有效
申请号: | 201610559782.1 | 申请日: | 2016-07-15 |
公开(公告)号: | CN106227768B | 公开(公告)日: | 2019-09-03 |
发明(设计)人: | 何跃鹰;吴俊杰;赵忠华;董建武;徐剑;林浩;左源 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F17/27 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 赵文利 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于互补语料的短文本观点挖掘方法,是基于属性的观点挖掘;具体为:首先,从某段微博语料中选取训练语料,进行分词处理,词性标注和筛选;根据观点词将训练语料进行属性词的标注;并使用词性标注做为特征训练最大熵模型;然后,针对某个事件的微博语料和新闻语料,构建跨语料的话题模型,并结合最大熵模型,分析该事件所属的话题并提取相应的属性词分布和观点词分布;最后,针对某个具体共享话题的所有观点词或者某个具体独享话题中的所有观点词,利用情感分类器进行极性分析。本发明适用于对舆情事件的属性分析及观点挖掘,具有高效性、鲁棒性和易用性的特点,在观点挖掘、舆情监控等领域具有重要的应用价值。 | ||
搜索关键词: | 一种 基于 互补 语料 文本 观点 挖掘 方法 | ||
【主权项】:
1.一种基于互补语料的短文本观点挖掘方法,其特征在于,具体步骤如下:步骤一、针对某段微博,从微博语料中根据观点词词典选取训练语料,并进行分词处理,词性标注和筛选;微博语料包括至少一条微博文本;步骤二、根据观点词词典中的观点词,将训练语料进行属性词的标注;属性词是指,在训练语料中选择的每条文本中,至少包括一个观点词,出现观点词附近的又不在观点词集合中的词;步骤三、对标注完属性词的训练语料,结合观点词,使用词性标注做为特征,训练最大熵模型;步骤四、针对某个事件,同时分析该事件的微博语料和新闻语料,构建跨语料的话题模型,并结合最大熵模型,分析该事件所属的话题并提取相应的属性词分布和观点词分布;跨语料话题模型用来计算事件中的某个分词归属为共享话题的具体话题概率,或者独享话题中的具体话题概率;具体为:步骤401、针对某个事件,同时选取该事件的微博语料和新闻语料,组成集合语料;步骤402、对集合语料中的每条文档,分别进行分词处理和词性标注并筛选;步骤403、将每条文档中的分词组成输入列表,作为跨语料话题模型的输入;步骤404、针对该事件的集合语料,初始化共享话题个数和共享话题的相关词分布,以及独享话题个数和独享话题的相关词分布,以及所有不同的分词集合
分词总数V;共享话题是指,与事件相关的微博语料和新闻语料享有的共同属性;独享话题是指,与事件相关的微博语料或新闻语料报道的多个不同事件属性;根据集合语料的所有分词,去除重复分词,计算得出所有不同的分词集合为
总数为V;将第z个共享话题的相关词分布
以及第z个独享话题的相关词分布
进行初始化,各种词分布均可初始化为一个v维度、值为1的向量,表示初始时所有分布在所有分词维度上的频数一样;其中,
表示微博语料或新闻语料上第z个共享话题的属性词分布;
表示微博语料上第z个共享话题的观点词分布,
表示新闻语料上第z个共享话题的观点词分布;
表示微博语料或新闻语料上的第z个独享话题的属性词分布;
表示微博语料或新闻语料上的第z个独享话题的观点词分布;步骤405、根据分词输入列表、初始化的分词分布和所有不同分词的集合,利用跨语料话题模型选出最终的分词;步骤406、将最终分词输入到期望最大化算法EM,迭代计算跨语料话题模型中的参数,输出该事件实际共享话题的相关词分布,或者独享话题的相关词分布;参数包括
zd,s;步骤五、针对某个具体共享话题的所有观点词或者某个具体独享话题中的所有观点词,利用情感分类器进行极性分析。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610559782.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于领域相关性自适应的协同过滤方法
- 下一篇:数据存储方法及装置