[发明专利]基于文档分段的构建主题-词汇分布的方法及系统在审
申请号: | 201310657341.1 | 申请日: | 2013-12-04 |
公开(公告)号: | CN103678277A | 公开(公告)日: | 2014-03-26 |
发明(设计)人: | 王勇;赵立军 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 陈英俊 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文档 分段 构建 主题 词汇 分布 方法 系统 | ||
技术领域
本发明涉及文本分析技术领域,更为具体地,涉及一种基于文档分段的构建主题-词汇分布的方法及系统。
背景技术
在文本分析领域中,LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)算法是一种常见的基于无监督学习的统计方法,在这种方法中,对于给定的文档集合,系统通过参数估计能够确定一些隐含的主题(Topic),每个主题是一个词汇表上的概率分布,每篇文档则可以表示为在多个主题上的概率分布,和词袋模型中的单词相比隐含主题的维度要低得多,可以有效地避免词一级的噪音,因此得到了广泛的应用。
但是在现实世界中的文档,由于其交流特性和组织方式并不是围绕着一个话题(话题可以认为对若干领域概念之间的关系的描述)来严格地进行论述的,而是围绕着多个话题,进行多方位的描述,如果将这样的文档作为主题学习算法的输入,就会将那些只是在讨论多个特定领域问题时才会使用的多个词语不适当地关联到一起,从而导致了严重的语义污染问题。
为了解决上述问题,常用的解决方法是通过收集足够多的语料,找到各种情景下被讨论问题的全部语料,那么根据概率计算,那些稀少的话题-话题组合就不会取得主要的地位,从而不会对结果产生严重的影响。
一般情况下,这种解决方法是可行的,但是,在企业内部的知识管理这个领域中,企业内部所能提供的文档集总是局部的,因此语义污染总是存在,所以,上述问题仍需要一种解决方案。
发明内容
鉴于上述问题,本发明的目的是提供一种基于文档分段的构建主题-词汇分布的方法及系统,以解决因语义污染造成得到的主题质量差的问题。
本发明提供的基于文档分段的构建主题-词汇分布的方法,包括:
通过预设的本体库将资源文档按照语义相关度分割成资源文档片段;
根据LDA算法对资源文档片段构建主题-词汇分布。
其中,在将资源文档按照语义相关度分割成资源文档片段的过程中,
获取所述资源文档中的句法段落和语义段落;其中,
如果所述资源文档包含一个句法段落,则不分割所述资源文档,直接根据所述LDA算法对所述资源文档构建主题-词汇分布;
如果所述资源文档包含一个语义段落,则不分割所述资源文档,直接根据所述LDA算法对所述资源文档构建主题-词汇分布;
如果资源文档包含多于一个的句法段落和多于一个的语义段落,则获取两个相邻的句法段落之间的语义距离,将语义距离大于预设的语义距离阈值的两个相邻的句法段落皆作为语义段落,将语义距离小于预设的语义距离阈值的两个相邻的句法段落合并成一个语义段落,在句法段落合并成语义段落之后,再将语义距离小于预设的语义距离阈值的多个相邻的语义段落合并成一个语义段落,如果多个相邻的语义段落合并后仍存在多个相邻的语义段落,则重新计算多个相邻的语义段落之间的语义距离,再与预设的语义距离阈值比较后进行合并,重复上述多个相邻的语义段落的合并过程,直到任意两个语义段落之间的距离都大于预设的语义距离阈值为止,将每个语义段落作为一个资源文档片段输出。
其中,根据预设的本体库计算两个相邻的句法段落之间的语义距离,所述语义距离的计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310657341.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:钻床垂直夹紧机构
- 下一篇:基于视频精确识别的变电站内设备状态巡视管理系统