[发明专利]基于文档分段的构建主题-词汇分布的方法及系统在审
申请号: | 201310657341.1 | 申请日: | 2013-12-04 |
公开(公告)号: | CN103678277A | 公开(公告)日: | 2014-03-26 |
发明(设计)人: | 王勇;赵立军 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 陈英俊 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文档 分段 构建 主题 词汇 分布 方法 系统 | ||
1.一种基于文档分段的构建主题-词汇分布的方法,包括:
通过预设的本体库将资源文档按照语义相关度分割成资源文档片段;
根据LDA算法对所述资源文档片段构建主题-词汇分布。
2.如权利要求1所述的基于文档分段的构建主题-词汇分布的方法,在将资源文档按照语义相关度分割成资源文档片段的过程中,
获取所述资源文档中的句法段落和语义段落;其中,
如果所述资源文档包含一个句法段落,则不分割所述资源文档,直接根据所述LDA算法对所述资源文档构建主题-词汇分布;
如果所述资源文档包含一个语义段落,则不分割所述资源文档,直接根据所述LDA算法对所述资源文档构建主题-词汇分布;
如果所述资源文档包含多于一个的句法段落和多于一个的语义段落,则获取两个相邻的句法段落之间的语义距离,将语义距离大于预设的语义距离阈值的两个相邻的句法段落皆作为语义段落,将语义距离小于预设的语义距离阈值的两个相邻的句法段落合并成一个语义段落,在句法段落合并成语义段落之后,再将语义距离小于预设的语义距离阈值的多个相邻的语义段落合并成一个语义段落,如果多个相邻的语义段落合并后仍存在多个相邻的语义段落,则重新计算多个相邻的语义段落之间的语义距离,再与预设的语义距离阈值比较后进行合并,重复上述多个相邻的语义段落的合并过程,直到任意两个语义段落之间的距离都大于预设的语义距离阈值为止,将每个语义段落作为一个资源文档片段。
3.如权利要求2所述的基于文档分段的构建主题-词汇分布的方法,根据预设的本体库计算两个相邻的句法段落之间的语义距离,所述语义距离的计算公式为:
其中,
as=min{dis(Sis,Sj1),dis(Sis,Sj2),...,dis(Sis,Sjn)};
bt=min{dis(Si1,Sjt),dis(Si2,Sjt),...,dis(Sim,Sjt)};
as为句法段落Si中的第s个单词Sis和句法段落Sj中的每个单词Sj1,Sj2,...,Sjn之间的距离的最小值;
bt为句法段落Sj中的第t个单词Sjt和句法段落Si中的每个单词Si1,Si2,…,Sim之间的距离的最小值;
dis(Sis,Sjt)为句法段落Si中第s个单词Sis与句法段落Sj中第t个单词Sjt在预设本体库的概念空间中的距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310657341.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:钻床垂直夹紧机构
- 下一篇:基于视频精确识别的变电站内设备状态巡视管理系统