[发明专利]基于预定义槽间向量模型的网页信息抽取方法无效
申请号: | 200810063618.7 | 申请日: | 2008-06-20 |
公开(公告)号: | CN101350019A | 公开(公告)日: | 2009-01-21 |
发明(设计)人: | 林怀忠;陈意;冯明远 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 | 代理人: | 张法高 |
地址: | 310027*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于预定义槽间向量模型的网页信息抽取方法。本方法针对目前自动网页信息抽取方法中,抽取精度偏低,信息抽取包装器扩展性和适应性差等缺点,利用正规网站的相邻网页集的相似特点以及特定行业的网页组织特色,通过迭代求权的方法对行业数据进行过滤,分类和辨别。同时通过建立向量模型来代表槽间相互关系,极大地提高了数据内容的辨别粒度,简化了数据识别过程,而且成本低廉。同以往的人工、半人工以及自动信息提取系统不同,该方法屏蔽了大量无用的文本信息,摒弃了从众多纷杂信息中利用规则来标识信息的盲目性。通过利用槽空间局部特点更加缩小待处理有用数据的范围,为精确判断文本内容提供了环境基础。 | ||
搜索关键词: | 基于 预定 义槽间 向量 模型 网页 信息 抽取 方法 | ||
【主权项】:
1、一种基于预定义槽间向量模型的网页信息抽取方法,其过程是包括以下步骤:1)对搜索引擎搜索端抓取的每个网站的网页集抽取8个网页,并分别对网页集的超文本标记语言代码建立文档对象模型树,选取第1个网页为主页,通过对主页和其它网页之间的文档对象模型树进行比较,如果文档对象模型树之间相同路径下文本存在不同,在主页中把不同文本标记为有用文本;2)对用户标记的网页内容进行学习,将学习到的关于文本内容和文本形式特点的规则对有用文本内容进行最初级的判别,计算出每个有用文本相对于预定义槽的相关权重,反复对每个预定义槽选取权重大于某一阀值的文本,建立多个符合预定义槽记录的文本候选集合;3)通过扫描超文本标记语言代码及其层叠样式表单获取文本候选集合中的多个文本片段的背景颜色和字体属性,同时通过访问开源浏览器mozilla中的盒子模型获取文本侯选集中每个文本的位置信息,确定文本的分布;4)从第一个记录的文本候选集合开始,分别计算任意两文本之间的连贯系数,表达两文本之间的相互结构特征,显示特征,距离特征以及两文本之间的上下文环境特征,并记录下两文本分别对应的槽的位置;5)将每一个记录对应的连贯系数组成一个向量,多个记录形成一个向量集合,向量集中每个向量与标准向量进行相似度计算,记录相似度最高的向量,并将相似度最高的向量所对应的文本侯选集记录装入槽中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200810063618.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种自动控制蜜蜂饲喂器
- 下一篇:带盖的垃圾桶