[发明专利]RESTfulWeb服务的自动化语义标注系统和方法有效
申请号: | 201310506897.0 | 申请日: | 2013-10-24 |
公开(公告)号: | CN103559234B | 公开(公告)日: | 2017-01-25 |
发明(设计)人: | 赵耀;林荣恒;罗程多;邹华;杨放春 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京德琦知识产权代理有限公司11018 | 代理人: | 夏宪富 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种RESTful Web服务的自动化语义标注系统和方法,该系统设有两种组成构件作为系统的核心构件、负责网页的自动语义分析和标注的整个处理过程的网页处理构件和负责采用机器学习方法提取网页特征和特征分类的特征处理构件。网页处理构件设有四个模块预处理模块、网页分块模块、特征匹配模块和自动标注模块,特征处理构件设有三个模块特征提取模块、特征分类模块和网页特征库。本发明较好地解决了目前只能人工标注、无法解决网上现存的大量文档急需实时标注的难题,可以有效处理海量的RESTful Web服务页面的标注,同时本发明提出的基于网页特征库的算法可以切实保证服务标注的准确率。 | ||
搜索关键词: | restfulweb 服务 自动化 语义 标注 系统 方法 | ||
【主权项】:
一种RESTful Web服务的自动化语义标注系统,其特征在于:该系统设有下述两种组成构件:网页处理构件,作为系统的核心构件,负责网页的自动语义分析和标注的整个处理过程:从磁盘中读取RESTful Web服务源网页,通过预处理操作对网页中的文档结构进行统一分析,并根据文档结构的分析结果将文档划分为语义上相互独立的多个文本块,再分别提取每个文本块的文本内容和提取每个文本内容中的特征项,组成文本块的特征向量,再扫描网页特征库进行特征匹配,识别各个文本块所表述的信息,以供在网页中标注;该构件设有下述四个模块:预处理模块、网页分块模块、特征匹配模块和自动标注模块;特征处理构件,负责采用机器学习方法提取网页特征和特征分类,采用聚类算法计算每个文本块中的特征向量之间的相关程度,将网页的文本块根据特征向量的相关程度划分到多个不同的文本块类中;再计算每个文本块类中的特征项的语义相似度,根据文本块类的语义相关程度对文本块类进行二次分类,得到语义上相互独立的多个类别后,从中选取携带有用信息的语义类别,并生成这些语义类别的特征向量,存储于网页特征库中;该构件设有顺序连接的下述三个模块:特征提取模块、特征分类模块和网页特征库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310506897.0/,转载请声明来源钻瓜专利网。
- 上一篇:使用夹心蜂窝板的显示装置
- 下一篇:电机/气液负载模拟器系统