[发明专利]一种融合非结构化和结构化信息的Web服务分类方法在审
申请号: | 202110383600.0 | 申请日: | 2021-04-09 |
公开(公告)号: | CN113111288A | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 康国胜;刘建勋;肖勇 | 申请(专利权)人: | 湖南科技大学 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/28;G06F16/34;G06F16/35;G06F40/242;G06F40/284;G06K9/62;G06N3/08 |
代理公司: | 北京盛凡智荣知识产权代理有限公司 11616 | 代理人: | 戴龙泽 |
地址: | 411201 湖南省湘潭市雨*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 结构 信息 web 服务 分类 方法 | ||
本发明提供一种融合非结构化和结构化信息的Web服务分类方法,首先使用两种文档表示方法将每个服务文档转换为特征向量,即基于潜在Dirichlet分配(LDA)的主题分布和基于神经网络的文档嵌入模型Doc2Vec,来增加分类特征的多样性;然后通过应用最近提出的网络嵌入技术‑Node2Vec,从两个关系图,即服务调用图和服务标记图中获得结构表示向量;最后通过由上述多维特征向量连接的组合嵌入来训练分类器。本发明在实际数据集上进行了全面的实验,证明了本方法的有效性,能够切实提高Web服务分类的性能。
技术领域
本发明主要涉及Web服务分类相关技术领域,具体是一种融合非结构化和结构化信息的Web服务分类方法。
背景技术
Web服务由于其跨语言、跨平台、松散耦合和开放标准而成为SOA(面向服务的体系结构)的主流实现技术。随着Web2.0技术的发展,过去十年来,Web服务及其组成(如Mashup等)在因特网上迅速增长。Web服务数量的增加大大增加了人们高效使用和管理服务存储库的负担。过去,Web服务分类已被证明是缓解这一挑战的有效技术。作为探索性数据分析的重要工具,Web服务分类对于我们捕获和理解诸如可编程Web等封闭存储库中服务的分层功能结构是必不可少的。极大的方便了广泛的下游任务,如服务发现选择,服务组成,服务推荐等。
到目前为止,已经做了很多关于服务分类的相关工作。然而,它们大多侧重于基于文档表示方法(如概率主题模型(例如PLSA和LDA)和基于神经网络的文档嵌入(例如Doc2Vec)挖掘非结构化信息)。他们通常首先学习潜在主题或功能非结构化向量来表示服务文档。然后,通过这些向量之间的亲缘关系来训练适当的分类器。值得注意的是,虽然主题模型可以将高维文档词向量空间转换为低维非结构化级别向量空间,但它们都是词袋模型。其基本特点是忽略了文本信息中的语序信息,即不考虑段落中的词汇顺序,只体现为几个维度的独立概念。因此,主题模型无法从原文中的语序中获得信息。虽然Doc2Vec具有词序语义分析能力,但难以获得隐含的功能语义特征。从这些观察中,我们认为结合上述两种类型的文档表示模型可能有助于获得更全面的文档嵌入。此外,一些调查试图将辅助信息,如标签和先验知识纳入表示过程。这些方法通常利用服务内容或服务连接结构作为普通基因,以减少数据稀疏问题的影响。例如,引入标签来改进LDA培训过程。然而,标签是由不同的服务开发人员创建的,这可能会带来词汇差距问题(例如,两个不同的单词表达相似的含义),导致功能等效服务之间的语义不一致。上述所有方法的一个主要问题是,它们只基于简单和静态的服务上下文信息,这可能导致次优性能,因为服务非结构化描述通常是短的、稀疏的,并且充满噪声的特征。
服务的创建不仅是为了独立运行,而且还与他人合作来完成复杂的任务,即组合具有不同功能的服务以形成增值应用程序。服务之间频繁的互连(即组合或标签共享关系)形成了一个复杂的关系网络,揭示了服务之间的结构化相关性。事实上,这些行为类似于民俗学,可以看作是人工分类Web服务的过程。例如,标记服务意味着根据用户的解释将其分类为相应的功能类别,具有类似标签的服务可能属于相同的类别。同样,组合行为意味着用户试图将不同类别的多个功能互补服务聚合在一起。我们认为,这些来自网络关系的相关特征可以用来增强基于非结构化的Web服务分类过程。例如,程序集成Web数据集中有两个Mashup(“Backup Box”和“Crisply”),它们属于Tools类别,它们的标签和功能描述不相似,因此很难将这两个Mashup分类为同一个类别。但两者在结构上都调用了相同的API,称为Google Drive。类似地,API分类场景也存在API真实类别无法通过单独利用非结构化特征来有效识别的情况。因此,我们认为,同时结合服务非结构化和结构化关系进行统一服务特征表示学习是非常重要的,这对于探索最优服务分类性能至关重要。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南科技大学,未经湖南科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110383600.0/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置