[发明专利]基于语义感知的评论分析方法及装置在审
申请号: | 202210079218.5 | 申请日: | 2022-01-24 |
公开(公告)号: | CN114490937A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 王亚文;王俊杰;石琳;王青 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/295;G06F40/30 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 余长江 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 感知 评论 分析 方法 装置 | ||
本发明公开了一种基于语义感知的评论分析方法及装置,包括:收集目标应用的评论文本;将每一所述评论文本分成至少一个句子;提取所述评论文本的评论属性;将所述句子中每一单词的向量与所述评论属性的向量进行拼接;基于拼接结果,通过计算单词BIO标签的概率向量,得到所述评论文本中的缺陷特性;对所述缺陷特性进行聚类,得到评论分析结果。本发明将缺陷特性提取任务建模为命名实体识别,通过引入了评论属性的缺陷特性识别模型,来提高短语识别的准确性。
技术领域
本发明属于计算机技术领域,涉及需求工程,自然语言处理等技术,尤其涉及一种基于语义感知的评论分析方法及装置、
背景技术
移动应用(App)开发已经活跃了十多年,产生了数以百万计的可用App,用于处理各种各样的任务,如购物、银行和社交互动。这些移动应用在本发明的日常生活中变得越来越不可或缺,移动应用的重要性促使开发团队竭尽全力地理解用户新需求以及缺陷报告,并开展质量保证和软件维护活动。
用户通常会在苹果应用商店和谷歌Play等平台上为他们所使用的手机应用撰写评论。这些评论通常是一些简短的文本,这些用户反馈可以为App开发人员提供有价值的信息,如用户体验、缺陷报告和对新功能的需求。充分理解这些评论有助于开发者提高应用质量和用户满意度。然而,人工浏览和分析每个用户评论以收集反馈中有用的信息是非常耗时的,特别是对于那些每天都可能收到数百条评论的热门应用来说代价更甚。
近年来,用于挖掘App评论的自动化技术引起了广泛关注。研究人员定义了许多任务从不同角度通过多种方式帮助减少理解和分析应用评论所需的工作量,例如主题发现和关键短语提取任务。然而,主题发现任务主要用于识别用户评论中涉及的主题/方面(例如,兼容性、更新、网络等),但开发人员仍然无法了解用户抱怨的是App的哪些具体特定功能。另一方面,关键短语提取任务主要利用基于启发式的技术(如词性模板、语法解析树和语义依赖图)来提取目标短语,这类技术无法充分地理解评论的语义,因而其准确性不能令人满意。
本发明涉及的技术包括命名实体识别技术(Named Entity Recognition,NER)和语言模型预训练技术。
1)NER是自然语言处理(Natural Language Processing,NLP)中序列标注的一个经典任务。其定义为给定一个词序列,NER旨在预测一个词是否属于某个命名实体,例如人名、组织名称、位置等。NER任务可以通过线性统计模型来解决,例如最大熵马尔可夫模型(Maximum Entropy Markov models)、隐马尔可夫模型(Hidden Markov Models)和条件随机场(Conditional Random Fields,CRF)。用于解决NER任务的基于深度学习的技术通常使用深度神经网络来捕获句子语义,并使用CRF层来学习句子级标签规则。典型的神经网络结构包括卷积神经网络结合CRF(Conv-CRF)、长短期记忆网络结合CRF(LSTM-CRF)和双向LSTM网络结合CRF(BiLSTM-CRF)。其中,BiLSTM-CRF模型利用双向结构可以同时捕获输入序列前向和后向的信息,通常可以获得比Conv-CRF和LSTM-CRF更好的性能。
2)语言模型预训练技术已被证明可有效改善许多NLP任务。BERT(BidirectionalEncoder Representations from Transformers)是一种基于Transformer的表示模型,它使用预训练技术首先在原始语料库中进行训练,然后针对下游任务(如NER任务)进行微调。使用BERT代替BiLSTM(简记为BERT-CRF)可以进一步提高性能。借助微调技术,BERT-CRF模型能够受益于大型通用语料库上预训练的语言模型带来的性能提升。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210079218.5/2.html,转载请声明来源钻瓜专利网。