[发明专利]基于言语行为理论的用户交互意图识别方法及系统在审
申请号: | 201710171926.0 | 申请日: | 2017-03-22 |
公开(公告)号: | CN107153672A | 公开(公告)日: | 2017-09-12 |
发明(设计)人: | 崔宸熙;刘春阳;曾大军;赵志云;张旭;李雄;王萌;王磊 | 申请(专利权)人: | 中国科学院自动化研究所;国家计算机网络与信息安全管理中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06K9/62 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙)11482 | 代理人: | 郭文浩,李飞 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 言语 行为 理论 用户 交互 意图 识别 方法 系统 | ||
技术领域
本发明涉及计算机科学中的意图识别技术领域,更具体地,涉及一种基于言语行为理论的用户交互意图识别方法及系统。
背景技术
对用户交互行为的意图进行挖掘和分析在社会公共安全、商务智能、社情舆情等领域具有十分重要的应用价值。随着社交媒体(微博、Twitter、Facebook等)不断发展和壮大,人们越来越倾向于通过社交媒体分享个人经历、发表观点、表达意愿,并由此产生了海量用户生成内容。这些内容中蕴含着丰富多样的有价值信息,其中,交互意图广泛存在于社交媒体的用户讨论中,对用户的交互意图进行分析和识别,能够为社会、经济、政治、文化相关的多个领域应用提供关键信息和决策支持。
传统的意图识别在人工智能领域有广泛的研究,其研究的重点是基于离线信息检测智能体行为,并与预定义库中的行为模式进行匹配,从而识别智能体的意图。随着社会媒体平台和网络通信的飞速发展,对用户的在线交互进行意图识别已经成为网络大数据应用中的重要研究问题。以往的社交媒体中的意图分析工作主要集中在查询意图和消费意图两个领域。
用户查询意图识别是从搜索引擎日志数据(包括点击、点击序列和查询条件等)中挖掘用户的查询意图,并按照预定义的意图类别分类识别。现有的查询意图分类方法主要包括两种:1)根据查询功能分类,Kang等(SIGIR,2003)将查询意图分类为信息、导航、翻译;2)根据用户行为分类,Hu等(WWW,2009)提出了旅行和工作两种行为相关意图。由于搜索引擎中的查询由词项组成且长度受限,现有的查询意图识别致力于扩展查询特征,恢复完整查询语义,Hu等(WWW,2009)利用维基百科作为外部知识源扩展查询词项,Yang等(WSDM,2015)提出自动生成交互问题,根据用户反馈修正意图。
消费意图识别着重从在线文本数据(微博、论坛、查询等)中挖掘用户是否具有购买意愿。长文本数据主要利用NLP技术进行消费意图识别,Chen等(HLT-NAACL,2013)研究了在特定领域论坛中的购买意图表达模式;短文本数据由于语义的不规范致力于消费对象实体的识别,Fu等(计算机科学与探索,2015)提出了一种跨媒体的伪反馈方法,借助外部搜索引擎对微博中的商品名词进行识别。
目前,用户意图识别发展到更一般的社交媒体平台中。Wang等(AAAI,2015)提出了一种基于用户日常行为的Twitter分类方案,包括食品、旅游、教育等,但他们的方法仅限于显式的意图表达,如“我想要…”、“我计划…”;Purohit等(SocialCom,2015)设计了一种基于特征的方法识别“寻求帮助”和“提供帮助”两种Twitter意图,应用的背景限定在危机事件中,而不考虑更一般的用户意图识别。相比之下,我们的工作重点是定义更为通用的意图分类体系,并在海量在线文本数据中识别用户的交互意图。
以往的意图识别方法主要存在以下不足:(1)意图类型主要集中在特定领域,无法对其他交互意图类型进行识别,适用范围比较窄;(2)意图识别的对象主要集中在固定领域的文本中,或带有明显意图的规则表达中,无法对不规则表达中的隐式交互意图进行识别,可用性比较差;(3)现有方法大多利用人工标注数据进行有监督学习或半监督学习,在人工标注语料缺失时无法对大规模数据进行有效交互意图识别。
发明内容
为了解决现有技术中的上述问题,即为了解决识别各种交互意图类型的问题,本发明提供了一种基于言语行为理论的用户交互意图识别方法。
为实现上述目的,本发明提供了如下方案:
一种基于言语行为理论的用户交互意图识别方法,所述用户交互意图识别方法包括:
基于外部知识源构建行为标记语词典,各意图类别分别对应一个行为标记语词典,每个所述行为标记语词典中包含有多个行为标记语;
根据所述行为标记语词典,自动标注用户在社交媒体平台上输入的在线文本的意图;
利用自动标注语料训练基于特征的分类器对所述在线文本的意图进行分类识别,确定用户的交互意图类别。
可选的,所述基于外部知识源构建行为标记语词典包括:
针对每一意图类别选择设定数量的种子词,构造初始行为标记语词典;
选取待加入到所述初始行为标记语词典中的扩充词;
计算所述扩充词与种子词的语义相似度;
筛选出语义相似度大于相似度阈值的扩充词,并添加到对应的所述初始行为标记语词典中,形成对应各所述意图类别的行为标记语词典。
可选的,所述扩充词分为记载在知网HowNet中的扩充词和未记载在HowNet中的扩充词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所;国家计算机网络与信息安全管理中心,未经中国科学院自动化研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710171926.0/2.html,转载请声明来源钻瓜专利网。