[发明专利]基于微博的众包问答系统信息采集方法有效
申请号: | 201310040557.3 | 申请日: | 2013-02-02 |
公开(公告)号: | CN103106267A | 公开(公告)日: | 2013-05-15 |
发明(设计)人: | 胡天磊;伍赛;陈刚;周显锞;张冰冰;陈珂 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 周烽 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 问答 系统 信息 采集 方法 | ||
技术领域
本发明涉及互联网应用中的数据处理技术、信息处理领域中的文本相似度分析技术、社交网络领域中的用户兴趣信息提取技术,特别涉及一种基于微博的众包问答系统信息采集方法。
背景技术
在互联网应用方面,大多数社交网络平台都采用了开放授权OAuth2的用户登陆和授权模式。应用通过平台用户的授权之后,就可以通过API接口获取相应的用户数据。此外,在微博系统中,当用户具体账号时,该条消息就会发送给被的用户。所述到该官方账号具体为:在微博内容中加上以“”+ 账号昵称为格式的文本。这些成熟的互联网数据处理技术和服务是本发明实现的基础。
在众包系统中,通常都是通过一套激励措施吸引用户来完成一系列的工作和任务。问答网站是众包系统的一种实例。在问答网站中,一般都实现了积分方式作为对回答者的一种激励。众包系统的存在,正是因为在信息处理领域中,许多的问题和工作仍然只有通过人力才能够更高效地开展。最近几年来,在众包系统领域,专家学者又提出了一系列新的思路和技术。例如,伯克利大学的科研工作者提出了通过众包来回答数据库查询的技术。
在信息处理领域中,文本相似度分析已经存在很多成熟的算法,例如最长公共子串LCS算法和字符串相似度Levenshtein距离算法。LCS算法的原理是将两个字符串分别以行和列组成矩阵,每个节点行列字符如果相同则计为1,通过找出值为1的最长对角线即可得到最长公共子串。Levenshtein距离又称为编辑距离,Levenshtein距离算法的基本原理是返回将第一个字符串转换成第二个字符串的编辑次数。次数越少,意味着字符串相似度越高。
在社交网络领域中,专家学者们针对用户兴趣爱好的分析提取提出了许多工作。最基本的处理方法通常都是对社交网络中具体用户发布的所有信息数据,进行分词处理,对具体词汇通过tf-idf(词频-反文档频率)算法进行进一步计算,排序得到tf-idf值最高的一系列关键词作为该用户可能感兴趣的标签。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于微博的众包问答系统信息采集方法。
本发明解决其技术问题采用的技术方案如下:一种基于微博的众包问答系统信息采集方法,包括如下步骤:
步骤1:在微博平台上注册官方账号,在微博开放平台申请成为第三方网站开发账号,获取开发网站的App Key(应用码)和App Secret(应用密钥);
步骤 2:通过微博开放平台提供的接口,开发数据采集和发布模块,向微博平台采集和发布数据,包括问答数据以及用户资料信息;
步骤3:用户发起的任何问题只需要到该官方账号,该问题原微博以及所有转发微博将通过数据采集和发布模块被系统采集收录;
步骤4:对采集到的问答数据进行分析处理:该步骤可提取该问题的整体树状转发结构、提取相似答案、过滤纯转发答案,并对整个话题回答进行各类统计分析;
步骤5:将步骤4提取的该问题的整体树状转发结构、提取相似答案和过滤纯转发答案,以及统计分析的结果,在前端界面为用户提供多元化的结果展示;
步骤6:利用全局采集到的用户问答记录和具体用户资料信息,分析每个用户在问答系统中的活跃程度、感兴趣领域以及擅长领域等信息;
步骤 7:利用步骤6所得到的用户活跃程度、感兴趣和擅长领域等信息,系统自动将该新问题推送给可能感兴趣的潜在回答用户。
本发明的有益效果是,该发明首先实现了与微博平台进行数据交互的数据采集和发布模块,通过该模块自动采集系统相关的所有问答数据和用户资料信息。对于采集到的问答数据进行后台分析处理,为用户提供更直观和专业的回答结果展示。另外,系统通过对用户资料信息和问答行为的具体分析,将各类新问题有效推送给可能回答的潜在用户,以对新问题进行高效、快速扩散。应用本发明的方法,可以通过微博平台实现问答系统更高效快速地获取答案。
附图说明
图1是本发明实施步骤总体模块流程图;
图2是数据采集和发布模块具体工作流程图;
具体实施方式
现结合具体实施和示例对本发明的技术方案作进一步说明。
如图1,本发明基于微博的众包问答系统信息采集方法,包括如下步骤:
步骤1:在微博平台上注册官方账号,在微博开放平台申请成为第三方网站开发账号,获取开发网站的App Key(应用码)和App Secret(应用密钥)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310040557.3/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置