[发明专利]与输入法集成的语义标注系统和方法有效
申请号: | 201210052143.8 | 申请日: | 2012-03-01 |
公开(公告)号: | CN102662953A | 公开(公告)日: | 2012-09-12 |
发明(设计)人: | 倪旻 | 申请(专利权)人: | 倪旻 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/21;G06F3/023 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 陈丽燕 |
地址: | 100094*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 输入法 集成 语义 标注 系统 方法 | ||
技术领域
本发明涉及计算机数据处理和输入领域,具体涉及与输入法集成的语义标注系统和方法。
背景技术
随着IT技术特别是Web 2.0技术的迅速发展,用户产生内容(包括各种类型的桌面文档,以及大量的在线文档-帖子博客等)数量每天以惊人的速度增长,人们借助上述内容来和别人交流自己的想法,阐述自己的观点,甚至对现有产品和服务进行评价或者表达投诉意见。
所述用户产生内容无论对于个人或者商业机构都有极高的价值,无论是实时跟踪分析或者日后检索回顾,都需要技术能够对这些产生的内容进行检索和方便定位,基于内容中的原始特征比如关键词做索引供检索是一种方法,但是让后期检索需要记忆这些原始特征,对最终用户的记忆力将是一个挑战,反而人对更抽象的内容更容易记忆,举例来说,让人记住某个具体的菜名很难,但是记住菜系反倒容易一些。因此对上述用户产生内容做语义角度上的概括和标注将非常有利于后期对内容的查找和定位。
对文档做语义标注从标注发生的时间段来看,分为编辑中创建和编辑后增加。编辑中创建意思是说在文档的编写过程中增加语义标签。而编辑后增加则是文档完成后,通过自动化或者半自动化方式增加语义标签。为减轻人增加和确认语义标签的工作量,目前流行的通常是编辑后增加语义标签,通过机器学习自动提取可能的标签,对不确定的留给用户确认。无论采用何种机器学习算法,都需要人工创建一些标注好的文档作为训练样本,因此人工进行一定量的语义标注是无法避免的,同时语义标注是一个动态的过程,错误标签纠正工作量也非常巨大。这些工作都需要进行人工的输入和语义标注。
现有的自动语义标注方法如图1所示,该方法包括:
步骤A、获取新的文字段落,并将其存储到文字段落存储单元中;
步骤B、对这个段落进行语法分析,并将结果存储到语法分析结果存储单元中;
步骤C、根据存储的文字段落和语法分析结果获取语义标注插件分析出对应的语义标签,并最终将标注对象和语义标注返回。
通常来说,该方法通过如图2所示的自动语义标注系统实现。所述系统包括应用模块、语法处理模块和语义类识别管理模块,其中:
应用模块用于获取新的文字段落,并将其存储到文字段落存储单元中;
语法处理模块用于对这个段落进行语法分析,并将结果存储到语法分析结果存储单元中;
而语义类识别管理模块用于根据存储的文字段落和语法分析结果获取语义标注插件分析出对应的语义标签,并最终将标注对象和语义标注返回。
上述的自动语义标注方法和系统通常在整段文字编辑结束后进行语义的标注和返回,因此通常缺乏用户确认的环节,使得自动语义标注出现的误差难以得到修正,影响语义标注的效率。
因此如何将标注融合到编辑中,化整为零,提高系统使用的方便性和语义标注的准确率是目前亟需解决的问题。
发明内容
本发明的目的在于提高用户进行语义标注的方便性和准确率。
本发明公开了一种与输入法集成的语义标注系统,所述系统包括:
输入法模块,用于进行文字输入并将输入的文字信息存储在文字段落存储单元中;
编辑空闲检测模块,用于跟踪文字段落存储单元的信息,检测用户是否处于编辑空闲状态,并在用户处于编辑空闲状态时向消息模块发送编辑空闲消息以示意用户处于编辑空闲状态;
消息模块,用于根据所述编辑空闲消息向语义类识别管理模块发送语义分析请求消息;
语义类识别管理模块,用于根据语义分析请求消息分析所述输入的文字信息提取出包括预标注对象和预语义标签的标注对,将所述标注对保存到预标注对象和语义标注存储单元,并向用户确认模块发送语义标注确认请求消息;
用户确认模块,用于根据语义标注确认请求消息向用户展示所述预标注对象和语义标签的可选项供用户选择,将用户选择确认后的标注结果返回作为元数据或附加数据存储。
其中,所述用户确认模块还包括语义标注修改模块和语义标注确认模块,所述语义标注修改模块用于向用户展示所述预标注对象以及所述输入的文字信息供用户对预标注对象进行修改,将用户修改确认的标注存储于标注结果存储单元;
所述语义标注确认模块用于向用户展示所述语义标签的可选项供用户选择,将用户选择确认后的语义标签存储于标注结果存储单元,并将标注结果存储单元中的标注结果返回作为元数据或附加数据存储。
其中,供用户选择的语义标签的可选项的默认项为存储于预标注对象和语义标注存储单元中的预语义标签。所述编辑空闲检测模块根据预定编辑空闲条件判断用户是否处于编辑空闲状态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于倪旻,未经倪旻许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210052143.8/2.html,转载请声明来源钻瓜专利网。