[发明专利]模板检验方法及装置有效
申请号: | 201611100661.7 | 申请日: | 2016-12-02 |
公开(公告)号: | CN106598945B | 公开(公告)日: | 2019-08-06 |
发明(设计)人: | 陈信吉;赵建凯;牛坤;赵振海 | 申请(专利权)人: | 北京小米移动软件有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/24 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 林锦澜 |
地址: | 100085 北京市海淀区清河*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模板 检验 方法 装置 | ||
本公开揭示了一种模板检验方法及装置,属于信息提取领域。所述模板方法包括:获取提取模板对应的关键信息项集合,所述关键信息项集合包括所述提取模板提取的至少一个所述关键信息项;获取属于预定分类的通信消息的有效分词集合,所述有效分词集合包括从所述通信消息的分词结果中筛选出的至少一个有效分词;检测所述有效分词在关键信息项集合中是否存在匹配的所述关键信息项;若不存在匹配的所述关键信息项,则确定所述提取模板存在遗漏的关键信息项。本实施例不需要用户主动上报,由服务器对原始的通信消息进行分析,即可对提取模板的提取准确性进行检验,从而实现服务器自动发现提取模板是否存在遗漏,以便及时对提取模板进行改进的效果。
技术领域
本公开涉及信息提取领域,特别涉及一种模板检验方法及装置。
背景技术
短信卡片是一种将普通短信转化为电子卡片进行显示的增强型显示技术。
短信卡片的实现原理是:在接收到通知短信时,利用提取模板对该通知短信内的关键信息项进行提取,然后将提取到的各个关键信息项填充至预设卡片样式中,将该通知短信以电子卡片显示给用户。比如,在收到一条有关火车票的订票短信时,将该订票短信中的时间、车次、出发站、目的站、车厢号、座位号等信息项进行提取,并将时间、车次、出发站、目的站、车厢号、座位号等关键信息项填充至一张与实体火车票类似的电子卡片中进行显示。
短信卡片的显示效果依赖于提取模板的提取准确性,若提取模板对关键信息项的提取存在遗漏,比如没有提取到座位号,就会导致用户无法获知一部分信息。相关技术中,需要用户向开发人员反馈短信卡片的提取错误后,由开发人员对提取模板进行修改,使得提取模板的提取变得更准确。
发明内容
为了解决提取模板在短信中提取关键信息项时,可能会存在遗漏的问题,本公开提供一种模板检验方法及装置。所述技术方案如下:
根据本公开的第一方面,提供了一种模板检验方法,该方法包括:
获取提取模板对应的关键信息项集合,提取模板是用于从通信消息中提取关键信息项的模板,关键信息项集合包括提取模板提取的至少一个关键信息项;
获取属于预定分类的通信消息的有效分词集合,预定分类是与提取模板对应的通信消息分类,有效分词集合包括从通信消息的分词结果中筛选出的至少一个有效分词;
检测有效分词在关键信息项集合中是否存在匹配的关键信息项;
若不存在匹配的关键信息项,则确定提取模板存在遗漏的关键信息项。
可选地,获取属于预定分类的通信消息的有效分词集合,包括:
获取属于预定分类的至少一条通信消息;
将通信消息进行分词,得到全量分词集合;
使用提取模板对通信消息进行提取,得到提取词语集合;
将全量分词集合与提取词语集合相减,得到差集;
将差集中的分词进行过滤,得到有效分词集合。
可选地,将差集中的分词进行过滤,得到有效分词集合,包括:
将差集中符合预设词性的词语进行滤除,得到有效滤除集合;
和/或,
将差集中符合预设过滤词的词语进行滤除,得到有效分词集合;
其中,预设词性是无效分词对应的词性,预设过滤词是预先为预定分类所设置的过滤词。
可选地,检测有效分词在关键信息项集合中是否存在匹配的关键信息项,包括:
检测关键信息项集合中是否存在第一关键信息项,第一关键信息项与有效分词的字符串相同;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米移动软件有限公司,未经北京小米移动软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611100661.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种民航安保舆情情感分析方法
- 下一篇:一种内容提取方法及装置