[发明专利]一种基于最小编辑距离的半结构化文本匹配方法有效
申请号: | 201410257734.8 | 申请日: | 2014-06-11 |
公开(公告)号: | CN104008187B | 公开(公告)日: | 2017-02-01 |
发明(设计)人: | 赵宇;高升;郭军 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于自然语言处理领域,提出一种基于最小编辑距离的半结构化文本匹配方法。该方法包括如下步骤一、对数据进行预处理;二、离线训练,确定对数似然率算法和左右熵算法阈值;三、结合这两种算法,在线为待评测的半结构化文本中非结构化文本抽取多词表达集合;四、利用抽取的多词表达集合,加上原评测文本中的结构化串,得到该文本的基于多词表达集合的文本表达;五、利用基于最小编辑距离的半结构化文本匹配方法,计算输入的半结构化文本和待匹配的半结构化文本的匹配度;六、以特征集合的相似度来衡量文本的匹配度,输出排序结果(Top‑N)。利用本发明实施例,能够提高半结构化文本的匹配准确度,具有很大的实用价值。 | ||
搜索关键词: | 一种 基于 最小 编辑 距离 结构 文本 匹配 方法 | ||
【主权项】:
一种基于最小编辑距离的半结构化文本匹配方法,其特征在于,包括以下步骤:⑴对数据进行预处理,把半结构化文本分成两部分:结构化文本和非结构化文本,并对结构化文本进行分词处理;⑵离线训练:根据对数似然率算法和左右熵算法,抽取训练数据的非结构化文本部分中的多词表达,来确定对数似然率算法和左右熵算法的阈值;⑶根据对数似然率算法和左右熵算法,并利用离线训练出的对数似然率算法和左右熵算法的阈值,在线地为每一个待测试的半结构化文本中非结构化文本抽取一个多词表达集合;⑷利用上一步抽取的多词表达集合,再加上这些文本中的原结构化串,得到该文本的基于多词表达集合的文本表达,用多词表达集合和结构化字符串来表征文本;⑸利用基于最小编辑距离的半结构化文本匹配方法,计算输入的半结构化文本和待匹配的半结构化文本的相似度;⑹以特征集合的相似度来衡量文本的相似度,对计算出的相似度按从大到小排序,输出排序结果,最靠前表示相似度最强,最靠后表示相似度最弱。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410257734.8/,转载请声明来源钻瓜专利网。