[发明专利]使用语言查询的文本分析系统和方法有效
申请号: | 201310330423.5 | 申请日: | 2013-07-31 |
公开(公告)号: | CN104346382B | 公开(公告)日: | 2017-08-29 |
发明(设计)人: | 倪伟定;蔡日星;蔡一帆 | 申请(专利权)人: | 香港理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 深圳市瑞方达知识产权事务所(普通合伙)44314 | 代理人: | 纪媛媛,张秋红 |
地址: | 中国香港*** | 国省代码: | 香港;81 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 语言 查询 文本 分析 系统 方法 | ||
1.一种使用语言查询的文本分析系统,其特征在于,所述系统包括:
文本内容输入模块,用于输入中文文本于所述的文本分析系统;
中文分词模块,用于对该中文文本进行词的切分;
词性标注模块,用于对该被切分出的词,标注上词性标签;
应用词典数据库,包括一个或多个应用词典,该应用词典包括一个或多个关键词;
语言查询语言LQL规则数据库,用于储存一个或多个LQL规则,其中,该LQL规则的设定包括:
定义被提取的知识在该中文文本中的位置(Extraction Position);
定义覆盖范围(Coverage),该覆盖范围是一个句子,一个段落或一个文档;
定义一个或多个匹配条件(MatchCriteria),该匹配条件是短语列表(Phrase List)或具有特定词性标注的词(WORD POS);
定义匹配模式(MatchPattern),该匹配模式是用于定义匹配条件,当该匹配条件是短语列表时,其匹配模式是一个档案名称,该档案名称指向在该应用词典内的一个或多个关键词,当该匹配条件是该具有特定词性标注的词时,其匹配模式是词性标签;
LQL分析模块,根据该LQL规则,用于对该被切分和被词性标注的中文文本,进行LQL分析,并提取所需的知识,其中,该LQL分析包括:
确立该LQL规则所定义的覆盖范围;
根据该LQL规则的匹配条件所定义的词性标签,在该被切分和被词性标注的中文文本,找出具有该词性标签的词;
根据该LQL规则的匹配条件所定义的关键词,在该被切分和被词性标注的中文文本,找出与该关键词相同的词;
当在该覆盖范围中,该匹配条件能得到满足,根据该LQL规则所定义的被提取知识在中文文本中的位置,提取一个或多个词;
被提取知识数据库,用于储存该被提取的知识。
2.根据权利要求1所述的文本分析系统,其特征在于,所述系统还包括:
错误校正规则数据库,用于储存一个或多个错误校正规则;
错误校正模块,能使用该错误校正规则,对被提取的知识,进行错误校正分析,以删除错误被提取的知识,增加所述被提取的知识的准确性。
3.根据权利要求2所述的文本分析系统,其特征在于,该错误校正规则包括设定一个或多个数值和一个或多个数值比较要求,该错误校正模块对被提取的知识进行统计,取得统计值,并和该数值比较,当该被提取的知识的该统计值不符合该数值比较要求,该被提取的知识会被删除。
4.根据权利要求3所述的文本分析系统,其特征在于,该统计值包括被提取知识的来源数目、被提取知识的数目或被提取知识的数目占所有被提取知识数目的百分比。
5.根据权利要求3所述的文本分析系统,其特征在于,该数值包括被提取知识来源数目的阈值、被提取知识数目的阈值或被提取知识的数目占所有被提取知识数目的百分比的阈值,该数值比较要求是比较该统计值和该数值,该统计值大于、小于或者等于该数值。
6.根据权利要求1所述的文本分析系统,其特征在于,所述系统还包括:
文本语法分析模块,用于分析该中文文本的语法;
中文分词词典,包括术语列表,该术语列表中的术语具有词性标注和该词性标注出现的频率,用于对该中文文本进行词的切分和词性标注;
LQL规则输入界面,用于让使用者设定LQL规则;
应用词典输入界面,用于让使用者设定应用词典。
7.根据权利要求2所述的文本分析系统,其特征在于,所述系统还包括:
错误校正规则输入界面,用于让使用者输入错误校正规则。
8.根据权利要求1所述的文本分析系统,其特征在于,该中文文本是在互联网被获取的。
9.根据权利要求8所述的文本分析系统,其特征在于,使用应用程序界面或网络搜索器以获取该在互联网上的中文文本。
10.根据权利要求1所述的文本分析系统,其特征在于,使用维特比算法或前向算法以对被切分出的词进行词性标注。
11.根据权利要求1所述的文本分析系统,其特征在于,该匹配条件还包括不具有特定的词性标注的词(WORD NOT POS),其匹配模式是词性标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于香港理工大学,未经香港理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310330423.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种生物炭缓释钾肥及其制备方法
- 下一篇:一种生物酶活化磷钾肥及其制备方法