[发明专利]使用语言查询的文本分析系统和方法有效

申请号：	201310330423.5	申请日：	2013-07-31
公开（公告）号：	CN104346382B	公开（公告）日：	2017-08-29
发明（设计）人：	倪伟定;蔡日星;蔡一帆	申请（专利权）人：	香港理工大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	深圳市瑞方达知识产权事务所(普通合伙)44314	代理人：	纪媛媛,张秋红
地址：	中国香港***	国省代码：	香港;81
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	使用语言查询文本分析系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于计算机科学领域中的网络分支，具体涉及一种使用语言查询的文本分析系统和方法，适用于网络信息提取、商业情报挖掘、信息聚合、网络知识库建立等应用领域。

背景技术

随着互联网的高速发展，网络上的信息呈爆炸式增长，人们越来越习惯在网络上获取信息。然而，由于网络上的信息太多，即使有了网络搜索工具，人们还很难找到所需要的信息。此外，网络上也经常出现许多不相干的噪音信息，尽管很多信息是能被检索到，但其内容可能是不相干或不准确的。

因此，人们希望出现一种智能工具，根据用户的意愿，帮助人们摈除噪音，在大量的信息中，筛选出真正需要的信息。

传统的自然语言处理（NLP）系统，能利用自然语言处理技术，如分词性标注，分类树，同义词，索引典等，从文本的内容，提取当中的意义。大量的计算机程序也因此被开发出来，以从这些经NLP加工后的文本内容，提取知识。但是，计算机程序的开发通常是非常耗时。此外，随着时间推移，便需要更多的计算机程序以提取新的知识，这使整个分析系统的维护费用变得昂贵。在很多时候，由于被提取的知识是含糊不清，还需要人工核实和校正。

中国发明专利申请申请号为200810142630.7和200910104805.X提出利用分类树对文本进行分析的文本分析系统。然而，该系统高度依赖于博客或网页的结构，以作为系统的输入。对于许多文本分析系统，由于内容的来源（如从不同新闻网站的新闻文章，微博的内容）可能不具有良好或相同的结构，这意味着每一个网站或每一个网页便需要相对应的规则。此外，该内容的来源结构可能随时间而发生变更，所以每当该结构发生变化时，分类树也必需重建，这都是不具有成本效益的。

美国专利申请公开号2011/019671和PCT国际公布号WO2012/099970A1提出品牌估值系统。该系统收集品牌网站销售和传输数据，以评估品牌的价值。它也试图比较不同品牌，以创建在某一个行业的品牌指数。但该系统的问题是，收集竞争对手网站的销售和流量数据是相当困难的。从理论上，如果一个组织可以从不同公司收集得到数据，该指数是可以被建立的。然而在实际上，因为销售数据通常是高度保密，所以这是不可行的。

发明内容

根据以上问题，本发明公开了一种使用语言查询的文本分析系统和方法。本发明使用中文分词（Chinese Segmentation）和语言查询语言（Linguistics Query Language，LQL）技术。透过中文分词，能对中文文本进行词的切分，并对所切分出的词进行词性标注（Part-of-Speech，POS Tagging）。LQL技术能对该被切分和被词性标注的中文文本，作进一步分析，以提取所需的知识。

根据本发明的一个方面，提供了一种使用语言查询的文本分析系统，所述系统包括：

文本内容输入模块，用于输入中文文本于所述的文本分析系统；

中文分词模块，用于对该中文文本进行词的切分；

词性标注模块，用于对该被切分出的词，标注上词性标签；

应用词典数据库，包括一个或多个应用词典，该应用词典包括一个或多个关键词；

语言查询语言（LQL）规则数据库，用于储存一个或多个LQL规则，其中，该LQL规则的设定包括：

定义被提取的知识在该中文文本中的位置（Extraction Position）；

定义覆盖范围（Coverage），该覆盖范围是一个句子，一个段落或一个文档；

定义一个或多个匹配条件（MatchCriteria），该匹配条件是短语列表（Phrase List）或具有特定词性标注的词（WORD POS）；

定义匹配模式（MatchPattern），该匹配模式是用于定义匹配条件，当该匹配条件是短语列表时，其匹配模式是一个档案名称，该档案名称指向在该应用词典内的一个或多个关键词，当该匹配条件是该具有特定词性标注的词时，其匹配模式是词性标签；

LQL分析模块，根据该LQL规则，用于对该被切分和被词性标注的中文文本，进行LQL分析，并提取所需的知识，其中，该LQL分析包括：

确立该LQL规则所定义的覆盖范围；