[发明专利]一种左右递归新词发现方法在审

申请号：	201611152464.X	申请日：	2016-11-30
公开（公告）号：	CN106649666A	公开（公告）日：	2017-05-10
发明（设计）人：	尹云飞;刘欢;曾亚飞	申请（专利权）人：	浪潮电子信息产业股份有限公司;重庆大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	250101 山东省济南***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种左右递归新词发现方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种左右递归新词发现方法，包括语料预处理[1]、位置集合计算[2]、集合遍历[3]、收纳性判断[4]、词频计算[5]、左递归[6]、右递归[7]、合并[8]八个步骤：

语料预处理[1]：通过正则过滤、全半角转换、空白符号删除、无关特殊符删除、非文本删除、断句切分对输入语料进行处理；

位置集合计算[2]：计算输入语料中的字在输入语料中出现的位置；

集合遍历[3]：遍历位置集合；

收纳性判断[4]：判断位置集合中的每一个元素是否满足收纳规则的要求；

词频计算[5]：计算每一个字出现的频次；

左递归[6]：针对每一个字，依次取其左边的字组成新词并进行判断；

右递归[7]：针对每一个字，依次取其右边的字组成新词并进行判断；

合并[8]：将左递归发现的新词集合与右递归发现的新词集合进行合并。

2.根据权利要求1所述的一种左右递归新词发现方法，其特征在于：语料预处理[1]通过正则过滤、全半角转换、空白符号删除、无关特殊符删除、非文本删除、断句切分对输入语料进行处理；其中，正则过滤是删除语料中包含的Html标签、Xml标签；全半角转换是将语料中的全角符号转换成半角符号、将中文的繁体转换成简体；空白符号删除是删除语料中多余的空格、换行符、制表符；无关特殊符删除是删除语料中包含的ASCII编码、特殊领域编码、乱码符号；非文本删除是删除文本中的图片、声音、视频数据；断句切分是根据句号、感叹号、问号、省略号、分号、空格、换行符将语料切分成一个一个的句子；为了避免语料中大量完全相同的句子对新词指标计算造成的误差，对切分好的句子进行Hash求值，并将Hash码完全相同的句子去重。

3.根据权利要求1所述的一种左右递归新词发现方法，其特征在于：位置集合计算[2]计算输入语料中的字在输入语料中出现的位置；其中位置集合的计算公式为：

$<mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><mi>W</mi><mo>{</mo><mrow><mo>(</mo><msub><mi>w</mi><mn>1</mn></msub><mo>,</mo><msub><mi>POS</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>,</mo><mrow><mo>(</mo><msub><mi>w</mi><mn>2</mn></msub><mo>,</mo><msub><mi>POS</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>,</mo><mn>...</mn><mrow><mo>(</mo><msub><mi>w</mi><mi>i</mi></msub><mo>,</mo><msub><mi>POS</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>,</mo><mn>...</mn><mo>,</mo><mrow><mo>(</mo><msub><mi>w</mi><mi>m</mi></msub><mo>,</mo><msub><mi>POS</mi><mi>m</mi></msub><mo>)</mo></mrow><mo>}</mo></mrow></mtd></mtr><mtr><mtd><mrow><msub><mi>POS</mi><mi>i</mi></msub><mo>=</mo><mo>{</mo><msub><mi>w</mi><mi>i</mi></msub><msub><mi>pos</mi><msub><mi>i</mi><mn>1</mn></msub></msub><mo>,</mo><msub><mi>w</mi><mi>i</mi></msub><msub><mi>pos</mi><msub><mi>i</mi><mn>2</mn></msub></msub><mo>,</mo><mn>...</mn><mo>,</mo><msub><mi>w</mi><mi>i</mi></msub><msub><mi>pos</mi><msub><mi>i</mi><mi>n</mi></msub></msub><mo>}</mo></mrow></mtd></mtr></mtable></mfenced>$

其中w₁，w₂，…，w_m表示输入语料中出现过且互不相同的字；(w_i，POS_i)表示一个集合而是该集合的一个元素，表示第i个字w_i在输入语料中第j次出现的位置；表示第i个字w_i在位置出现过。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司;重庆大学，未经浪潮电子信息产业股份有限公司;重庆大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201611152464.X/1.html，转载请声明来源钻瓜专利网。

上一篇：取证塔专用工作台(ED‑SP9307)
下一篇：一种基于向量模型的海量时空数据检索方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种左右递归新词发现方法在审

专利文献下载