[发明专利]在中文语境中检索关键词的方法、装置及设备有效
| 申请号: | 202211330466.9 | 申请日: | 2022-10-28 |
| 公开(公告)号: | CN115391495B | 公开(公告)日: | 2023-01-24 |
| 发明(设计)人: | 王利烨;韩亚林;徐捷;田恒 | 申请(专利权)人: | 强企宝典(山东)信息科技有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/31;G06F40/126 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 250000 山东省济南市中国(山东)*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 中文 语境 检索 关键词 方法 装置 设备 | ||
1.一种在中文语境中检索关键词的方法,所检索的关键词由两个或两个以上的汉字构成,其特征在于,所述的方法包括如下步骤:
在计算机存储器中创建一个字库字频表,在该字库字频表的数据库中记载经过中文语料库统计之后的对应于汉字库中每个汉字的使用频度数值;
根据所述字库字频表数据库中的记载,并结合数据库记录的编址方式,通过对字库字频表的读操作,分别查询所检索关键词构成中每个汉字对应的使用频度数值;
将所检索关键词构成中每个汉字对应的使用频度数值按照由小到大的顺序依次排序,生成关键词字频排序表;
在待检索中文语境中,从文本的首字符位置开始一直到文本的尾部位置,将文本中任一汉字位置开始的一个连续汉字串都与检索关键词进行一轮单字比较,并且在检索关键词的每轮单字比较中,均以所生成的关键词字频排序表所表示的单字排列顺序,作为对检索关键词构成中各汉字之间与检索文本中对应位置字符作对比的先后顺序;
所述字库字频表中记载的各汉字的使用频度数值,随着用户检索操作对各种检索文本的不断涉猎而持续更新;所述持续更新的过程为:在检索关键词的匹配过程中,将所读取的检索文本中的每一个汉字,查询其在字库字频表中的相应记录位置,并在该位置记载的该汉字原使用频度数值的基础上做加1运算。
2.根据权利要求1所述的在中文语境中检索关键词的方法,其特征在于,所述创建一个字库字频表的过程,包括以下步骤:
确立字库标准,该标准限于汉字库的国标文件或政府文件;
采集中文语料,该中文语料为现代汉语且所含汉字总数达百万以上;
统计字频数值,该字频数值为汉字库中每个汉字在中文语料库中出现的总次数。
3.根据权利要求1所述的在中文语境中检索关键词的方法,其特征在于,所述关键词字频排序表,表示为检索关键词构成中每个汉字在该构成中位序数值的序列,并将每个位序数值依次储存在一个一维的整型数组中,通过该整型数组下位地址依次递增时所对应数组元素值的不断变化,形成检索关键词的每轮匹配运算中对其构成中各汉字的比较顺序,即所述关键词字频排序表所代表的汉字对比顺序。
4.根据权利要求1所述的在中文语境中检索关键词的方法,其特征在于,所述待检索中文语境包括保存于计算机本地或服务器网页的一份单独文件的中文文本,或其一份文件内指定范围的中文文本,或其多份文件整体构成的中文文本。
5.根据权利要求1所述的在中文语境中检索关键词的方法,其特征在于,在检索关键词的每轮单字比较过程中,一旦发现任一对应位置的两个单字不同,直接退出当前一轮的比较,只有当检索文本中的一个连续字符串与整个中文检索关键词在汉字构成与汉字顺序上完全相同,才认定当前一轮匹配的成功,直至将检索文本全文中所有与中文检索关键词等长的连续字符串与该中文检索关键词比较完毕。
6.根据权利要求1-5任意一项所述的在中文语境中检索关键词的方法,其特征在于,所述字库字频表的编址方式为:由字库字频表的汉字库中任一汉字在计算机存储中的机内码自身数值,经过对一个常量数值的加减法运算后,直接编排为该汉字的使用频度数值在字库字频表中的对应存储位置,当要查询或更新字库字频表中某个汉字的使用频度数值时,通过基于该汉字机内码数值自身的加减法运算,直接推断出该汉字使用频度数值在字库字频表中的存储位置。
7.根据权利要求6所述的在中文语境中检索关键词的方法,其特征在于,所述字库字频表的字库标准采用GB/T2312-1980《信息交换用汉字编码字符集 基本集》所收录的6763汉字集,或者GB/T12345-1990《信息交换用汉字编码字符集 辅助集》所收录的6866汉字集,并且以二维数组的矩阵结构来存储上述字库中每个汉字所对应的使用频度数值,当在该二维数组矩阵中对一个汉字的使用频度数值进行读操作或写操作时,获取保存该汉字使用频度数值的数组元素在二维数组矩阵中行、列地址的方法是,由该汉字机内码的高、低字节的16进制数值,对应做“-B0H”、“-A1H”的减法运算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于强企宝典(山东)信息科技有限公司,未经强企宝典(山东)信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211330466.9/1.html,转载请声明来源钻瓜专利网。





