[发明专利]编码存储方法、文本存储数据结构以及文本压缩存储和统计输出方法有效
| 申请号: | 201610086498.7 | 申请日: | 2016-02-15 |
| 公开(公告)号: | CN105938469B | 公开(公告)日: | 2019-04-23 |
| 发明(设计)人: | 陈燕 | 申请(专利权)人: | 大连海事大学 |
| 主分类号: | G06F17/22 | 分类号: | G06F17/22 |
| 代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 李馨;李洪福 |
| 地址: | 116026 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了编码存储方法、文本存储数据结构以及文本压缩存储和统计输出方法,核心基于为大写字母和必要的标点符号设定32进制的用户编码。将单词中每三个字符对应的32进制用户编码转换为二进制后存储在一十六位二进制存储单元中。文本存储数据结构,将文本存于一散列树中,该散列树包含:32进制用户编码顺序对应的多个表节点;每个表节点为一级链表的首节点,所述一级链表中存储文本中全部相同首字母的单词或存储相同字符;作为所述一级链表中后续结点的单词节点,该单词节点包括记录单词长度和文本中重复单词数量的字段;每个单词节点为二级链表的首节点;作为所述二级链表中后续节点的存储节点,每个存储节点为存储应用权利要求2所述编码存储方法中所述规则划分的当前单词和重复单词的字符组的二进制存储单元。 | ||
| 搜索关键词: | 编码 存储 方法 文本 数据结构 以及 压缩 统计 输出 | ||
【主权项】:
1.一种编码存储方法,其特征在于具有如下步骤:—为大写字母A‑Z和至少包含“,”、“。”、“?”和“!”的句终结符设定从1开始至32结束的32进制用户编码;—将小写的字母转换为大写字母;—将单词中每三个字符对应的32进制用户编码转换为二进制后存储在一十六位二进制存储单元中,所述转换的规则如下:—定义单词的首字母为最高位字符,单词的末尾字母为最低位字符;—对于字符数量超过3个的单词,由最高位字符开始,每三个字符划分为一个字符组,剩余数量少于3个的字符划分一字符组;对于字符数量少于3个的单词,直接划分为一字符组;—转换为二进制时,字符组中的字符按由字符组内末尾字符至首位字符的转换权值依次为32的0次方、1次方和2次方的规则转换为二进制数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610086498.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于Hbase连接池的使用方法和装置
- 下一篇:数据备份方法以及装置





