浏览量:0

一种针对无损压缩文件的数据去重方法

专利类型:发明专利 

语 言:中文 

申 请 号:CN201610213219.9 

申 请 日:20160405 

发 明 人:谭玉娟晏志超 

申 请 人:重庆大学 

申请人地址:400044 重庆市沙坪坝区沙正街174号 

公 开 日:20160831 

公 开 号:CN105912622A 

代 理 人: 

代理机构: 

摘  要:本发明提出一种针对无损压缩文件的数据去重方法。该方法利用压缩文件本身存在的数据完整性校验码,如循环冗余校验码(CRC校验码),作为文件签名(File?Signature)来识别重复的压缩文件。在冲突率的要求限制下,也可以提取其他文件属性,如文件长度,将文件长度和校验码一起作为文件签名来识别重复文件。若压缩文件本身不存在校验码,则通过计算提取校验码或者使用哈希算法计算出哈希值作为文件签名进行重复文件的识别。该方法还可以与已有的重复数据删除技术结合起来,填补无法对压缩文件进行数据去重的技术空白。 

主 权 项:本发明提出一种针对无损压缩文件的数据去重方法。具体步骤为:(1)提取压缩包里每个压缩文件的文件签名(File?Signature),具体步骤为:(1.1)提取每个压缩文件现有的数据完整性校验码,如循环冗余校验码(CRC校验码),作为文件签名。在冲突率的要求限制下,也可以提取其他文件属性,如文件长度,将文件长度和校验码一起作为文件签名。(1.2)若压缩文件本身不存在校验码,则计算压缩文件(压缩之前的原始文件)的校验码作为文件签名。(1.3)除了使用校验码之外,也可以采用哈希算法,如MD5,SHA?1等,计算压缩文件(压缩之前的原始文件)的哈希值作为文件签名。(2)若存在两个文件的文件签名相同,则标记为重复文件,否则标记为非重复文件。具体步骤为:(2.1)在文件签名库(File?Signature?store)里查找是否具有(1)得出的文件签名。(2.2)若在文件签名库里找到(1)得到的文件签名,则标识(1)中的对应的文件为重复文件,不需要存储或传输该文件内容。(2.3)若在文件签名库里没有找到(1)得到的文件签名,则标识(1)中的对应的文件为非重复文件,并将(1)得到的文件签名存储至文件签名库。(2.4)若和已有的重复数据删除方法相结合,则(2.1)、(2.2)和(2.3)可以使用已有的重复数据删除方法的文件签名库。(3)去除(2)中识别出的重复文件,构建新的压缩包以及压缩包谱。其中新压缩包是指在(1)所指的压缩包中去除(2.2)识别出的重复文件之后重新构建的新压缩包。压缩包谱则描述(1)所指的压缩包由哪些文件组成,方便以后恢复(1)所指的压缩包。(4)若和系统已有的重复数据删除方法相结合,则转入已有的重复数据删除步骤,否则,去重过程结束。 

关 键 词: 

法律状态:公开 

IPC专利分类号:G06F17/30(2006.01)I