软损坏PDF文件的修复技术（PDF结构简介）_硬盘数据恢复论坛_硬盘基地

dgtan 发表于 2009-7-27 19:34:45

软损坏PDF文件的修复技术（PDF结构简介）

１引言
ＰＤＦ文件目前已成为网络上最为广泛流行的一种文件格
式，由于文件在网络上载和下载的过程受网络不稳定的影响，
常常出现文件的损坏。常见情况包括：文件字节的丢失（如网络
传输丢包）、错误（如磁盘损坏）或者增加（如病毒感染）这几种
情况。
在信息安全领域，ＰＤＦ文件的修复技术有着非常重要的意
义，主要体现在两个方面：第一，该技术是信息安全服务领域中
的一项重要内容。通过该修复技术可以将受损的ＰＤＦ文件中
的文本内容和文件信息提取出来，尽可能减轻用户损失；第二，
该技术还是不良信息过滤的必要基础。通过该技术，可以提取
出ＰＤＦ的纯文本信息，并移交给后续过滤模块处理。
对于ＰＤＦ文件的修复，目前国外内尚未有真正意义上的
解决技术及相关解决方案。由于ＰＤＦ文件结构的复杂性和多
样性，要实现确实可行的修复工具和技术方案困难很大。
ＡｄｏｂｅＡｃｒｏｂａｔ浏览器对ＰＤＦ文件的修复功能也相当有限，仅
限于对那些与页面显示关系不大的信息损坏（如那些可有可无
的附带文件信息：著者、创建时间等）或冗余的信息的丢失（如
一些不重要的操作符／标识符）。
本文所探讨的ＰＤＦ修复技术已作为上海交通大学承接的
上海市科学技术委员会攻关项目《“软损坏”文件修复系统》（项
目编号：０３５１１５０１５）的文件修复模块之一，已得到证实和应用。
２ＰＤＦ文件结构简介
结构化的文档格式ＰＤＦ（ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ）是由
美国排版与图像处理软件公司Ａｄｏｂｅ于１９９３年首次提出的。
它从页面描述语言ＰＳ（ＰｏｓｔＳｃｒｉｐｔ）发展而来，具有与ＰＳ几乎相
同的页面描述能力和相似的描述方法。但与ＰＳ不同的是，
ＰＤＦ除了能描述复杂版面外，还具有交互功能（如超链接、交
互表单等）、页面随机存取及字体仿真描述等特性。
２．１ＰＤＦ的文件结构及损害对文件打开显示的影响
ＰＤＦ的文件结构（即物理结构）包括四个部分：文件头、文
件体、交叉引用表和文件尾。
文件头（Ｈｅａｄｅｒ）指明了该文件所遵从ＰＤＦ规范的版本号，
它出现在ＰＤＦ文件的第一行。％ＰＤＦ－１．２表示该文件格式符
合ＰＤＦ１．２规范，如果丢失或损坏这部分信息，ＰＤＦ阅读器无法
确认文件的版本信息，将被认为非法的ＰＤＦ文件，报告出一个
不支持的文件类型的错误，不显示文件的任何信息。
文件体（Ｂｏｄｙ）由一系列的ＰＤＦ间接对象组成。这些间接
对象构成了ＰＤＦ文件的具体内容如字体、页面、图像等等。如
果丢失或损坏这部分信息，会造成部分信息（文本或图片）无法
显示或无法正常显示。
交叉引用表（Ｃｒｏｓｓ－ｒｅｆｅｒｅｎｃｅＴａｂｌｅ）则是为了能对间接对
象进行随机存取而设立的一个间接对象地址索引表。如果丢失
或损坏这部分信息，意味着损坏整个ＰＤＦ文件的各部分信息
的定位，ＰＤＦ阅读器无法根据交叉引用表找到ＰＤＦ页面显示
所要的信息存放的位置，将报告为一个文件打开时发生错误，
严重时将不显示任何信息。
文件尾（Ｔｒａｉｌｅｒ）声明了交叉引用表的地址，指明文件体的
根对象（Ｃａｔａｌｏｇ），还保存了加密等安全信息。根据文件尾提供
的信息，ＰＤＦ的浏览器可以找到交叉引用表和整个ＰＤＦ文件
的根对象，从而实现整个ＰＤＦ文件的随机存取。如文件尾部的
损坏将报告为一个文件打开时发生错误，不显示任何信息。
２．２ＰＤＦ的文档主体简介
ＰＤＦ文件主体文档架构反映了文件体中间接对象间的等
级层次关系。ＰＤＦ的文档结构是一种树型结构，树的根节点就
是ＰＤＦ文件的根对象（Ｃａｔａｌｏｇ）。根节点下有四个子树：页面树
（ＰａｇｅｓＴｒｅｅ）、书签树（ＯｕｔｌｉｎｅＨｉｅｒａｒｃｈｙ）、线程树（ＡｒｔｉｃｌｅＴｈｒｅａｄｓ）、名字树（ＮａｍｅｄＤｅｓｔｉｎａｔｉｏｎ）。

dgtan 发表于 2009-7-27 19:36:54

沙发自己拿下了，此文为抛砖引玉，如果有哪位朋友有完整版的的PDF数据结构希望可以发出来共享一下，感激！

dong31680 发表于 2009-7-28 01:02:38

这个很少人会的再说修复的活很少大家要吃饭所以研究的人也少

dgtan 发表于 2009-7-28 08:26:30

pdf檔運用也是比較廣泛的,損壞也是常有的事...

xulemeng 发表于 2009-7-28 08:44:07

不错，支持楼主！！！！！！！！！

xiongdeyuan 发表于 2009-7-28 13:12:28

不错，支持楼主

chengongzc 发表于 2009-7-28 23:26:33

这个不错啊

页: [1]

硬盘基地's Archiver

软损坏PDF文件的修复技术（PDF结构简介）