WEB开发网
开发学院网络安全黑客技术 压缩与脱壳-PE文件格式 三 阅读

压缩与脱壳-PE文件格式 三

 2007-01-12 20:12:11 来源:WEB开发网   
核心提示:分析 : 本例重用了 PE 教程 2 的代码,校验 PE 文件的有效性后,压缩与脱壳-PE文件格式 三,继续调用函数 ShowSectionInfo 显示各节信息,ShowSectionInfo proc uses edimov edi, pMappingassume edi:ptr IMAGE_DOS_HEADERa

分析 :

本例重用了 PE 教程 2 的代码,校验 PE 文件的有效性后,继续调用函数 ShowSectionInfo 显示各节信息。

ShowSectionInfo proc uses edi
mov edi, pMapping
assume edi:ptr IMAGE_DOS_HEADER
add edi, [edi].e_lfanew
assume edi:ptr IMAGE_NT_HEADERS

我们将 edi 用作指向 PE 文件数据的指针。首先,将指向 DOS header 地址的 pMapping 赋给 edi ,再加上 e_lfanew 域值等于 PE header 的地址。

mov ax,[edi].FileHeader.NumberOfSections

mov NumberOfSections,ax

因为我们要遍历节表,所以必须先获取文件的节数目。这就得靠 file header 里的 NumberOfSections 域了,切记这是个 word 域。

add edi,sizeof IMAGE_NT_HEADERS

现在 edi 正指向 PE header 的起始地址,加上 PE header 结构大小后恰好指向节表了。

invoke DialogBoxParam, hInstance, IDD_SECTIONTABLE,NULL, addr DlgProc, edi

调用 DialogBoxParam 显示列表对话框,注意我们已将节表地址作为最后一个参数传递过去了,该值可从 WM_INITDIALOG 消息的 lParam 参数中提取。

在对话框过程里我们响应 WM_INITDIALOG 消息,将 lParam 值 ( 节表地址 ) 存入 esi ,节数目赋给 edi 并设置列表控件。万事俱备后,进入循环将各节信息插入到列表控件中,这部分相当简单。

.while edi>0

mov lvi.iSubItem,0

字符串置入第一列。

invoke RtlZeroMemory,addr buffer,9
invoke lstrcpyn,addr buffer,addr [esi].Name1,8
lea eax,buffer
mov lvi.pszText,eax

要显示节名,当然要将其转换为 ASCIIZ 字符串先。

invoke SendDlgItemMessage,hDlg,IDC_SECTIONLIST,LVM_INSERTITEM,0,addr lvi

然后显示第一列。

继续我们伟大的工程,显示完本节中最后一个欲呈现的值后,立马下一个结构。

dec edi
add esi, sizeof IMAGE_SECTION_HEADER
.endw

每处理完一节就递减 edi ,然后将 esi 加上 IMAGE_SECTION_HEADER 结构大小,使其指向下一个 IMAGE_SECTION_HEADER 结构。

遍历节表的步骤 :

PE 文件有效性校验。 定位到 PE header 的起始地址。 从 file header 的 NumberOfSections 域获取节数。 通过两种方法定位节表 : ImageBase + SizeOfHeaders 或者 PE header 的起始地址 + PE header 结构大小。 ( 节表紧随 PE header) 。如果不是使用文件映射的方法,可以用 SetFilePointer 直接将文件指针定位到节表。节表的文件偏移量存放在 SizeOfHeaders 域里。 ( SizeOfHeaders 是 IMAGE_OPTIONAL_HEADER 的结构成员 ) 处理每个 IMAGE_SECTION_HEADER 结构。 PE 教程 6: Import Table (引入表)

本课我们将学习引入表。先警告一下,对于不熟悉引入表的读者来说,这是一堂又长又难的课,所以需要多读几遍,最好再打开调试器来好好分析相关结构。各位,努力啊!

下载 范例 。

理论 :

首先,您得了解什么是引入函数。一个引入函数是被某模块调用的但又不在调用者模块中的函数,因而命名为 "import (引入) " 。引入函数实际位于一个或者更多的 DLL 里。调用者模块里只保留一些函数信息,包括函数名及其驻留的 DLL 名。现在,我们怎样才能找到 PE 文件中保存的信息呢 ? 转到 data directory 寻求答案吧。再回顾一把,下面就是 PE header:

IMAGE_NT_HEADERS STRUCT
Signature dd ?
FileHeader IMAGE_FILE_HEADER <>
OptionalHeader IMAGE_OPTIONAL_HEADER <>
IMAGE_NT_HEADERS ENDS

optional header 最后一个成员就是 data directory (数据目录) :

IMAGE_OPTIONAL_HEADER32 STRUCT
....
LoaderFlags dd ?
NumberOfRvaAndSizes dd ?
DataDirectory IMAGE_DATA_DIRECTORY 16 dup(<>)
IMAGE_OPTIONAL_HEADER32 ENDS

data directory 是一个 IMAGE_DATA_DIRECTORY 结构数组,共有 16 个成员。如果您还记得节表可以看作是 PE 文件各节的根目录的话,也可以认为 data directory 是存储在这些节里的逻辑元素的根目录。明确点, data directory 包含了 PE 文件中各重要数据结构的位置和尺寸信息。 每个成员包含了一个重要数据结构的信息。

Member Info inside
0 Export symbols
1 Import symbols
2 Resources
3 Exception
4 Security
5 Base relocation
6 Debug
7 Copyright string
8 Unknown
9 Thread local storage (TLS)
10 Load configuration
11 Bound Import
12 Import Address Table
13 Delay Import
14 COM descriptor

上面那些金色显示的是我熟悉的。了解 data directory 包含域后,我们可以仔细研究它们了。 data directory 的每个成员都是 IMAGE_DATA_DIRECTORY 结构类型的,其定义如下所示 :

IMAGE_DATA_DIRECTORY STRUCT
VirtualAddress dd ?
isize dd ?
IMAGE_DATA_DIRECTORY ENDS

VirtualAddress 实际上是数据结构的相对虚拟地址 (RVA) 。比如,如果该结构是关于 import symbols 的,该域就包含指向 IMAGE_IMPORT_DESCRIPTOR 数组的 RVA 。

isize 含有 VirtualAddress 所指向数据结构的字节数。

下面就是如何找寻 PE 文件中重要数据结构的一般方法 :

从 DOS header 定位到 PE header 从 optional header 读取 data directory 的地址。 IMAGE_DATA_DIRECTORY 结构尺寸乘上找寻结构的索引号 : 比如您要找寻 import symbols 的位置信息,必须用 IMAGE_DATA_DIRECTORY 结构尺寸 (8 bytes) 乘上 1 ( import symbols 在 data directory 中的索引号)。 将上面的结果加上 data directory 地址,我们就得到包含所查询数据结构信息的 IMAGE_DATA_DIRECTORY 结构项。

现在我们开始真正讨论引入表了。 data directory 数组第二项的 VirtualAddress 包含引入表地址。引入表实际上是一个 IMAGE_IMPORT_DESCRIPTOR 结构数组。每个结构包含 PE 文件引入函数的一个相关 DLL 的信息。比如,如果该 PE 文件从 10 个不同的 DLL 中引入函数,那么这个数组就有 10 个成员。该数组以一个全 0 的成员结尾。下面详细研究结构组成 :

IMAGE_IMPORT_DESCRIPTOR STRUCT
union
Characteristics dd ?
OriginalFirstThunk dd ?
ends
TimeDateStamp dd ?
ForwarderChain dd ?
Name1 dd ?
FirstThunk dd ?
IMAGE_IMPORT_DESCRIPTOR ENDS

结构第一项是一个 union 子结构。 事实上,这个 union 子结构只是给 OriginalFirstThunk 增添了个别名,您也可以称其为 "Characteristics" 。 该成员项含有指向一个 IMAGE_THUNK_DATA 结构数组的 RVA 。

什么是 IMAGE_THUNK_DATA ? 这是一个 dword 类型的集合。通常我们将其解释为指向一个 IMAGE_IMPORT_BY_NAME 结构的指针。注意 IMAGE_THUNK_DATA 包含了指向一个 IMAGE_IMPORT_BY_NAME 结构的指针 : 而不是结构本身。

请看这里 : 现有几个 IMAGE_IMPORT_BY_NAME 结构,我们收集起这些结构的 RVA ( IMAGE_THUNK_DATAs ) 组成一个数组,并以 0 结尾,然后再将数组的 RVA 放入 OriginalFirstThunk 。

此 IMAGE_IMPORT_BY_NAME 结构存有一个引入函数的相关信息。再来研究 IMAGE_IMPORT_BY_NAME 结构到底是什么样子的呢 :

IMAGE_IMPORT_BY_NAME STRUCT
Hint dw ?
Name1 db ?
IMAGE_IMPORT_BY_NAME ENDS

Hint 指示本函数在其所驻留 DLL 的引出表中的索引号。该域被 PE 装载器用来在 DLL 的引出表里快速查询函数。该值不是必须的,一些连接器将此值设为 0 。

Name1 含有引入函数的函数名。函数名是一个 ASCIIZ 字符串。注意这里虽然将 Name1 的大小定义成字节,其实它是可变尺寸域,只不过我们没有更好方法来表示结构中的可变尺寸域。 The structure is provided so that you can refer to the data structure with descriptive names.

TimeDateStamp 和 ForwarderChain 可是高级东东 : 让我们精通其他成员后再来讨论它们吧。

Name1 含有指向 DLL 名字的 RVA ,即指向 DLL 名字的指针,也是一个 ASCIIZ 字符串。

FirstThunk 与 OriginalFirstThunk 非常相似,它也包含指向一个 IMAGE_THUNK_DATA 结构数组的 RVA( 当然这是另外一个 IMAGE_THUNK_DATA 结构数组 ) 。

好了,如果您还在犯糊涂,就朝这边看过来 : 现在有几个 IMAGE_IMPORT_BY_NAME 结构,同时您又创建了两个结构数组,并同样寸入指向那些 IMAGE_IMPORT_BY_NAME 结构的 RVAs ,这样两个数组就包含相同数值了 ( 可谓相当精确的复制啊 ) 。 最后您决定将第一个数组的 RVA 赋给 OriginalFirstThunk , 第二个数组的 RVA 赋给 FirstThunk ,这样一切都很清楚了。

OriginalFirstThunk IMAGE_IMPORT_BY_NAME FirstThunk

|

|
IMAGE_THUNK_DATA
IMAGE_THUNK_DATA
IMAGE_THUNK_DATA
IMAGE_THUNK_DATA
...
IMAGE_THUNK_DATA
--->
--->
--->
--->
--->
--->
Function 1
Function 2
Function 3
Function 4
...
Function n
<---
<---
<---
<---
<---
<---
IMAGE_THUNK_DATA
IMAGE_THUNK_DATA
IMAGE_THUNK_DATA
IMAGE_THUNK_DATA
...
IMAGE_THUNK_DATA

现在您应该明白我的意思。不要被 IMAGE_THUNK_DATA 这个名字弄糊涂 : 它仅是指向 IMAGE_IMPORT_BY_NAME 结构的 RVA 。 如果将 IMAGE_THUNK_DATA 字眼想象成 RVA ,就更容易明白了。 OriginalFirstThunk 和 FirstThunk 所指向的这两个数组大小取决于 PE 文件从 DLL 中引入函数的数目。比如,如果 PE 文件从 kernel32.dll 中引入 10 个函数,那么 IMAGE_IMPORT_DESCRIPTOR 结构的 Name1 域包含指向字符串 "kernel32.dll" 的 RVA ,同时每个 IMAGE_THUNK_DATA 数组有 10 个元素。

下一个问题是 : 为什么我们需要两个完全相同的数组 ? 为了回答该问题,我们需要了解当 PE 文件被装载到内存时, PE 装载器将查找 IMAGE_THUNK_DATA 和 IMAGE_IMPORT_BY_NAME 这些结构数组,以此决定引入函数的地址。然后用引入函数真实地址来替代由 FirstThunk 指向的 IMAGE_THUNK_DATA 数组里的元素值。因此当 PE 文件准备执行时,上图已转换成 :

OriginalFirstThunk IMAGE_IMPORT_BY_NAME FirstThunk

|

|
IMAGE_THUNK_DATA
IMAGE_THUNK_DATA
IMAGE_THUNK_DATA
IMAGE_THUNK_DATA
...
IMAGE_THUNK_DATA
--->
--->
--->
--->
--->
--->
Function 1
Function 2
Function 3
Function 4
...
Function n
Address of Function 1
Address of Function 2
Address of Function 3
Address of Function 4
...
Address of Function n

由 OriginalFirstThunk 指向的 RVA 数组始终不会改变,所以若还反过头来查找引入函数名, PE 装载器还能找寻到。

当然再简单的事物都有其复杂的一面。 有些情况下一些函数仅由序数引出,也就是说您不能用函数名来调用它们 : 您只能用它们的位置来调用。此时,调用者模块中就不存在该函数的 IMAGE_IMPORT_BY_NAME 结构。不同的,对应该函数的 IMAGE_THUNK_DATA 值的低位字指示函数序数,而最高二进位 (MSB) 设为 1 。例如,如果一个函数只由序数引出且其序数是 1234h ,那么对应该函数的 IMAGE_THUNK_DATA 值是 80001234h 。 Microsoft 提供了一个方便的常量来测试 dword 值的 MSB 位,就是 IMAGE_ORDINAL_FLAG32 ,其值为 80000000h 。

假设我们要列出某个 PE 文件的所有引入函数,可以照着下面步骤走 :

校验文件是否是有效的 PE 。 从 DOS header 定位到 PE header 。 获取位于 OptionalHeader 数据目录地址。 转至数据目录的第二个成员提取其 VirtualAddress 值。 利用上值定位第一个 IMAGE_IMPORT_DESCRIPTOR 结构。 检查 OriginalFirstThunk 值。若不为 0 ,顺着 OriginalFirstThunk 里的 RVA 值转入那个 RVA 数组。若 OriginalFirstThunk 为 0 ,就改用 FirstThunk 值。有些连接器生成 PE 文件时会置 OriginalFirstThunk 值为 0 ,这应该算是个 bug 。不过为了安全起见,我们还是检查 OriginalFirstThunk 值先。 对于每个数组元素,我们比对元素值是否等于 IMAGE_ORDINAL_FLAG32 。 如果该元素值的最高二进位为 1 , 那么函数是由序数引入的,可以从该值的低字节提取序数。 如果元素值的最高二进位为 0 ,就可将该值作为 RVA 转入 IMAGE_IMPORT_BY_NAME 数组,跳过 Hint 就是函数名字了。 再跳至下一个数组元素提取函数名一直到数组底部 ( 它以 null 结尾 ) 。现在我们已遍历完一个 DLL 的引入函数,接下去处理下一个 DLL 。 即跳转到下一个 IMAGE_IMPORT_DESCRIPTOR 并处理之,如此这般循环直到数组见底。 ( IMAGE_IMPORT_DESCRIPTOR 数组以一个全 0 域元素结尾 ) 。

Tags:压缩 脱壳 PE

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接