以Python为例讨论高级编程语言程序的wire format与校验
2010-09-22 11:26:23 来源:WEB开发网Java的JVM、.NET的CLI、Android的Dalvik、ActionScript 3的AVM2等主流虚拟机,都在规范中要求实现必须在执行中间代码前有“校验”(verification)阶段。显然,不可能有程序能把所有“应该能行”的程序都找出来,这是停机问题的一个变种。因此“校验”并不以找出所有正确的程序为目标,而是根据精心设计的规则找出其子集——“肯定能行”的程序。不在该子集内的程序就被认为是不合法的。
如何校验,校验些什么呢?既然校验在执行之前,校验就是对程序的静态分析。通过代码发现,校验器可以模拟出程序在任意时间点的一些特性。上一段所举的几种虚拟机都采用基于栈的架构,对它们来说可校验的特性包括:求值栈平衡;求值栈的实际深度没有超过其声称的最大值;局部跳转目标是有效指令的起始位置;经过不同路径到达控制流的汇集点时,求值栈的状态统一;存储区访问没有越界;存储单元类型匹配,类型的声明与定义一致……等等。之前我的一帖,一个通不过Java字节码校验的例子,就是上述校验过程的一例。
对中间代码的校验,其实是对源码校验的延续。如果中间代码不是由受信任的编译器生成的,那么本应由编译器贯彻的一些约束在中间代码是否得到了体现?如果封装中间代码为wire format,这个问题就值得关注了。
与封装本地代码相比,封装中间代码的wire format与执行环境的校验步骤结合,可以让用户更放心的执行“不受信任”的代码。
同时允许源码和中间代码为wire format
前文提到了,以源码为wire format时,为实现语义,解释器必须对源码进行解析。解析源码就包含了对wire format的校验。以中间代码为wire format时,为安全起见也应该对中间代码做校验。同时允许两者为wire format,一般意味着源码解析后会被转换成同为wire format的中间代码,然后虚拟机只要执行中间代码即可。
更多精彩
赞助商链接