三通道+DDR3能普及吗?内存变革进行时 (下)
2009-04-13 12:13:57 来源:WEB开发网● DDR3集万千宠爱抢班夺权
1. 8bit预取设计,而DDR2为4bit预取。
相对于DDR2内存的4bit预取机制,DDR3内存模组最大的改进就是采用了8bit预取机制设计,也就是内部同时并发8位数据。在相同Cell频率下,DDR3的数据传输率是DDR2的两倍。这样DRAM内核的频率只有接口频率的1/8,DDR3-800的核心工作频率只有100MHz,当DRAM内核工作频率为200MHz时,接口频率已经达到了1600MHz。而当DDR3内存技术成熟时,相信有实力的内存厂商将推出DDR3-2000甚至2400的频率更高的内存。
内存规格对比表
2. 采用点对点的拓朴架构,以减轻地址/命令与控制总线的负担。
这是为了提高系统性能而进行的重要改动,也是DDR3与DDR2的一个关键区别。在DDR3系统中,一个内存控制器只与一个内存通道打交道,而且这个内存通道只能有一个插槽,因此,内存控制器与DDR3内存模组之间是点对点(Point-to-Point,P2P)的关系(单物理Bank的模组),或者是点对双点(Point-to-two-Point,P22P)的关系(双物理Bank的模组),从而大大地减轻了地址/命令/控制与数据总线的负载。而在内存模组方面,与DDR2的类别相类似,也有标准DIMM(台式PC)、SO-DIMM/Micro-DIMM(笔记本电脑)、FB-DIMM2(服务器)之分,其中第二代FB-DIMM将采用规格更高的AMB2(高级内存缓冲器)。
3. 采用100nm以下的生产工艺,将工作电压从1.8V降至1.5V,在DDR3系统中,对于内存系统工作非常重要的参考电压信号VREF将分为两个信号,即为命令与地址信号服务的VREFCA和为数据总线服务的VREFDQ,这将有效地提高系统数据总线的信噪等级。
DDR3比DDR2功耗更低
4. 增加异步重置(Reset)与ZQ校准功能。重置是DDR3新增的一项重要功能,并为此专门准备了一个引脚。这一引脚将使DDR3的初始化处理变得简单。当Reset命令有效时,DDR3内存将停止所有操作,并切换至最少量活动状态,以节约电力。在Reset期间,DDR3内存将关闭内在的大部分功能,所有数据接收与发送器都将关闭,所有内部的程序装置将复位,DLL(延迟锁相环路)与时钟电路将停止工作,而且不理睬数据总线上的任何动静。这样一来,将使DDR3达到最节省电力的目的。
● DDR3与DDR2的不同之处
1、逻辑Bank数量
DDR2 SDRAM中有4Bank和8Bank的设计,目的就是为了应对未来大容量芯片的需求。而DDR3很可能将从2Gb容量起步,因此起始的逻辑Bank就是8个,另外还为未来的16个逻辑Bank做好了准备。
2、封装(Packages)
DDR3由于新增了一些功能,所以在引脚方面会有所增加,8bit芯片采用78球FBGA封装,16bit芯片采用96球FBGA封装,而DDR2则有60/68/84球FBGA封装三种规格。并且DDR3必须是绿色封装,不能含有任何有害物质。
3、寻址时序(Timing)
就像DDR2从DDR转变而来后延迟周期数增加一样,DDR3的CL周期也将比DDR2有所提高。DDR2的CL范围一般在2至5之间,而DDR3则在5至11之间,且附加延迟(AL)的设计也有所变化。DDR2时AL的范围是0至4,而DDR3时AL有三种选项,分别是0、CL-1和CL-2。另外,DDR3还新增加了一个时序参数——写入延迟(CWD),这一参数将根据具体的工作频率而定。
4、新增功能——重置(Reset)
重置是DDR3新增的一项重要功能,并为此专门准备了一个引脚。DRAM业界已经很早以前就要求增这一功能,如今终于在DDR3身上实现。这一引脚将使DDR3的初始化处理变得简单。当Reset命令有效时,DDR3内存将停止所有的操作,并切换至最少量活动的状态,以节约电力。在Reset期间,DDR3内存将关闭内在的大部分功能,所以有数据接收与发送器都将关闭。所有内部的程序装置将复位,DLL(延迟锁相环路)与时钟电路将停止工作,而且不理睬数据总线上的任何动静。这样一来,将使DDR3达到最节省电力的目的。
5、根据温度自动自刷新(SRT,Self-Refresh Temperature)
为了保证所保存的数据不丢失,DRAM必须定时进行刷新,DDR3也不例外。不过,为了最大的节省电力,DDR3采用了一种新型的自动自刷新设计(ASR,Automatic Self-Refresh)。当开始ASR之后,将通过一个内置于DRAM芯片的温度传感器来控制刷新的频率,因为刷新频率高的话,消电就大,温度也随之升高。而温度传感器则在保证数据不丢失的情况下,尽量减少刷新频率,降低工作温度。不过DDR3的ASR是可选设计,并不见得市场上的DDR3内存都支持这一功能,因此还有一个附加的功能就是自刷新温度范围(SRT,Self-Refresh Temperature)。通过模式寄存器,可以选择两个温度范围,一个是普通的的温度范围(例如0℃至85℃),另一个是扩展温度范围,比如最高到95℃。对于DRAM内部设定的这两种温度范围,DRAM将以恒定的频率和电流进行刷新操作。
6、局部自刷新(RASR,Partial Array Self-Refresh)
这是DDR3的一个可选项,通过这一功能,DDR3内存芯片可以只刷新部分逻辑Bank,而不是全部刷新,从而最大限度的减少因自刷新产生的电力消耗。这一点与移动型内存(Mobile DRAM)的设计很相似。
从技术角度上看,DDR3内存确实比DDR2改进不少,自身条件已经达到普及的标准。但是如果要更好的发展还要外部支持才行。
作为世界内存领导型企业,海盗船的领先技术一次次让业界震撼,这次根据nehalem的架构特性对内存的特殊需要——高频低压,抢先业界推出i7御用的排装内存条(3根)。
笔者收到的海盗船神秘白盒子
因为nehalem引入了3通道概念,内存套装的描述也发生了变化,原来的对条、一对等称谓已不适合。那么3根内存我们如何称呼呢?海盗船给我们做出了表率,一排、排装内存。
本次海盗船送测了单根2G和单根1G的两排内存,因测试时间的紧促和系统问题,笔者不得已使用3根单根1G排装进行测试,已避免32bit系统内存超过4GB后带来的性能下降问题。
内存模组型号为XMS3-1333,默认电压1.5V,延时为9-9-9-24,单条容量为1024MB,加装银灰色铝质散热片,金手指采用电镀工艺,PCB为高级的brainpower生产。在内存costdown严重的今天,实属难能可贵,体现出国际内存领导型企业的风采。
根据nehalem的定位,Intel官方说法是初期上市的3款nehalem除了频率区别外,新加入的QPI总线带宽也有差别,以区别产品的定位。
Core i7 920 | Core i7 940 | Core i7 Extreme Edition 965 | |
产品编码 | BX80601920 | BX80601940 | BX80601965 |
制程 | 45nm | 45nm | 45nm |
接口 | LGA 1366 | LGA 1366 | LGA 1366 |
晶体管数 | 7.31亿 | 7.31亿 | 7.31亿 |
核心线程数 | 4核8线程 | 4核8线程 | 4核8线程 |
主频 | 2.66GHz | 2.93GHz | 3.2GHz |
二级缓存 | 4x256KB | 4x256KB | 4x256KB |
三级缓存 | 8MB | 8MB | 8MB |
QPI总线 | 4.8GT/s | 4.8GT/s | 6.4GT/s |
内存控制器 | 三通道DDR3-1066 | 三通道DDR3-1066 | 三通道DDR3-1066 |
TDP | 130W | 130W | 130W |
售价 | 284美元 | 562美元 | 999美元 |
为了验证QPI总线的性能差别,笔者的测试方案如下,将nehalem的频率统一设定在2.66GHz上,比较同频率下不同QPI带宽的新跟那个差异。由于集成内存控制器,Intel芯片组第一次引入了CMD概念,在同频下,测试内存CMD(1T、2T)间的性能差异。
PCPOP.COM泡泡网CPU评测室 | |
硬件系统配置 | |
处理器 | Core i7 Extreme Edition 965 (四核/2.66GHz/4x256KBytes L2/8M L3) Core i7 920 (四核/2.66GHz/4x256KBytes L2/8M L3 |
主板 | 技嘉EX58- extreme |
硬盘 | 西部数据 velociraptor (300GB, 10,000 RPM, 16M,SATA300) |
内存 | 海盗船 TR3X3G1333C9 3X1G DDR3 1333MHz (9-9-9-20 1T) |
显卡 | NVIDIA 9800GTX+ |
电源 | 海盗船 corsair TX1000W |
显示器 | ASUS 24寸 |
软件系统配置 | |
操作系统 | Windows vista Ultimate SP1 32BIT |
显示驱动 | NVIDIA 180.42 |
为了不使测试平台的其它部分作为瓶颈,选用了技嘉X58-extreme搭配9800GTX+进行辅助测试,为了不使内存带宽成为瓶颈,使用海盗船1333排装组成三通道测试内存带宽,同时存储方面使用目前在SATA硬盘中的神器velociraptor,将平台性能发挥到最大。
● CPU理论运算对比测试
◎ SuperPI性能测试
Super PI是由东京大学Kanada Lab.所制作的一款通过计算圆周率的来检测处理器性能的工具,在测试里面可以有效的反映包括CPU在内的运算性能。在玩家群中,Super PI更是一个衡量CPU性能的标尺之一。
在Super Pi 8M的测试较量中,可以看到QPI对内存性能的影响比内存延时大的多,看来3通道内存还是对带宽的敏感性比延时更强。
◎ EVERST 内存性能测试
我们采用了EVERST Ultimate软件中的内存测试项目考验双款平台的内存性能。这样可以测试出CPU集成内存控制器对内存性能的影响。
看到成绩结果后,要具体问题具体分析,在读取、写入和拷贝的对比中,对内存控制器负载最低的读取性能差距较小,性能差异根据对内存控制器负责高低决定,负责最大的拷贝测试,差异更明显。总体上看,QPI对性能的影响比重更大。
◎ Fritz 10 Benchmark 性能测试
这是一款国际象棋测试软件,但它并不是独立存在的,而是《Fritz9》这款获得国际认可的国际象棋程序中的一个测试性能部分。由于国际象棋的运算大致仍旧是依靠电脑CPU的高速处理能力,将每一个可能的走法以穷举算法预测,从中选择胜算最大的最佳走法。所以用它来衡量对比不同的PC系统中CPU的多线程运算能力也是有参考价值的。
由于Fritz主要是考验CPU计算性能的软件,内存在其中所占比重较小,但微弱的差异也能体现出QPI的功能,根据测试成绩比例来看,QPI仍旧比CMD对性能的影响更高。
◎ ScienceMark 性能测试
ScienceMark是一款通过运行一些科学方程式来测试系统性能的工具。主要用于桌面台式机和工作站上测试内存子系统,同时也用于测试服务器环境中的读写延时,当然,它对内存的带宽及CPU与内存控制器之间的速度等也可进行测试。
从Sciencemark的测试结果看,所有成绩都在同一水平,看来核心运算效率强劲前提下,对内存的要求不高。
● DX10游戏CPU性能测试—《孤岛危机》
作为年度DX10游戏巨作CrySIS的游戏画面达到了当前PC系统所能承受的极限,超越了次世代平台和之前所有的PC游戏,即便是搭配顶级的显卡,在采用大分辨率开抗锯齿的情况下,也只能勉强“浏览”游戏。
测试方法:CrySIS Demo内置了CPU和GPU两个测试程序,我们使用CPU测试程序,这个程序会自动切换地图内的爆炸场景,激烈的爆炸场面严格的考验着CPU渲染性能,运行一段时间得到稳定的平均FPS值作为测试依据。
在低分辨率情况下,显卡已经不是瓶颈,而仅仅在于CPU的运算能力。CrySIS的两个CPU测试场景,得出的结果表现基本一致。这点就让人匪夷所思,Nehalem的性能提升是毋容置疑的,但为什么在对硬件要求甚高的crySIS中无明显作用呢?
笔者经过测试crySIS,再次证明QPI的重要性远比内存延时来的高,即使是QPI 6.4GB/s 2T的模式下,性能也比QPI4.8GB/s 1T模式下高出3帧左右。
4组QPI不同设置下的对比测试到此结束了,对所有的测试成绩进行分析对比后,可以得出以下结论:
QPI对提升系统性能有很大帮助,在SISoftware Sandra理论测试中,带宽甚至突破了20GB/s大关,虽然实际应用时不可能达到如此之高,但带宽大的好处显而易见,如同开跑车在山地上和高速公路间的差异。
在QPI时代,QPI的频率比内存延时对系统性能影响更大,优先提升QPI的频率更加重要。
通过QPI,相比之前FSB时代,对内存的体质要求有所降低,即使因为内存体质只能工作在2T模式下,只要QPI频率高,性能也不会削减太多。
3通道内存对提高系统性能帮助很大
Intel的每次架构升级,都地对电脑系统的结构带来巨大影响,除了当年力挺的Rambus因为技术太过先进,因产能不足失败外,此后的CPU架构升级所带来的系统部件发展方向都按照Intel的规划前进。DDR2的普及,和酷睿2的腾空出世有着深远关系。那么,作为全新架构的Nehalem,也必将对DDR3的普及产生巨大推动作用!
系列文章:
三通道+DDR3能普及吗?内存变革进行时 (上)
更多精彩
赞助商链接