NVIDIA TITAN V发布,TITAN Xp是不是要淘汰了?
网友解答: 今天NVIDIA发布了基于Volta架构打造的新旗舰显卡TITAN V,难道前几天京东上要预约参加抢购才能到手的TITAN Xp现在就已经过时了?TITAN V采用12nm工
今天NVIDIA发布了基于Volta架构打造的新旗舰显卡TITAN V,难道前几天京东上要预约参加抢购才能到手的TITAN Xp现在就已经过时了?
TITAN V采用12nm工艺的Volta核心打造,也是Volta架构第一款面向游戏玩家推出的旗舰显卡。TITAN V配备12GB HBM2显存,峰值浮点性能高达110TFlops,是现在TITAN Xp的9倍。TITAN V基于GV100核心,核心面积815平方毫米,比Xp的GP102也几乎大了一倍。另外TITAN V内建5120颗CUDA核心,640颗Tensor核心(用于AI专门计算和加速),核心主频1200MHz,加速频率1455MHz,然而TITAN V仅用一个涡轮风扇就可以镇压。
NVIDIA TITAN V其实保留了专业级的一些特性,NVIDIA也希望深度学习计算的桌面PC研究者可以尝试这款显卡,因为它可以极大提高效率。官方TITAN V的定价高达2999美元,是TITAN Xp的两倍了。在今天晚些时候就会上市,首批销售国家应该是没有中国了。
网友解答:不得不说,NVIDIA CEO 黄仁勋对于非Gefore系列产品保密实在是太好了,每一次“核弹”发布都是出其不意。今天老黄在NIPS 2017全球神经信息处理系统大会上突然就发布了全新Volta架构的NVIDIA TITAN V!CUDA流处理器暴增至5120个,配备了12GB的HBM 2显存,单精度浮点性能高达15TFlops,而表示深度计算能力的Tensor性能高达110TFlops,相当于TITAN Xp的9倍。显然这张TITAN V已经侧重于AI人工智能、深度计算上,与我们游戏玩家渐行渐远了,那么这张TITAN V有什么值得我们关注的亮点呢?
全新Volta架构:
虽然目前NVIDIA还没有吹Volta架构的新特性,不过显然已经针对HBM 2显存做足了优化,通过新的内存控制器对超高位宽的HBM 2性能发挥到极致,以此保证比前作TITAN Xp 1.2倍的内存带宽,在运行负载时,可以让内存带宽利用率提升至95%的新水平。
如果你要问目前Tesla V100以及TITAN V所采用的GV100核心是否已经“满血”,那么可能要大失所望了,这并不是满血版。根据NVIDIA早前放出的Volta架构白皮书,显示最顶级的GV100核心将会有6组GPC单元,每组GPC单元由14组SM单元构成,满血版应该是6 x 14 = 84组SM单元,但Tesla V100/TITAN V均只有80组,每组SM单元64个CUDA单元,因此共同构成80 x 64 = 5120个CUDA单元,创下了历史之最。但显然,NVIDIA还留有4组SM单元杀招。
根据NVIDIA的白皮书介绍,Volta架构的SM单元做了大幅改进,新的SM单元能效比Pascal这代提升50%,因此才能在同样的功耗封装下大幅提升FP32/FP64计算性能。
1:2的双单精度比:
之前的TITAN显卡为了在游戏性能与功耗之间做出平衡,无情地砍掉了双精度单元,让TITAN Xp上的双单精度单元比将至1:32的新低水平。不过这一代TITAN V似乎不侧重于游戏方面了,不仅高达2999美元的售价,还有其双精度单元也回来了,重新回到1:2的比例。双精度性能由TITAN Xp可怜的0.38TFLOPS提升至6.9TFLOPS,提升幅度高达18倍。
12nm FFN工艺:
Volta显卡使用TSMC台积电与NVIDIA定制的12nm FFN工艺是早就确认的事情,和之前的16nm相比有哪些改进?其实就是16nm的第四代改良版本,为了打败竞争对手,不惜玩弄文字游戏。不过提升还是有的,表现在更高的晶体管密度、更低的功耗,性能比16nm FFC工艺提升10%,但是核心面积可缩减20%。
即便如此,GV100大核心的面积依然从目前的GP100核心的610mm2增加到了815mm2。核心面积增大如此之多主要是因为42%的CUDA单元增长导致的。
12GB HBM 2显存:
HBM 2显存 NVIDIA也不是第一天用,只不过速度上更快一些,由Tesla P100上的700MHz提升到850MHz,供应商很大几率还是三星,应该也是单颗粒4GB容量,3颗构成TITAN V上的3072-bit 12GB HBM 2显存,显存带宽再抬升一个台阶达652.8GB/s。
在架构图上,GV100完整核心是有8组512bit显存控制器,每个HBM 2堆栈搭配2组显存控制器。
640个Tensor单元:
显然NVIDIA已经将公司前景压在了AI与深度计算上,因此开发适用于深度计算的运算单元很有必要,可以在硬件层面上快速提升深度计算能力,做到事半功倍效果。
新的 Tensor Core 是专门为深度学习设计的,为相应的浮点运算速度带来了 12 倍的提升。并且由此拥有了独立的、并行的整型和浮点型数据通路,Volta SM单元在负载上也更高效,混合了计算与地址运算。Volta 新的独立线程调度能力使得并行线程之间的细粒度同步协同成为可能。
正正是特事特办的方式,让TITAN V拥有了640个Tensor单元,提供高达110TFLOPS的深度计算性能,是没有Tensor单元的TITAN Xp 9倍之多。
没有NVLink/SLI:
原本NVLink是专属于NVIDIA计算卡一种高带宽的互联技术,能够在CPU-GPU和GPU-GPU之间实现超高速的数据传输。诞生之初就获得传统PCIe 3.0(32GB/S)5-12倍的数据传输速度,还能大幅提升应用程序的处理速度。在最新的Volta架构中,NVIDIA将其提升至300GB/s水平,几乎是PCI-E 3.0的10倍速度。
Telsa V100是支持使用Quadro NVLINK Bridge,而且一次用两个,一条桥价格是599美元,约等于一张GTX 1080架构。不过你放心,TITAN V压根就不支持这玩意,经过向NVIDIA官方求证,Quadro NVLINK Bridge仅适用于Quadro以及Telsa系列产品,TITAN V并不支持,上面的接口被背板夹住,是插不进去的,就是个样子货,连SLI HB桥都不能用。
看清楚,这金手指被夹住了
我就是卖那么贵
2999美元售价:
这价格贵吗?比起TITAN Xp的1200美元当然贵多了,我买两张TITAN Xp 星战典藏版还没一张TITAN V贵呢!也难怪NVIDIA全球副总裁张建中会说,下一代游戏卡更贵。
但是你想想这一代的TITAN显然不是针对游戏玩家,使用了GV100顶级核心、12GB HBM 2显存、不砍双精度单元,这不就是工作站卡、计算卡吗?卖1.98万元人民币真的不贵。
对比起Tesla V100报价1万美元起(6.6万人民币),或者是报价149000美元(98.6万人民币)拥有8张Telsa V100的新DGX-1售价来说,甚至说1.98万元人民币有点仁慈了。
在NIPS 2017大会上,NVIDIA CEO黄仁勋高兴地说道“我们将会把TITAN V送到世界各地的研究人员手中,迫不及待地分享突破性发现”。是的,老黄又调皮了,现场送出了20张TITAN V。
写在最后:
尔等都在流口水是吧,没错,我们也一样,既然连NVIDIA TITAN Xp Colletor'Edition星球大战典藏版都买了两张,老黄不送就自己买呗。
是的,不好意思,我们小手一抖,TITAN V即将到手。用了最快的快递,你们等着全网首发吧。
其实也不是要炫耀什么,毕竟今年NVIDIA并有发布预料之中的Volta游戏卡,玩家们都饥渴难耐地想知道GTX 2000系列显卡的性能,我们寄望于通过目前能卖的TITAN V来进行必要的测试,以此管中窥豹。
尽管这一代的TITAN V并不像是游戏卡,采用GV100大核心很可能只适用于深度计算以及工作站,对我们这些游戏玩家有意义的是后续的GV102核心(可能,传闻Volta架构显卡不会有游戏卡),精简掉对游戏毫无用处的Tensor、双精度单元,在砍L2缓存,HBM 2显存可以保留在旗舰卡皇上,普通卡可能是新的GDDR6显存,做到提升性能同时保持/降低功耗。
能不能做到GTX 2060打败GTX 1080这种事,我们还是先YY一下吧。