20 年后重返独显战场,深度分析英特尔 Xe GPU 战略


来源:芯东西   时间:2020-12-26 17:05:02


12月15日消息,近日,EETimes对英特尔的显卡战略和发展前景进行了梳理分析。

在他们看来,英特尔新发的Xe架构是为开发更多全场景适配显卡做铺垫。同时,英特尔近日发行的独立显卡“DG1”弥补了英特尔的技术短板,并将在市场上获得一定反响。

英特尔在发布两款Xe GPU后,成功跻身独立显卡制造商行列。然而,“参与”和“引领”之间有很大的区别。从休闲玩家的笔记本电脑到高端游戏台式机,从入门级安卓游戏硬件到超级计算机,英特尔的显卡战略几乎无所不包。很显然,英特尔想成为显卡领域的领导者,但是英特尔真的可以吗?

过去,计算机显卡主要有两种用途:游戏和专业可视化(ProViz)。游戏硬件包括街机、游戏机和个人电脑。ProViz硬件主要用于计算机辅助设计(CAD)、数字内容创建(DCC)、医学成像和各种视觉模拟需求。在2005年后,GPU逐渐应用于各类高性能计算(HPC)应用。

如今,计算机显卡的应用场景不再局限于游戏、ProViz或HPC,但随着新应用场景的出现,适配问题愈发凸显。比如,高并行的GPU能为人工智能、深度学习(DL)/机器学习(ML)应用程序提供支持,但往往需要在传统的游戏和ProViz数据格式之外,获取额外的数据格式支持。云端游戏显卡和服务器端图形渲染应用专为游戏打造,但是这类显卡并非数据中心的最佳选择。

若想成为显卡领跑者,英特尔必须开发全系列的显卡,涵盖传统用途、HPC和新兴应用场景。而这项任务的艰巨性无需多言。

近几个月,英特尔终于推出了近20年来第一款独立显卡,同时透露了更多的显卡战略细节。我们现在就来领略一下英特尔的雄图大略,同时听取专家的分析意见。

一、英特尔Xe架构:高度平行、用途多样

三年前,英特尔再次投身独立显卡研发,邀请业界大牛Raja Koduri加入英特尔,成立核心和视觉计算小组(Core and Visual Computing Group)来专攻独立显卡。

当时,英特尔明确表示,将以客户端、数据中心和高性能计算细分领域为服务对象,更好地处理人工智能、图形处理(游戏、模拟、ProViz、AR/VR等)、机器学习等高性能需求任务。

为此,英特尔曾尝试推出代号为“Larrabee”的多核处理器。按照设想,这款显卡能够在满足图像处理需求的同时,承担高性能计算负载。然而,由于英特尔执意想采用x86架构,这次尝试最终失败了。

Koduri掌舵后,英特尔开始研发高度平行架构“Xe”,Xe架构能够适应不同的工作负载需要,算力在TFLOPS(每秒万亿次的浮点运算)到ExaFLOPS(每秒百亿亿次的浮点运算)区间不等,具有较强的场景适应性。

截至目前,英特尔已推出Xe-LP低功耗系列,用于集成核显、入门级独显。在未来几年,英特尔还计划发布三套Xe GPU架构,以满足不同工作负载需要。

此外,为了确保Xe GPU(以及AI加速器、GPU、FPGA等)简单可用,英特尔面向软件开发团队推出了oneAPI工具包(统一编程模型)以及零级接口规范(仅针对AI、GPU、FPGA产品)。

二、Xe-LP:96个EU,内存带宽提高2倍!

近20年来,英特尔尽管缺席独显市场,却一直活跃在集成显卡领域,针对低价、低能耗的电脑推出了Gen架构。

Gen架构能够很好地适用于轻量级任务,但并不适用于数据中心等高性能要求任务。为此,英特尔推出了全新的Xe架构。

针对入门级产品,英特尔推出了Xe-LP,主要用于集成核显、入门级独显。

和去年推出的Gen 11架构一样,英特尔Xe-LP架构也能全面支持DirectX 12_1 API。此外,新架构带来了明显的性能优势,借助英特尔10nm Superfin制程工艺实现了更高的频率潜力(最高可达1.7GHz,上一代仅为1.1GHz)。

20年后重返独显战场!深度分析英特尔Xe GPU战略

英特尔Xe-LP iGPU率先应用于第11代酷睿处理器“Tiger Lake”。Xe-LP iGPU的顶配版本具有96个执行单元(EU),运行速度可达1536 FP16 FLOPS/clock,每周期Texel纹理、Pixel像素渲染能力也从32、16提升到48、24。

内存子系统经改进,具有新的L1 Data Cache(数据高速缓存)、16 MB L3 Cache,同时支持端到端压缩及新的Ringbus互连技术,与上一代产品相比,可将带宽提高2倍。

20年后重返独显战场!深度分析英特尔Xe GPU战略

和上一代架构相比,Xe-LP架构一大更新便是执行单元(EU)。全新EU集成了8-wide FP/INT ALU8和2-wide extended math ALU。8-wide FP/INT ALU8运算速度可达1 FP32/INT32 ops/clock、2 FP16/INT16 ops/clock和4 INT8 ops/clock,以更好地处理AI工作负载产生的各类数据。同时,两个EU共享线程控制(Thread Control),从而节省空间。

20年后重返独显战场!深度分析英特尔Xe GPU战略

如若所有FP/INT ALU均以1.35GHZ的频率工作,Tiger Lake的高端Xe-LP iGPU可提供约2.1 TFLOPS的FP32图形处理性能,近乎是英特尔上一代Iris Plus G7显卡(1.12 TFLOPS)的两倍。此外,英特尔还提供了入门版本的Xe-LP iGPU,入门版本的EU等单元数量较少,性能也相对弱一些。

20年后重返独显战场!深度分析英特尔Xe GPU战略

Xe-LP GPU还配备了英特尔最新的显示引擎(Display Engine)和媒体引擎(Media Engine)。新款媒体引擎具有12-bit end-to-end video pipeline,可播放BT.2020等格式的视频,同时能为最新编解码器(例如AV1)提供硬件加速解码功能。

由于集成显卡主要用于办公和媒体浏览,媒体引擎对集显的重要性不言而喻,同时对各类流媒体应用也有不可或缺的作用。

显示引擎支持四个video pipeline以及eDP、DisplayPort 1.2、HDMI 2.0、Thunderbolt 4/USB4 Type-C输出,足以满足当今的集成显卡和入门级独显的需求。

20年后重返独显战场!深度分析英特尔Xe GPU战略

三、英特尔集显市占率达70%,Xe-LP市场潜力巨大

英特尔将Xe-LP集成显卡和独立显卡的用户群体定位为游戏玩家和创作者。

游戏方面,英特尔在提升硬件性能的同时,还努力优化驱动程序等软件表现。

例如,Xe-LP驱动程序支持硬件/软件调度代码签名(hardware/software scheduling codesign),为基于DirectX 11的游戏增加了灵活性。此外,这一系列还支持VRS可变帧率渲染,根据渲染场景的不同来选择降低或者提升渲染内容,以免在次要场景上浪费过多算力。

同时,英特尔还增加了游戏锐化(GS)技术,该技术可在分辨率不变的情况下提高游戏图像的清晰度,从而节省带宽,不过有可能增加GPU的其他部分的负荷,用户可以选择自行启用/禁用GS技术。

Jon Peddie Research的研究指出,全球近70%的PC搭载了英特尔的集成显卡。因此,英特尔一旦过渡到其新的Xe-LP架构,“吃”内置显卡的游戏必须相应作出调整。此外,英特尔还可以定制驱动程序,保持产品竞争力。

“ Xe-LP是英特尔显卡战略的第一步,”英特尔发言人布鲁斯·费恩伯格(Bruce Fienberg)说,“它是英特尔系列产品的节能基础,同时让英特尔20年来首款独显成为现实。Xe-LP面向的集显市场相当庞大,每年都有成千上万的新用户。Xe-LP将会支持全球大多数人的视觉体验。”

值得注意的是,在所有英特尔Xe微架构中,Xe-LP节能效果最佳、面积最优。英特尔表示,Xe-LP架构未来定将应用于PC和各类可拆卸式平板电脑。

四、英特尔Xe DG1:英特尔二十年来首款独显

二十年来磨一剑。

英特尔二十年里推出的首款商用独显名为Iris Xe Max(以前被称为代号DG1)。该GPU基于Xe-LP微架构,其配置和Tiger Lake集成GPU顶配版相同。

这款显卡包含96个EU,每周期Texel纹理、Pixel像素渲染能力也提升到48、24,支持多达4 GB LPDDR4X的128位内存控制器以及PCIe 4.0 x4接口,可连接到笔记本电脑的CPU,没有太多的备用PCIe通道。

英特尔Xe DG1采用10nm SuperFin工艺生产,和Tiger Lake CPU所使用的节点相同。

由于英特尔Xe DG1专为笔记本电脑设计,其时钟频率为1650 MHz,可提供高达2.46 FP32 TFLOPS的性能。这款独显虽然具有英特尔顶配集成GPU的同等配置(尽管频率提高了22%),但更好的散热设计(TDP)封装结合128位内存,为其带来了更强劲的性能。

英特尔称,英特尔Xe DG1不受Tiger Lake的TDP约束,总内存带宽为68 GB/s,可为全高清游戏以及附加的AI工作负载提供出色性能。显然,英特尔的野心不止于入门级游戏,还希望利用DG1解决消费级应用(通常计算需求高,如Topaz Labs的Gigapixel AI)的需求。

从游戏性能的角度来看,英特尔Xe DG1GPU的主要竞争对手是AMD的Radeon RX 560(2016年GPU),英伟达的GeForce GTX 1050 Ti(2017年GPU)或低端MX350同类产品,但尚未能够与英伟达基于Turing架构的GeForce MX450匹敌。

在1080p分辨率下,2.46 FP32 TFLOPS的算力的确能够能满足很多游戏的需求,但还不足以满足高分辨率大型游戏的需要。也正因于此,游戏玩家才对价格高昂的高性能独显趋之若鹜。

此外,2.46 FP32 TFLOPS也难以达到实时业务可视化(real-time business visualizations)对画面的要求。显然,DG1并非为此打造,但这也意味着,这类软件的开发人员目前不会选择英特尔的GPU。

Limestone Simulations首席执行官Yaroslav Lyssenko提到:“对于开发人员而言,游戏和业务可视化代表了两套完全不同的需求,游戏开发会主动适应硬件情况,但VR模拟却主动对硬件提出要求,以满足商业应用对画面的超高要求。”

尽管英特尔Xe DG1难以满足更高的工作负载需求,但它还可以用来加速由英特尔Deep Link、Addictive AI技术支撑的内容创作应用。

简而言之,Deep Link是一种软件和固件堆栈,可用于平衡英特尔Tiger Lake集成显卡和英特尔Xe DG1独显之间的工作负载和热设计功耗(TDP)。Addictive AI则能同时调用iGPU和dGPU的计算资源,以服务于某一应用程序。

如今,HandBrake、Topaz Gigapixel AI、XSplit等应用程序都支持Deep Link和Addictive AI技术。英特尔表示,未来将最终采用Blender以及讯连科技、Magix等公司研发的各类加速应用。

五、英特尔XeDG1:销量未卜,谨慎观望

尽管电脑制造商可能会采用低端iGPU和英特尔Xe DG1,从而为玩家提供不同价位的英特尔产品,但英特尔独显能否冲击配有高端iGPU的CPU销量?这仍是一个未知数。

而且,英特尔Xe DG1并未实现性能的实质性跃升,英特尔的营销重点仍放在CPU上(很大程度上是因为它将DG1定位为协处理器)。尽管如此,Jon Peddie Research的负责人乔恩·佩迪(Jon Peddie)相信英特尔Xe DG1终将在市场上找到自己的位置。

“DG1终将找到市场,OEM厂家也会投入相关生产,” Peddie说,“OEM厂商没法拒绝英特尔这样一个强大的品牌。像NVIDIA GeForce MX350这样的老一代产品(NVIDIA近期发行了基于Turing架构的MX450)可以期待英特尔新品带来的推力。30%的性能提升背后的功耗和价格成本是多少,我们还尚在观望之中。毕竟从照片来判断,DG1尺寸并不小。”

结语:战略意义比商业价值更值得重视

在高性能显卡领域沉寂20年之后,英特尔终于又推出了“DG1”。尽管DG1的绝对性能谈不上惊艳,但却吹响了英特尔重回独显战场的号角。

DG1所代表的Xe架构解决了困扰英特尔多年的技术问题,为英特尔成为业界唯一一家能够提供CPU、GPU、FPGA、AI芯片的全能型公司打下基础。

结合英特尔的生态和产品体量,我们不难想见,英特尔独显入市后对显卡市场产生的巨大搅动,以及对同类产品形成的强劲角力。

  版权及免责声明:凡本网所属版权作品,转载时须获得授权并注明来源“物联之家 - 物联观察新视角,国内领先科技门户”,违者本网将保留追究其相关法律责任的权力。凡转载文章,不代表本网观点和立场。

延伸阅读

最新文章

腾讯微信支付支持全量商家小程序场景开通中国银联云闪付功能 腾讯微信支付支持全量商家小程序场景开通中国银联云闪付功能

精彩推荐

产业新闻

苹果发言人:富士康印度工厂进入试用期,将派遣独立审计师进行额外评估 苹果发言人:富士康印度工厂进入试用期,将派遣独立审计师进行额外评估

热门推荐

版权所有:物联之家 - 物联观察新视角,国内领先科技门户