Intel vernieuwt en verbreedt AI-accelerator en storage aanbod

Intel DL Boost with bf16 extensions
Intel

Intel kondigt vandaag een aantal nieuwe producten aan. Hoewel divers van aard, passen alle in de bredere strategie die de processorgigant sinds enige tijd hanteert, onder de noemer 'move faster, store more, process everything'. 

Bij de aankondigingen van vandaag ligt de nadruk op 'process everything' en dan in het bijzonder AI workloads. Intel stelt zich op het punt op dat AI anno 2020 alomtegenwoordig en bijzonder divers van aard is, reden om een breed scala aan producten aan te bieden met een oplossing die zo nauw mogelijk aansluit bij de workload. 

Dat betekent onder meer dat de nu aangekondigde derde generatie Xeon Scalable (Cooper Lake voor de kenners, op het Whitley-platform) alleen voor 4- en 8-socket systemen beschikbaar komt, aangezien de belangrijkste verbeteringen die deze CPU's bieden vooral in dat soort architecturen tot hun recht komen. Het gaat dan om enerzijds ondersteuning voor bfloat16 berekeningen en anderzijds om ondersteuning voor de nieuwe generatie Optane Persistent Memory.

Bfloat16

Intel bf16 advantages Intel

Bfloat16 is een nieuwe instructie die specifiek bedacht is om machine learning training workflows te versnellen. Daarbij wordt een zeker concessie gedaan op het vlak van nauwkeurigheid in vergelijking met fp32, maar de daarmee gepaard gaande toename in snelheid (ongeveer 1,9 keer sneller) moet daarvoor ruimschoots compenseren - bij een resultaat dat van vergelijkbare kwaliteit is. Bfloat16 maakt onderdeel uit van een set verbeteringen die Intel DL Boost noemt, die inmiddels 44 verschillende optimalisaties voor AI omvat.

Intel DL Boost Intel

Stratix NX 10

Een tweede aankondiging van Intel betreft de Stratix NX 10 FPGA, opvolger van de Stratix MX 10. Deze processor kan zowel als een 'offload processor' worden ingezet in een server met bijvoorbeeld Xeon Scalable CPU's, als opgenomen worden in dedicated hardware als een NIC. Als FPGA biedt Stratix NX 10 een hoge mate van aanpasbaarheid aan de beoogde workload. Volgens Intel is dit de eerste voor AI geoptimaliseerde FPGA, met 15x meer int8 compute performance dan de Stratix 10 MX, dedicated HBM werkgeheugen met een zeer hoge bandbreedte en zeer snelle netwerkverbindingen van 57,8 GB/s.

Intel Stratix 10 NX chiplets Intel

In plaats van een DSP met twee multiplier- en twee accumulators waarover de 10 MX beschikte, heeft de 10 NX een AI Tensor Block met 30 multiplier en 30 accumulators, met ondersteuning voor int4, int8, fp12 en fp16. Hiermee moet Stratix 10 NX zeer geschikt zijn voor natural language processing, high-bandwidth aggregation en processing (bijvoorbeeld voor fraude detectie) en smart city toepassingen (bijvoorbeeld video-analyse). 

Storage: Optane Persistent Memory 200

Zoals gezegd presenteert Intel de introducties van vandaag nadrukkelijk in een totaalplaatje: de snelle processors kunnen hun werk alleen doen als ze ook voldoende snel van data worden voorzien. Om die reden investeert het bedrijf nog altijd in snelle opslag en netwerkverbindingen. Over het laatste werd in de call voorafgaand aan deze introductie niet veel gezegd, over het eerste des te meer.

Intel Persistent Memory 200 Intel

Zo introduceert Intel nu Optane Persistent Memory 200, de in een DRAM-slot passende modules met zeer snelle opslag. De nieuwe variant komt beschikbaar in capaciteiten tot 4,5 TB (!) per socket (!) en biedt 25% meer geheugenbandbreedte dan de voorgaande generatie. Daarmee moet Persistent Memory 200 meer dan 225x snellere toegang tot data bieden dan een standaard NAND ssd. Een concreet voorbeeld van het voordeel dat dit geheugen - dat geen data verliest wanneer de stroom eraf gaat - is bij het herstarten na een patch of update van een enterprise systeem voor bijvoorbeeld SAP. Het opnieuw herstarten met een klassiek systeem met dram kan dan zomaar een werkdag kosten, terwijl het met persistent memory in 10 minuten voor elkaar kan zijn.

Nieuwe TLC ssd's

Intel 3d NAND SSD D7-P5500 Intel

Verder komt Intel ook nog met een nieuwe generatie TLC ssd's, de D7-P5500 en de P5600. Beide zijn klassieke 3D NAND ssd's, maar ten opzichte van de vorige generatie moeten ze 40% minder latency en 33% meer prestaties bieden, dankzij een nieuwe controller en ondersteuning voor PCI-Express 4.0 naast PCI-e 3.0.

Opvullen van het aanbod

Zoals Optane Persistent Memory en Optane SSD in de visie van Intel 'gaten' opvullen in het bestaande aanbod van storage opties, zo doen de nieuwe Xeon scalable chips en de Stratix 10 NX FPGA dat in het aanbod aan AI processing opties. Naast de al aangehaalde toepassingen voor de FPGA moet Cooper Lake met zijn bfloat16 bijvoorbeeld nieuwe prestatieniveaus op het vlak van recommendation engines, visual analysis en biometrie bieden.

Intel claimt nu een alomvattend aanbod aan AI-accelerators, van de general purpose Xeon CPU's via Xe GPU's, Stratix 10 NX naar Movidius VPU en Habana ASIC oplossingen. Op vergelijkbare wijze heeft het een keur aan storage opties om deze processors van data te voorzien, van supersnel Persistent Memory 200 tot relatief 'ordinair' TLC NAND in de vorm van de D7-P5500 en P5600 ssd's. Op netwerkgebied zijn er dan nog Barefoot, ethernet en Silicon Photonnics, maar daarover had het bedrijf op dit moment minder te melden.

Apart vermeldenswaard is de effort die Intel steekt in de software support, noodzakelijk voor toepassen van nieuwe instructies als bfloat16. Dat doet het zowel met een keur aan partners, als met een groot team developers die bijdragen doen aan open source projecten als Linux. 

Kanttekeningen

Kanttekeningen vallen uiteraard ook te maken: zo is het, niettegenstaande Intels verklaring, opmerkelijk dat de 3rd gen Xeon Scalable er niet komt voor 1- en 2-socket systemen - die moeten het vooralsnog doen met de Cascade Lake refresh van eerder dit jaar, en krijgen later dit jaar de op 10 nanometer gebaseerde Ice Lake update. Beide zonder bfloat16. Aan de andere kant is de genoemde verklaring plausibel: bij het type machine learning workloads waarbij bfloat16 meerwaarde biedt, heb je het doorgaans niet over kleinere systemen.

Daarnaast is opvallend dat Intel het eigenlijk niet meer heeft over kloksnelheden of core aantallen (3rd gen Xeon gaat tot maximaal 28 cores/56 threads en 2,9 tot 4,3 GHz voor de Platinum 8380HL en 8380H), waar de concurrentie op dit moment natuurlijk juist daarmee de aandacht op zich weet te vestigen. Op Intels stelling dat een modern systeem om méér draait dan cores en kloks alleen, valt echter weinig af te dingen.

Copyright © 2020 IDG Communications, Inc.

  
Shop Tech Products at Amazon