İçindekiler:
Video: Huawei'nin geçmişi ve bugünü | Bilmeniz gereken her şey (Kasım 2024)
Bu ayki SC16 Süper Bilişim konferansında iki trend göze çarpıyordu. Bunlardan ilki, Intel'in en yeni Xeon Phi (Knights Landing) ve Nvidia'nın en yeni Tesla'sı (Pascal tabanlı P100) dünyanın en hızlı bilgisayarlarının Top500 listesinde ortaya çıktığı; her iki sistem de en üstteki 20'ye indi. İkincisi, çip ve sistem üreticilerinin modern makine öğrenme sistemlerinden kavramları nasıl aldıklarına ve bunları süper bilgisayarlara nasıl uyguladıklarına büyük önem veriyor.
Yılda iki kez güncellenen Top500 listesinin şu anki revizyonunda, grafiğin üstü hala Çin'in Ulusal Süper Bilgisayar Merkezi'nden Wuxi'deki Sunway TaihuLight bilgisayarının ve Çin Ulusal Süper Bilgisayarından Tianhe-2 bilgisayarının elinde. Haziran ayında ISC16 şovundan bu yana Guangzhou'daki Merkez. Üçüncü ve dördüncü sıradaki sistemlerle (Oak Oak'daki Titan süper bilgisayarı ve Lawrence Livermore'daki Sequoia sistemi) hala başka hiçbir bilgisayar yakın değil ve ikisi de Tianhe-2'nin performansının yarısını veriyor.
Bunlardan ilki, 64 bitlik bir RISC çekirdeği kullanan benzersiz bir Çinli işlemci olan 1.45GHz SW26010'a dayanıyor. Bu, 15.4 Megawatt güç kullanarak, Linpack benchmarkında 125.4 petaflop teorik tepe verimi ve 93 petaflops maksimum ölçülen performans sağlayan eşsiz bir 10.649.600 çekirdeğe sahiptir. Bu makinenin Linpack performansındaki çizelgeleri devasa bir farkla üstlenirken, diğer testlerde de oldukça başarılı olamadığı belirtilmelidir. Makinelerin teorik zirve performanslarının sadece yüzde 1 ila 10'unu görme eğiliminde olduğu ve en iyi sistemin - bu durumda Riken K makinesinin - hala daha az verdiği Yüksek Performanslı Eşlenik Gradyanlar (HPCG) kıyaslaması gibi başka kriterler de var. 1 petafloptan daha fazla.
Ancak Linpack testleri, yüksek performanslı bilgi işlem (HPC) ve Top500 listesini oluşturmak için kullanılanlardan bahsetmek için standarttır. Linpack testlerini kullanarak, 2 numaralı makine, Tianhe-2, son birkaç yıldır grafikte 1 numaraydı ve Xeon E5 ve daha eski Xeon Phi (Knights Corner) hızlandırıcılarını kullanıyor. Bu, 54.9 petaflops teorik zirve performansı ve Linpack'deki 33.8 petaflops'ta kıyasları sunar. Birçok gözlemci, Xeon Phi'nin (Knights Landing) daha yeni versiyonlarının ihracatının yasaklanmasının, Çin'in kendi süper bilgisayar işlemcilerini yaratmasına yol açtığına inanıyor.
Resmi olarak Xeon Phi 7250 olan Knights Landing, listedeki yeni sistemlerde büyük bir rol oynadı, Lawrence Berkeley Ulusal Laboratuvarı'ndaki Cori süper bilgisayarı, beşinci sırada, 27.8 petaflops zirve performansı ve 14 petaflops ölçülen performansı ile başladı. . Bu, Aries ara bağlantıyı kullanan bir Cray XC40 sistemidir. Knights Landing'in 3 işlemci teraflopu sağlayan işlemci başına 68 çekirdekli ana işlemci olarak hareket edebileceğini unutmayın. (Intel, 3.46 teraflop turunda 72 çekirdekli çipin başka bir versiyonunu fiyat listesinde en yüksek teorik çift hassasiyetli performansta listeliyor, ancak listedeki makinelerin hiçbiri bu sürümü kullanmıyor, çünkü daha pahalı ve daha fazla enerji kullanıyor.)
Daha önce Xeon Phis yalnızca geleneksel Xeon işlemciler tarafından kontrol edilen sistemlerde hızlandırıcı olarak çalışabiliyordu. Altıncı sırada, 24.9 tepe petaflops puan alan Japonya'nın Gelişmiş Yüksek Performanslı Bilgisayar Ortak Merkezi'nin Oakforest-PACS sistemi vardı. Bu, Fujitsu tarafından Knights Landing ve Intel'in Omni-Path bağlantılarını kullanarak inşa edildi. Knights Landing ayrıca 12 numaralı sistemde (İtalya'nın CINECA'sındaki Marconi bilgisayarı, Lenovo tarafından üretilen ve Omni-Path kullanarak) ve 33 numaralı sistemde (Japonya'nın Kyoto Üniversitesi'ndeki Camphor 2, Cray tarafından oluşturulan ve Koç kullanılarak da kullanılıyor. bağlantı).
Nvidia yeni listede de iyi temsil edildi. İsviçre Ulusal Süper Bilgi İşlem Merkezindeki 8 Numaralı Piz Daint, Xeons ve Nvidia Tesla P100 ile Cray XC50'ye yükseltildi ve şu anda 16 petaflops teorik zirve performansı ve 9.8 petaflops of Linpack performansı sunuyor; Nvidia K20x hızlandırıcıları olan Cray XC30'u temel alan 7.8 petaflops'tan en yüksek performans ve 6.3 petaflops Linpack performansından yükseltme.
Listedeki P100 tabanlı diğer bir sistem ise, Nvidia’nın kendi DGX Saturn V’iydi, şirketin kendi DGX-1 sistemlerini ve listede 28 numaraya giren bir Infiniband ara bağlantıya dayanıyordu. Nvidia'nın şimdi hem işlemcileri hem de yazılımı ve sekiz Tesla P100'ü içeren DGX-1 cihazını sattığını unutmayın. Nvidia'nın dahili AI araştırmaları için kullandığı DGX Saturn V sistemi, yaklaşık 4, 9 tepe petaflops ve 3, 3 Linpack petaflops alıyor. Ancak Nvidia'nın işaret ettiği şey, sadece 350 kilovatlık güç kullanması ve onu çok daha fazla enerji tasarrufu sağlaması. Sonuç olarak, bu sistem, en verimli enerji kullanan sistemlerin Green500 listesine girer. Nvidia, benzer performans gösteren Xeon Phi tabanlı Camphor 2 sisteminden çok daha az enerji olduğuna dikkat çekiyor (yaklaşık 5.5 petaflops peak ve 3.1 Linpack petaflops).
Nvidia ile GPU'larda daha iyi enerji verimliliği elde etmek ve Intel'e daha bilinen bir programlama modeli bulmak ile ilginç bir karşılaştırma. Gelecek yıllarda daha fazla rekabet göreceğimize eminim, çünkü farklı mimariler bunlardan hangisinin “exccale computing” e ulaşacağını veya Çin'in kendi başına yetiştirilen yaklaşımının oraya ulaşıp ulaşmayacağını görmek için yarışıyor. Şu anda, ABD Enerji Bakanlığı Exascale Computing Project, 2022'de ilk ilk exascale makinelerinin kurulmasını ve ertesi yıl kullanıma açılmasını bekliyor.
Nvidia Tesla ve Intel Xeon Phi çözümleri gibi birçok çekirdekli hızlandırıcılara yapılan vurguya rağmen, yalnızca 96 sistemin bu tür hızlandırıcıları (yalnızca Xeon Phi kullananlar dahil) kullandığını belirtmeyi ilginç buluyorum; Bir yıl önce 104 sistemlerin aksine. Intel, en büyük yonga sağlayıcısı olmaya devam ediyor, en büyük 500 sistemin 462'sinde yongaları ve ardından 22'de IBM Power işlemcileri takip ediyor. Hewlett-Packard Enterprise, Lenovo tarafından geliştirilen 140 sistem (Silicon Graphics tarafından üretilenler dahil) 92 ve Cray 56.
Makine Öğrenimi Yarışması
Gösteride veya çevresinde, çoğu yapay zeka veya makine öğrenimi ile ilgili bir dizi duyuru yapıldı. Nvidia, IBM ile Nvidia'nın NVLink bağlantısını kullanan IBM Power sunucularını çalıştıran IBM PowerAI adlı yeni bir derin öğrenme yazılımı araç seti konusunda IBM ile bir ortaklık yaptığını açıkladı.
Hem HPC hem de makine öğrenim ortamlarında bir düşünce sonucu olan AMD, bunu değiştirmek için çalışıyor. Bu alanda, şirket kendi Radeon GPU'larına odaklandı, FirePro S9300 x2 sunucu GPU'larını zorladı ve Google Cloud Platform ile bulut üzerinde kullanılmasını sağlamak için bir ortaklık yaptığını duyurdu. Ancak AMD, Nvidia'nın daha özel bir yaklaşımı hakkında OpenCL'i vurguladığı için GPU'ların programlanması için bir yazılım yatırımı yapmamıştır. Gösteride AMD, Radeon Açık Hesaplama Platformu'nun (ROCm) yeni bir versiyonunu sundu ve GPU'larını heterojen bilişim senaryolarında çoklu işlemcilerle desteklemeyi planladı, Cavium'un ThunderX ve Cavium ile başlayan ARM mimarileri IBM Power 8 CPU'ları.
Gösteride Intel, kayan nokta iş yükleri için ayarlanan mevcut Xeon E5v4 (Broadwell) yongasının yeni bir versiyonundan ve Skylake platformuna dayanan bir sonraki versiyonun gelecek yıl nasıl sonuçlanacağından bahsetti. Ancak, o haftaki bir sonraki etkinlikte, Intel çiplerini yapay zeka ya da makine öğrenme alanına yerleştirmek için tasarlanmış bir dizi duyuru yaptı. (İşte ExtremeTech'in alıcısı.) Bunun çoğunun yüksek performanslı bilgi işlem için etkileri var, ancak çoğunlukla ayrı. Başlangıçta, standart Xeon işlemcilerine ek olarak, şirket ayrıca sinir ağlarında çıkarımın çoğunu yapmak için FPGA'ları teşvik ediyor. Bu şirketin yakın zamanda Altera'yı satın almasının büyük bir nedeni ve bu tür FPGA'lar artık Microsoft gibi şirketler tarafından kullanılıyor.
Ancak geçen hafta AI'ya odaklanmak bazı yeni fişler ile ilgilendi. Birincisi, Intel'in şu anki Knights Landing versiyonunun "derin öğrenme" pazarını hedefleyen Knights Mill adlı yeni bir versiyonla destekleneceğini belirttiği Xeon Phi var. IDF'de duyurulan, bu başka bir 14nm versiyon, ancak sinir ağlarının eğitiminde sıkça kullanılan yarı hassasiyetli hesaplamaları destekliyor. Aslında, mevcut Nvidia yongalarının derin öğrenmedeki en büyük avantajlarından biri, Nvidia'nın genellikle derinlemesine "tera-ops" olarak adlandırdığı 8-bit tamsayı işlemlerine ve yarı-hassas hesaplamalara destek olmalarıdır. Intel, Knights Mill'in Knights Landing'in derin öğrenme performansının dört katına kadar çıkacağını söyledi. (Bu yonga, daha sonra geleneksel yüksek performanslı bilgisayar pazarına daha çok yönelik olan Knights Hill adında 10 nm'lik bir versiyonla izlenmeye devam ediyor.)
Gelecek yıl için en ilgi çekici olanı, Interv'in yakın zamanda edindiği ve yüksek bant genişliğine sahip belleğe (HBM) bağlı basit matematik işlemleri yapmak için tasarlanmış bir dizi işlem kümesini kullanan bir tasarım. Bu ailede ilk olarak, Intel şirketi satın almadan ve 28nm TSMC işlemiyle üretmeden önce tasarlanan Lake Crest olacak. Gelecek yılın ilk yarısındaki test sürümlerinden dolayı Intel, GPU'dan daha fazla ham bilgi işlem performansı sağlayacağını söyledi. Bu nihayetinde Nervana'nın teknolojisini Xeon ile birlikte uygulayan Knights Crest ile devam edecek ve detaylar hala duyurulmayacak.
Intel CEO'su Brian Krzanich, "Nervana'nın teknolojilerinin önümüzdeki üç yıl içinde performansta 100 kat artış sağlamasını ve veri bilimcilerin en büyük AI zorluklarını daha hızlı çözebilmelerini sağlayarak karmaşık sinir ağları yetiştirmelerini bekliyoruz" dedi.
Intel ayrıca yakın zamanda DSP tabanlı yongaları özellikle bilgisayarlı görüş çıkarımı için uygun hale getiren Movidius'u almayı planladığını açıkladı - yine daha önce eğitilmiş modellere dayanarak kararlar aldı.
Bu karmaşık ve gelişen bir hikaye - kesinlikle Nvidia'nın her yerdeki GPU'ları için kullandığı kadar kolay değil. Ancak, açıkça anlaşılan şey, makine öğreniminin ne kadar çabuk başladığını ve şirketlerin Nvidia ve AMD gibi GPU'lardan Xeon Phi gibi birçok çekirdek x86 işlemciye ve FPGA'lara kadar birçok sorunu çözmeyi planladıklarıdır. Nervana ve IBM'in TrueNorth gibi eğitim için uzmanlaşmış ürünlere, Google'ın Tensor İşleme Üniteleri gibi özel DSP benzeri çıkarım motorlarına. Piyasanın tüm bu yaklaşımlara yer olup olmadığını görmek çok ilginç olacak.