Ev İleri düşünme Sıcak patates kızartması: Makine öğrenmesi merkezi aşamaya geçer

Sıcak patates kızartması: Makine öğrenmesi merkezi aşamaya geçer

2024

Video: Hot Chip @ The Lot Radio (Sept 4th 2019) (Kasım 2024)

Bu günlerde hesaplamada en sıcak konu, makine öğrenmesidir ve bu kesinlikle donanım tarafında görülebilir. Son haftalarda, Nvidia'nın Tesla P100 ve Drive PX 2'sinden Google'ın Tensor İşleme Ünitelerine ve Intel'in Xeon Phi'sine kadar derin öğrenme için tasarlanan yeni cipsler hakkında çok şey duyduk. Bu nedenle, geçen hafta Hot Chips konferansında, makine öğrenmeye ve vizyon işlemeye uyarlanmış tasarıma çok farklı yaklaşımlarla birkaç farklı şirketten haber almamız şaşırtıcı değil.

Belki de en büyük haber Nvidia'nın, kendi kendini süren otomobiller için Drive PX 2 modülünde kullanılan ve otonom makineler için derinlemesine öğrenmeyi amaçlayan Parker çipiyle ilgili daha fazla ayrıntı açıklamasıydı. Bu yonga, iki özel ARM-uyumlu Denver CPU çekirdeği, dört ARM Cortex-A57 çekirdeği ve 256 Nvidia'nın Pascal CUDA (grafik) çekirdeği olarak adlandırdığı şeyleri kullanıyor.

Nvidia, bunun özel esneklik özelliklerine sahip otomotiv kullanımı için tasarlanan ve derecelendirilen ilk yongası olduğunu söyledi ve Denver çekirdeğinin watt başına önemli bir gelişme sağladığına dikkat çekerek daha hızlı ve hafızasından bahsetti. Yeni özellikler arasında, geleneksel olarak ayrı bilgisayarlarda yapılan araç özelliklerinin entegrasyonunu sağlamak için 8 VMS'ye kadar donanım destekli sanallaştırma bulunmaktadır. Genel olarak, şirket, Drive PX 2 modelinin iki adet Parker çipine ve iki ayrı GPU'ya sahip olabileceğini ve toplam 8 teraflop (çift hassasiyetli) veya 24 derin öğrenme işlemiyle (8 bit veya yarı hassasiyetli) olabileceğini söyledi. şirket göreceli olarak eski bir kriter olan SpecInt_2000 kullanarak mevcut mobil işlemeyle karşılaştırmalı karşılaştırmalı kriterler içermekteydi. Ancak performans etkileyici görünüyor ve Volvo yakın zamanda bunu gelecek yıl başlayacak özerk araçları test etmek için kullanacağını söyledi.

Tabii ki başka birçok yaklaşım var.

Çin'in başlangıcı DeePhi, sinir ağları için FPGA tabanlı bir platformdan bahsetti ve söz konusu ağın türüne bağlı olarak iki farklı mimariye sahipti. Aristoteles nispeten küçük evrimsel sinir ağları için tasarlanmıştır ve Xilinx Zynq 7000'i temel alırken Descartes, Kintex Ultrascale FPGA'ya dayanan uzun kısa süreli bellek (RNN-LSTM) kullanan daha büyük tekrarlayan sinir ağları için tasarlanmıştır. DeePhi, derleyicisinin ve mimarisinin FPGA'ların çoğu kullanımına kıyasla geliştirme süresini kısalttığını ve ayrıca FPGA kullanmanın Nvidia'nın Tegra K1 ve K40 çözümlerinden daha iyi performans sağlayabileceğini iddia ediyor.

Başka bir yaklaşım, tipik olarak çok az enerji kullanarak, belirli bir işlevi veya çok küçük bir işlev kümesini çok hızlı bir şekilde gerçekleştiren bir dijital sinyal işlemcisi veya DSP kullanmaktır. Genellikle bunlar, görüntü işleme gibi belirli işlevleri hızlandırmak için diğer, daha karmaşık çiplere yerleştirilir. Movidius, CEVA ve Cadence gibi bir dizi şirket, çözümlerini Hot Chips'te paylaşıyordu.

Movidius, Myriad 2 vision işleme birimi olarak bilinen DSP tabanlı çözümünü gösteriyordu ve DJI Phantom 4 uçağı içinde sergiledi. Ayrıca, Myriad 2'nin GPU'ları ve 2014 ImageNet yarışmasında kullanılan GoogLeNet derin sinir ağını nasıl geride bıraktığını gösterdi.

CEVA, Caffe veya TensorFlow çerçeveleri için yazılmış her şeyi alabileceği ve çalışmasını optimize edebileceğini söylediği CEVA Derin Sinir Ağı 2 platformu ile birlikte, özellikle vizyon işlemesi için ayarlanmış ve otomotiv pazarına yönelik CEVA-XM4 Vision DSP'yi tanıtıyordu. onun DSP'sinde. Yeni işlemci gelecek yıl SoC'larda olmalı.

Bu arada, Tensilica ailesini (diğer ürünlere eklenebilir) görme işlemcileri ailesi yapan Cadence, en yeni sürümünü, vektör kayan nokta desteği ve yeni evrimsel sinir ağları için diğer özellikler gibi yeni özellikler ekleyen Vision P6'yı tartıştı. . İlk ürünler birazdan piyasaya sürülmeli.

Microsoft, Windows 10 çalıştıran 14nm Intel Atom Cherry Trail işlemcisi ve TSMC tarafından 28nm işlemiyle üretilen özel bir Holografik İşleme Ünitesi (HPU 1.0) sensör hub kullandığını söyleyerek HoloLens kulaklığının donanımının ayrıntılarından bahsetti. Buna 24 Tensilica DSP çekirdeği dahildir.

Özellikle, sinir ağları için kilit yapı taşlarından biri olan GPU'ların, FPGA'ların ve farklı DSP'lerin verim ve verimindeki farklılıkları gösteren Cadence slaytlarından biri tarafından çekilmiştim. Açıkça kendi kendine hizmet sunarken (tüm satıcı sunumları gibi), maliyetlerin ve programlama kolaylığından bahsetmek yerine, farklı tekniklerin hız ve verimlilik (watt başına performans) açısından nasıl değiştiğine dikkat çekti. Burada farklı yaklaşımlar için birçok çözüm var ve bunun önümüzdeki birkaç yıl boyunca nasıl sallandığını görmek ilginç olacak.