Ev Makine öğrenmesi başarısı için 7 ipucu

Makine öğrenmesi başarısı için 7 ipucu

İçindekiler:

Video: Old MacDonald Had A Farm (2018) | Nursery Rhymes | Super Simple Songs (Kasım 2024)

Video: Old MacDonald Had A Farm (2018) | Nursery Rhymes | Super Simple Songs (Kasım 2024)
Anonim

İş Kılavuzumuzun Makine Öğrenmesi (ML) bölümünün ilk bölümü, ML'nin şemsiye konseptinin bir iş ortamında nasıl çok daha farklı olduğunu ortaya çıkardı. En etkili stratejiler, kurumsal süreçleri optimize etmek ve somut iş zekası (Bİ) içgörüleri elde etmek için hem karmaşık derin öğrenme hem de daha az yoğun "ucuz öğrenme" teknikleri kullanarak, ML'ye pratik anlamda bakar.

İş uygulamalarınızda ML'yi dağıtmanın amacı, kârınızı artırmak veya şirketinizin rekabet avantajına baskı yapmaktır. Ancak kuruluşunuzun geniş planında, bu sürece harcadığınız zamanın ve kaynakların çoğunu kullanmak, algoritmaların çok ötesine geçer. İşletmenizdeki BT karar vericilerin, verilerinizi ve lojistikten kullanıcılarla nasıl ilgilendiğinize kadar, ML uygulamanıza çarpan her şeyin etkinliğini en üst düzeye çıkarmak için uyumlu bir şekilde çalıştığından emin olmaları gerekir.

Ted Dunning, Ph.D., çeşitli Büyük Veri dağıtımları ve veri yönetimi araçları sunan kurumsal bir yazılım şirketi olan MapR'de Baş Uygulama Mimarıdır. Dunning, "Pratik Makine Öğrenimi" olarak adlandırdığı şeyle ilgili iki kitap yazdı ve yıllarca ID Analytics sahtekarlık algılama sistemi (LifeLock tarafından satın alındı) ve Musicmatch Jukebox yazılımı da dahil olmak üzere birkaç şirket için ML teknolojileri geliştirdi. daha sonra Yahoo Müzik oldu. Ayrıca şu anda Apache Yazılım Vakfı için Kuluçka Başkan Yardımcısı olarak görev yapmaktadır.

Dunning, ML uzayının on yıllardır gelişmesini izlemiş ve pratik bir iş ortamında neyin işe yarayıp neyin yaramadığı hakkında çok şey öğrenmiştir. Aşağıda, Dunning, ML'de yerleşik iş çözümleri geliştirirken izlenecek en iyi yedi uygulamayı ortaya koymaktadır.

1. Lojistik unutma

Başarılı ML sadece doğru aracı veya algoritmayı seçmekle ilgili değildir. Dunning, hangi yaklaşımın uygun olduğunu bulmanız ve ele aldığınız özel durumlar için tasarlamanız gerektiğini söyledi. Örneğin, Dunning, özerk bir araca rehberlik eden algoritmalar gibi çok daha karmaşık senaryoların aksine, bir çevrimiçi pazarlama kampanyasında ML hakkında konuştu. Kaynaklarınızı artan bir algoritma iyileştirmesi için harcamak, otomobil için sorun yaratmaya değer, ancak pazarlama senaryosunda, etrafındaki tüm lojistiği optimize etmekten çok daha iyi bir dönüş göreceksiniz.

Dunning, "Çoğu zaman, işletmeler için, size değer veren, öğrenme değil, lojistiktir. Bu, zamanınızı ve kaynaklarınızı harcayacağınız kısımdır" dedi. “Algoritmayı ayarlamak size küçük bir gelişme sağlar. Ancak bu verileri, GUI'yi ve kullanıcılarınızı nasıl dinlediğiniz ve onlarla ilişki kurduğunuzda kolayca yüzde 100 iyileştirme sağlayabilirsiniz. Algoritmayı çimdiklemek zaman harcamakta fayda var. İşletmelerinizi kullanıcılarınızı çok dinliyor.

Dunning, bu noktayı açıklamak için bir şirketin müşteri veritabanında uygulama dolandırıcılığını belirlemek için (çalınan kimliğe sahip sahte hesaplar açmak) bir model oluşturduğunu açıkladı. Oluşturduğu model harika sonuçlar elde etti, ancak Dunning başvurucunun cinsiyetini çok ağırlaştırdığını fark etti.

Lojistiğin kapalı olduğu ortaya çıktı. Başvuru sürecinin nasıl yürüdüğünü gösteren başvuru sahibi, cinsiyetini ancak bir müşteri haline geldikten ve dolandırıcıları filtrelemek için bir dizi tarama adımından geçtikten sonra doldurdu. Bu nedenle, toplumsal cinsiyet alanını kullanarak, ML modeli tüm sahtekarlık sürecinin lojistiğini aldatıyordu. Bunun algoritma ile ilgisi yok ve şirketin verilerini ilk etapta nasıl elde ettiği ile ilgili her şey var.

2. Verilerinize Dikkat Edin

Dunning, bilgeliğin akılda kalıcı haberleriyle doludur. “Bu öğrenme değil lojistik” ile başladıktan sonra, bu fikrin diğer yarısının “veri değil, algoritma” olduğunu söyledi. ML algoritmalarınızın değerli bilgiler sağladığından emin olmanın büyük bir kısmı, onları doğru verileri beslediğinizden emin olmaktır. Dunning, aradığınız sonucu alamıyorsanız, doğru verileri kullanamadığınızdan daha fazla sıklıkta olmadığını söyledi.

Dunning, "İnsanlar her şeyden sarılıyorlar ve belirli algoritmalara ego-bağlılar, ancak bugünlerde, oradaki araçlar nedeniyle, herkes ve anneleri her türlü yeni algoritma ile gelebiliyor ve geliyor." Dedi. “Veriler çok daha önemlidir ve size algoritmalarınızı sınırsızca ayarlamaktan çok daha fazla şey kazandırır. Konuşma tanıma veya bilgisayarla görme gibi zor bir sorun üzerinde çalışıyorsanız, bu bir şeydir. Ama bu veri odaklı bir alandır. Senaryoların çoğunda, elde ettiğiniz verileri ayarlamaktan ve soruyu değiştirmekten çok daha fazla yararlanacaksınız. "

Dunning, 2000'li yılların ortalarında Veoh Networks adlı bir şirkette bir video öneri motoru oluştururken bunu yaptı. Ekip, insanların beklenenden daha fazla tıkladığı, kullanıcı tarafından oluşturulan video çiftlerini tanımlamaya çalışıyordu, ancak algoritma işe yaramadı. Kullanıcıların favori sanatçılarını ve şarkılarını isimleriyle tanıdıkları müzik açısından düşünüyorlardı. Böylece, algoritmayı kendisine dokunmadan kullanıcı arayüzünü değiştirerek soruyu değiştirdiler.

Dunning, "Kullanıcı tarafından oluşturulan videolarda, hiç kimse sanatçıları tanımıyor ve birçok videoda daha fazla görüntü elde etmek için gerçekten spam içerikli başlıklar var. Algoritma tweaks'lerinde bisiklet sürmek bize asla iyi sonuçlar vermezdi" dedi. “Yaptığımız şey, kullanıcı arayüzünü her 10 saniyede bir bir işaret sinyali verecek şekilde değiştirdi. Tavsiyenin ham verileri için tıklamalar yerine işaretleyiciyi kullanırsak, harika sonuçlar elde ettiğimizi gördük. Öneriler nedeniyle katılımda yüzde yüz iyileşme, algoritmik değişiklik yok. "

3. Algoritmalar Sihirli Mermi Değildir

ML uygulamaları sürekli deneme yanılma ile gelişir. Algoritmalarınız ne kadar iyi olursa olsun, sisteminiz insanlarla etkileşime giriyorsa, zaman içinde ayarlanması gerekecektir. Dunning, işletmelerin uygulamalarının genel etkinliğini sürekli ölçmesi ve daha iyi hale getiren ve daha da kötüleştiren değişiklikleri ve değişkenleri tanımlamaları gerektiğini vurguladı. Bu bir platitude gibi gelebilir, ancak Dunning kulağa ne kadar açık gelse de, çok az insan bunu yapıyor veya iyi yapıyor.

Dunning, "Bir çok insan bir sistemi kurmak ya da biraz harekete geçmek istiyor ve algoritmalarının sonsuza dek kusursuz çalışmasını istiyor, " dedi. "Hiçbir algoritma sihirli bir mermi olmayacak. Hiçbir kullanıcı arayüzü tasarımı sonsuza dek yapışmayacak. Hiçbir veri toplama yöntemi asla geçerliliğini yitirmeyecek. Tüm bunların gerçekleşebileceği ve olacağı ve işletmelerin nasıl titizlikle ölçme, değerlendirme ve yeniden değerleme yapmaları gerektiği sistem çalışıyor. "

4. Farklı Bir Araç Takımı Kullanın

Birçoğunu ücretsiz kullanabileceğiniz düzinelerce ML aracı bulunmaktadır. Mahout, Singa ve Spark gibi bir dizi Apache Software Foundation (ASF) projesinde Caffe, H20, Shogun, TensorFlow ve Torch gibi popüler açık kaynak kodlu kütüphaneleriniz var. Daha sonra Amazon Machine Learning, BigML ve Microsoft Azure Machine Learning Studio dahil olmak üzere abonelik tabanlı seçenekler var. Microsoft ayrıca ücretsiz bir Bilişsel Araç Seti'ne sahiptir.

Mevcut sayısız kaynak var. Dunning sayısız işletmeye, veri bilimcilere ve ML pratisyenlerine konuştu ve her zaman kaç farklı çerçeve ve araç kullandıklarını sordu. Dunning, ortalama olarak, çoğu asgari 5-7 araç kullandıklarını ve genellikle çok daha fazlasını kullandıklarını söyledi.

Dunning, "Tek bir araca yapıştırılamazsınız. Birkaç kullanmanız gerekecek ve böylece sisteminizi agnostik olacak şekilde kurmanız daha iyi olur" dedi. “Sizi bu aracın ihtiyaç duyacağınız tek araç olduğuna ikna etmeye çalışan herhangi biri size bir ürün reçetesi satıyor.

Dunning, “Gelecek hafta elma arabasını kızdıran ve gördüğümüz inovasyon oranında, en az beş ila 10 yıl boyunca devam edecek bir şeyler olabilir” dedi. "Bir katalogdaki resimleri analiz etmek için mevcut bir görüntü sınıflandırıcıyı yeniden kullandığınız, belki de ucuz bir öğrenme örneğine bakın. Bu, bilgisayarlı görüntünün atıldığı derin bir öğrenmedir. Ancak, hepsini paketleyen araçlar var. farklı araçlar arasında ölçüm yapmak, değerlendirmek ve boşaltmak için altyapınızın bunu memnuniyetle karşılaması gerekiyor. ”

5. Hibrit Öğrenme ile Deneme

Dunning, ucuz ve derin öğrenmeyi birlikte melez bir şeyle karıştırabileceğinizi söyledi. Örneğin, mevcut bir bilgisayar vizyon modelini alırsanız ve bir kararın verildiği ilk birkaç katmanı yeniden yapılandırırsanız, mevcut bir çerçeveyi tamamen yeni bir kullanım durumu için birlikte seçebilirsiniz. Dunning, yarışmacıların tam da bunu yaptığı bir Kaggle yarışmasına işaret etti; Bir veri setini aldılar ve bir bilgisayarın kedileri köpeklerden ayırt etmesine yardımcı olmak için üstüne yeni bir algoritma yazdılar.

"Kedileri ve köpekleri ayırt etmek bir ML algoritması için çok ince bir şeydir. Mantığı düşünün: Kedilerin sivri kulakları var ama Alman Çobanları da var. Köpeklerin Dalmaçyalılar hariç lekeleri yok, vb. Tanımı oldukça zor olabilir. kendi içinde, "dedi Dunning. “Kazanan adam bunu yüzde 99 doğrulukla yapan bir sistem geliştirdi. Ama üçüncü gelen kişi tarafından daha çok etkilendim. Sıfırdan inşa etmek yerine, mevcut bir görüntü tanıma programını farklı bir görevden aldı, üst tabaka ve içine basit bir sınıflandırıcı koydu. Ona bazı örnekler verdi ve yakında, kedileri köpeklerden ayırmada yüzde 98 kesinti. Tüm süreç adamı üç saat sürdü. "

6. ucuz kötü demek değildir

Açık konuşmaya rağmen, Dunning ucuz öğrenmenin kötü öğrenme anlamına gelmediğini söyledi. Bir ML uygulamasına harcadığınız zaman miktarı doğrudan işletme değeri ile ilişkili değildir. Yetkili, daha önemli kalitenin sürecin tekrarlanabilir ve güvenilir olduğundan emin olmak olduğunu söyledi. Eğer iş, gereksiz miktarda kaynağa yatırım yapmadan bunu başarabilirse, o zaman hepsi bu kadar iyi.

Dunning, "Ucuz fena demek değil. Çalışırsa, işe yarar. Ucuzsa ve işe yarıyorsa, bu büyüktür. Ama inşa etmek için harcadığınız çaba, değeri tanımlamaz. Bu bir toplam maliyet yanlışlığıdır." Dedi. . “Değeri tanımlayan şey, işletmeyi nasıl iyileştirdiğidir. Kârları artırır veya maliyetleri düşürürse veya rekabet durumunuzu iyileştirirse. Bu çabadır, sonuç değil.”

7. AI demeyin

Dunning, bu tekniklerden bahsederken, işletmelerin şu terminolojiyi kullanmaları gerektiğini vurguladı: ML, bilgisayar görüşü veya derin öğrenme. Tüm bunlar "yapay zeka" teriminin altına düşme eğilimindedir, ancak Dunning'e göre AI'nın tanımı sadece "henüz işe yaramayan şeyler" dir.

Dunning, "AI için şimdiye kadar duyduğum en iyi tanım, henüz açıklayamayacağımız şeylerdir. Çözemediğimiz şeyler" dedi. “Çalışacak bir şey bulduğumuzda insanlar“ Ah, bu AI değil, sadece yazılım. Bu sadece bir kural motoru. Gerçekten sadece lojistik regresyon ”diyor. Bir şeyleri çözmeden önce, AI diyoruz, daha sonra, her zaman başka bir şey diyoruz… Birçok yönden, AI bir sonraki sınır için bir kelime olarak daha iyi kullanılır ve AI'da, her zaman bir sonraki sınır olacaktır. Gittiğimiz yer, zaten ulaştığımız yerde değil.

Makine öğrenmesi başarısı için 7 ipucu