Video: Xiaomi + HomeKit через Siri Быстрые Команды Shortcuts сценарий голосовое управление Mi Home (Kasım 2024)
Akıllı Asistanlar - Siri, Google Asistan, Cortana ve benzerleri - merak ve hilelerden sadece birkaç yıl önce birçok insanın günlük yaşamlarında kullandığı temel araçlara geçti. Geçtiğimiz hafta, Opus Research tarafından sunulan New York'taki Akıllı Asistanlar Konferansı'na düştüm ve yazılımın, özel ajanlar oluşturmadaki finansal, sigorta ve tıbbi şirketlerdeki ilerlemeler de dahil olmak üzere, çeşitli sektörlerde kaydettiği ilerlemeden etkilendim. .
Opus Araştırma kurucusu Dan Miller, konuşma tanıma gibi temel teknolojilerin çoğunun 20 yıldan fazla bir süredir bulunduğunu açıkladı. Son zamanlarda bir devrimden ziyade bazı büyük gelişmeler görmesine rağmen, farklı yeteneklere sahip sürekli bir ürün yelpazesiyle "evrimsel bir yoldayız" dedi. Sabit bir veri kümesi kullanarak basit İngilizce tabanlı metin tabanlı bir konuşma için ve bir web sitesinde veya bir SSS'de gezinmek gibi şeylerde kullanılabilecek yüzlerce kurumsal akıllı asistan olduğunu belirtti. Spektrumun diğer ucunda, muhtemelen daha fazla konuşma ve bağlam farkındalığı olan sadece birkaç düzine "dinamik, insan hissi uyandıran uygulama" var.
Miller, konferansta ödül kazanan uygulamalara işaret etti. Amtrak'lı Julie, yıllar önce etkileşimli bir sesli yanıtlı telefon servis ajanı olarak başladı, ancak şimdi Next IT'den bir ajanı baz alarak Amtrak.com aracılığıyla gezginleri yönlendirmek için web sitesinde çalışan bir araca dönüşmüştür. Telefonica Mexico, Nico adlı bir ajana sahip ve aynı zamanda AgentBot platformuna dayanan Twitter ve Facebook üzerinden destek sağlıyor. ING Netherlands, kimliğinizi doğrulamak için banka hesap bakiyenizi kontrol etmenizi veya Nuance'ın ses biyometrik teknolojisini kullanarak ses yoluyla para transfer etmenizi sağlayan bir uygulama olan Inge'ye sahiptir.
Onurlu sözler, bir sağlık planı seçmenize yardımcı olan bir uygulama gibi sağlık uygulamalarını içerir. Şovda duyduğum diğer uygulamalar arasında, pizza siparişinizde ses kullanmanıza olanak tanıyan Dom adlı bir uygulaması olan Domino's Pizza; ve Up2drive oto finansman kolunun bir parçası olarak sanal bir ajanı olan BMW.
Nuance'dan Brett Beraneck, derin öğrenme sinir ağlarındaki ilerlemelerin doğal dil anlayışının yanı sıra ses tanıma gibi şeyleri nasıl geliştirdiğini ve bunun şimdi alana daha fazla ilgi göstermek için nasıl bir araya geldiğini anlattı. Nuance'ın Nina asistanı erken bir örnekti ve o zamandan beri sigorta şirketlerinde etkileşimli sesli yanıt sistemlerinden alışveriş uygulamalarına kadar birçok özel uygulamaya ulaştı. Bu uygulamaların her biri, size yardım etmeye çalıştığı şeye bağlı olarak farklı bir kişiliğe sahiptir.
Tartıştığı yeni büyük özelliklerden biri, sesinizin bir parolanın yerini aldığı ses biyometrisidir. Avrupa'daki ING gibi şirketlerin sadece ses tanıma ve doğal dil işlemeyi kullanan ajanları nasıl geliştirdiklerini değil, aynı zamanda arayan kişiyi tanımak için sesi kullanmaya başladıklarından bahsetti. Bunun geleneksel bir paroladan daha güvenli ve daha doğal olduğunu söyledi.
Son çalışmalar, ses kayıtlarının bu sistemleri kandırabileceğinden endişe duymasına rağmen, Nuance, günümüz teknolojisinin, kaydedilen seslerden anomalileri toplamaya yönelik özellikler içerdiğini ve farklı bir bakış açısına sahip diğer çalışmalara işaret ettiğini belirtti. Ayrıca, tasarımcıların bir hesap bakiyesini kontrol etmek için basit bir tanıma kullanmak veya önemli para transferleri için rastgele bir kelime dizisini tekrar etmenizi istemek gibi farklı işlevler için farklı seviyelerde ses biyometrisi kullanabileceğini söyledi.
Ses biyometrisi kesinlikle biraz çekiş kazanıyor gibi görünüyor. Geçtiğimiz hafta Gartner Sempozyumu'nda, finansal hizmetlerdeki "iyi müşteri vakaları" konulu bir oturum, bu özelliği kullanan bir Citibank uygulamasını içeriyordu.
MyWave, Frank adlı bir asistana sahiptir ve birden fazla işletme tarafından, her bir işletmenin kendi geliştirmesini sağlamak yerine, onlarla daha fazla iletişim kurabilmenizi sağlayan birçok işletme tarafından etkinleştirilebilir. İlk kullanım alanları arasında bir Yeni Zelanda bankası ve elektrik sağlayıcınızı seçmenize yardımcı olacak şekilde tasarlanmış Saveawatt adlı bir uygulama bulunur.
CEO Geraldine McBride, şirketin, müşterilerle hizmet uygulamaları arasındaki farkı “müşteri tarafından yönetilen ilişkiler” ya da geleneksel CRM uygulamalarında kullanılan CMR ile aralarında köprü kuran asistanlar yaratmaya çalıştığını belirtti. Büyük bir fark, müşterinin iş yerine tüm verilerinden sorumlu olduğudur.
Nispeten yeni bir başka şirket olan Expect Labs, MindMeld adlı bir ürüne sahiptir ve geleneksel arayüzleri değiştirmek ve soru ve cevaplarla ilgilenmek için bir ses arayüzü sunmak isteyen bir dizi şirkete arka uç olarak çalışır. Bu, yalnızca adını sorarak ve sistemin birden fazla sistemi sorgulamasını sağlayarak TV şovları izlemek gibi çeşitli uygulamalar için kullanılabilir. (Amazon'un Fire TV'si bu özelliklerden bazılarına sahiptir, ancak kablo alıcı kutunuzla entegre değildir, Expect Labs'daki yatırımcılardan biri de Liberty Global kablo şirketidir.)
CEO Tim Tuttle, MindMeld'in çoğu cihazda zaten mevcut olan konuşma tanıma özelliğini kullanma eğiliminde olduğunu ve bunun yerine doğal dil anlayışına ve mevcut bilgilerin bir bilgi grafiğini oluşturmaya odaklandığını belirtti. Firmanın, sistemi çoklu kaynaklardan daha fazla bilgi içerecek şekilde ölçeklendirmeye ve bu tür sistemlerin bir parçası olan farklı bilgi kategorileri hiyerarşilerini yıkmaya çalıştığını söyledi. Soruları gerçekten anlamak, çeşitli kategorilerdeki niyeti anlayabilmek anlamına geliyor.
Çok sayıda katılımcıdan duyduğum bir şey, tüm Web aramalarının yaklaşık yüzde 10'unun istihbarat aracılarıyla yapıldığını öne süren istatistiklerdi. (AI öncüsü Andrew Ng, bunun geçen yıl Baidu'da sesli arama için doğru olduğunu söyledi ve birkaç kişi bunun Google'da da geçerli olduğunu söyledi, ancak ilk elden hiçbir onay almadım.)
İleriye baktığımızda, Opus Research’ün Miller’i, yapılacak çok iş olduğunu söyledi. Sistemlerin temel doğruluğu, özellikle söylediklerinizden neyi kastediyorsanız sonuç olarak ne yapmanız gerektiğine geçişte, iyileştirme için bolca yer vardır. Konferansta Xerox PARC CEO'su Stephen Hoover’dan bir konuşmadan bahsetti, bu da bugün sistemlerin ne demek istediğimizi anlamada yüzde 90’a kadar doğru olduğunu söyledi, ancak yüzde 10’u hala sorun, çünkü çoğu insanla uğraşırken hatırladıkları şey bir sistem. Miller daha iyi kişiselleştirme için yer olduğunu söyledi, çünkü sistem kiminle konuştuğunu bilirse daha iyi sonuçlar verebilir. Örneğin, Facebook'un sisteme kimin girdiğini bildiğini ve giriş yaptığını bildiğini belirtti; ve sorunsuz bir şekilde daha fazla ajanla bunu yapmanın daha önemli olacağını söyledi.
Kesinlikle büyüleyici bir kategori ve umarım hepimiz telefonlarımızla ve bilgisayarlarımızla konuşarak ve insan olmayan ajanlarla etkileşime girerek daha fazla zaman geçiririz. Bu günlerde hesaplamada en ilgi çekici trendlerden birini buluyorum.