İçindekiler:
- Derin Öğrenme İnsan Seslerini Nasıl Üretiyor?
- Sesiz Olmayan Bir Kişinin Sesini Yeniden Dinlemek
- AI Synthesizer'ların Negatif Kullanımlarını Dengelemek
Video: Xiaomi YI Dome Guard Camera Новая домашняя IP камера видеонаблюдения (Kasım 2024)
2017'de, yıkıcı bir nörolojik hastalık olan Amyotrofik Lateral Skleroz (ALS), ünlü Buz Kovası Mücadelesi'nin kurucusu Pat Quinn'i konuşma yeteneğini soydular.
Makine öğrenimi ve derin öğrenmedeki ilerlemeler sayesinde yapay zeka algoritmaları insanları taklit etmede çok iyi hale geldi. Ancak, uzayda göze çarpan birçok gelişme negatif olsa da, AI'nın taklit gücü Quinn için olumlu bir değişim gücü idi.
Quinn gibi ALS hastalarına yardım etmeyi amaçlayan bir proje girişimi olan Proje Revoice'nin kurucusu Oskar Westerdal, “ALS ile yaşayan (motor nöron hastalığı olarak da bilinen) çoğu insan felçli ve yapay bir 'bilgisayar' sesi dışında başka hiçbir şeyle iletişim kuramıyor” diyor. .
Quinn’in sesini yeniden canlandırmak için, Project Revoice, bir kişinin sesini klonlamak için AI kullanan bir avuç şirketten biri olan Lyrebird ile işbirliği yaptı; Google'ın WaveNet ve Voicery'i de içeren bir grup, aynı zamanda sentezlenmiş ses kayıtları oluşturmak için AI kullanan Y Kombinator destekli bir başlangıç. .
Derin Öğrenme İnsan Seslerini Nasıl Üretiyor?
Bu uygulamaların ardında, geleneksel, kural tabanlı yazılımla yakalanamayan içgörü ve modeller için büyük veri setlerini ele alan popüler bir AI dalı olan derin öğrenme algoritmaları vardır. Yeterli ses kaydına sahip, derinlemesine öğrenen bir ses sentezleyici eğittiğinizde, kişinin sesini temsil eden ve yeni ses örnekleri oluşturabilen dijital bir model oluşturur.
AI destekli ses sentezi teknolojisinin ortaya çıkmasından önce, ALS hastaları, kendileri olmayan genel dijital sesleri kullanmak zorunda kaldı. Diğer teknolojiler önceden kaydedilmiş cümleleri hastanın sesiyle bir araya getirebilirdi, ancak sonuçlar çok yapaydı ve asgari kullanım için düzinelerce saatlerce ses kaydı yapılması gerekiyordu.
Diğer taraftan, derin öğrenme uygulamaları daha az veri gerektirir ve daha iyi sonuçlar sağlar. Westerdal, "Lyrebird'ün sadece birkaç saat süren sesle yapabilecekleri dikkat çekicidir - insanlara tam bir dijital ses klonu sağlar, böylece istediklerini söyleyebilirler." Diyor.
Sesiz Olmayan Bir Kişinin Sesini Yeniden Dinlemek
Derin öğrenme uygulamalarının sınırlarından biri, sinir ağlarını eğitmek için yüksek kaliteli veri örneklerine bağımlı olmalarıdır. ALS hastalarındaki problem seslerini bir kez kaybettiklerinde ses örneklerini kaydetmenin mümkün olmamasıdır. Neyse ki, Quinn saatlerce kaydedilmiş önemli notları ve röportajları vardı.
“En büyük zorluk kaliteydi. Bu teknoloji tamamen kesin bir senaryoyu takip eden tutarlı, yüksek kaliteli kayıtlara sahip olmaktan kaynaklanıyordu; bu nedenle, bulabileceğimiz her diyalog satırını manuel olarak 'yeniden düzenlemek' için bir ses stüdyosu ile çalışmak zorunda kaldık. Pat, "Westerdal diyor.
Lyrebird'ün kurucusu Jose Sotelo, “Pat'ın sesini oluşturmak için harika bir kalite sağlayamayacağımız için biraz korktuk” diyor. "Temiz kayıt alamadığımız için, yapay sesin son kalitesi mükemmel değil. Temiz kayıtlarla çok daha iyi bir iş yapabileceğimizi düşünüyoruz."
Sonuçlar hala biraz doğal ve sentetik geliyor. Ancak, iletişim kurmak için genel bir ses kullanan Quinn için bu fark çarpıcıydı. “Bu yeni teknoloji ile sesimi duyduktan sonra uçurulmuştum! Hastalar ALS'den sonra kendi seslerini bildiklerini bilmek için insanların ALS ile yaşama şeklini değiştirecek” diyor.
Quinn, ALS hastalarının çok geç olmadan seslerini kaydetmelerini önerir. “Yine kendi sesimi duyduktan sonra, ALS hastalarına seslerini kaydetmenin inanılmaz derecede önemli olduğunu bilmeleri gerekiyor” diyor.
AI Synthesizer'ların Negatif Kullanımlarını Dengelemek
Bu yılın başlarında, AI destekli yüz takas uygulaması olan FakeApp, ünlülerin ve politikacıların yer aldığı sahte pornografik videoların saldırısını tetikledi. FakeApp ve Lyrebird gibi uygulamaların yeni sahte haberler, sahtekarlık ve sahtecilik çağıyla başlayacağına dair endişeler var.
Lyrebird’ün web sitesinde bulunan etik sayfası daha önce teknolojinin “yanıltıcı diplomatlar, dolandırıcılık ve daha genel olarak başkasının kimliğinin çalınmasının neden olduğu başka herhangi bir sorunun” gibi tehlikeli sonuçları olabileceğini kabul etmişti.
Hedefi vurgulamak için, şirketin web sitesinde Donald Trump ve Barack Obama'nın sesleriyle oluşturulan çeşitli sentezlenmiş kayıtlar bulunuyor.
@realDonaldTrump https://t.co/N6DRPdEGPT pic.twitter.com/G30DvmQNdk
- Lyrebird AI (@LyrebirdAi) 4 Eylül 2017
Quinn'in hikayesi, uygulamalarının potansiyel olarak ürpertici ve etik dışı kullanımları için pırıl pırıl bir endüstrinin olumlu yönlerine ışık tutabilir. Lyrebird'den Sotelo, “İnsanların bu teknolojinin parlak tarafını fark etmesi önemlidir” diyor.
Tıbbi kullanımların yanı sıra, AI sentezleyici uygulamaları diğer üretken hedeflere hizmet edebilir. Voicery, markalara AI algoritmaları tarafından desteklenen özelleştirilmiş dijital sesler sağlıyor. Google ayrıca, Google Asistan destekli cihazlarının kullanıcılarına daha doğal bir deneyim sunmak için WaveNet'i deniyor. Teknolojinin yararlı olduğu diğer alanlar arasında sesli kitapları otomatikleştirmek veya filmlerde sesli dublaj yapmak çok daha kolaydır.
Etik ve yasal engeller şüphe doğmayacak ve tartışmalar devam edecektir. Ancak Quinn için AI, iyilik için bir güçtür. “Bilgisayar gibi ses çıkarmak istemiyorum” diyor. "Benim gibi ses çıkarmak istiyorum."