Yapay zeka, resimlerden metne ve yapay proteinlere kadar her şeyi üretmek için kullanılıyor ve şimdi listeye bir şey daha eklendi: konuşma.
Geçen hafta Microsoft’tan araştırmacılar, yalnızca üç saniye uzunluğundaki bir örneğe dayalı olarak herkesin sesini doğru bir şekilde simüle edebilen VALL-E adlı yeni bir yapay zeka hakkında bir makale yayınladı. VALL-E, yaratılan ilk konuşma simülatörü değil, ancak öncekilerden farklı bir şekilde oluşturuldu ve potansiyel kötüye kullanım için daha büyük bir risk taşıyabilir.
Diğerlerinden farklı
Mevcut metinden konuşmaya modellerinin çoğu, belirli bir sese yaklaşmak için ton veya perde gibi özellikleri ayarlayarak sahte sesler oluşturmak için dalga biçimlerini (zaman içinde bir ortamda hareket ederken ses dalgalarının grafiksel temsilleri) kullanır. VALL-E, yine de, birinin sesinden bir örnek alır ve onu belirteç adı verilen bileşenlere ayırır, ardından bu belirteçleri, bu ses hakkında zaten öğrendiği “kurallara” dayalı yeni sesler oluşturmak için kullanır. Bir ses özellikle derinse veya bir konuşmacı A’larını nazal bir şekilde telaffuz ederse veya ortalamadan daha monotonsa, bunların tümü yapay zekanın yakalayacağı ve çoğaltabileceği özelliklerdir.
Model, Ekim ayında bu bölümde piyasaya sürülen Meta tarafından EnCodec adlı bir teknolojiye dayanıyor. Araç, sesi kalite kaybı olmadan MP3’lerden 10 kat daha küçük sıkıştırmak için üç parçalı bir sistem kullanmakta; yaratıcıları, kullanımlarından birinin düşük bant genişliğine sahip bağlantılar üzerinden yapılan aramalarda ses ve müzik kalitesini iyileştirmeyi amaçlıyordu.
VALL-E’yi eğitmek için yaratıcıları, 60.000 saatlik İngilizce konuşmasının büyük ölçüde sesli kitap anlatımından oluştuğu LibriLight adlı bir ses kitaplığı kullandı. Model en iyi sonuçlarını, sentezlenen ses eğitim kitaplığındaki seslerden birine benzediğinde verir (bunlardan 7.000’in üzerindedir, bu nedenle çok yüksek bir sıra olmamalıdır).
VALL-E, birinin sesini yeniden yaratmanın yanı sıra, üç saniyelik örnekten ses ortamını da simüle eder. Telefonla kaydedilen bir klip, yüz yüze yapılandan farklı ses çıkarır ve konuşurken yürürken veya araba kullanırken, bu senaryoların benzersiz akustiği dikkate alınır.
Örneklerden bazıları kulağa oldukça gerçekçi gelirken, diğerleri hâlâ çok açık bir şekilde bilgisayar tarafından üretilmiştir. Ancak sesler arasında gözle görülür farklar var; farklı konuşma tarzları, perdeleri ve tonlama kalıpları olan insanları temel aldıklarını söyleyebilirsin.
Suç için kullanılabilir
VALL-E’yi yaratan ekip, kötü niyetli kişiler tarafından çok kolay kullanılabileceğini biliyor; Politikacılardan veya ünlülerden alıntılar yapmaktan telefonda para veya bilgi istemek için tanıdık sesleri kullanmaya kadar, teknolojiden yararlanmanın sayısız yolu var. VALL-E’nin kodunu halka açık hale getirmekten akıllıca kaçındılar ve makalelerinin sonuna bir etik beyanı eklediler (bu, AI’yı kötü amaçlar için kullanmak isteyenleri caydırmak için fazla bir şey yapmayacaktır).
Benzer araçların ortaya çıkıp yanlış ellere geçmesi muhtemelen an meselesi. Araştırmacılar, VALL-E gibi modellerin sunacağı risklerin, ses kliplerinin gerçek mi yoksa sentezlenmiş mi olduğunu ölçmek için algılama modelleri oluşturarak azaltılabileceğini öne sürüyor. Bizi yapay zekadan korumak için yapay zekaya ihtiyacımız varsa, bu teknolojilerin net bir pozitif etkiye sahip olup olmadığını nasıl bilebiliriz? Zaman gösterecek.
Görsel: Shutterstock.com / Tancha