Google “VLOGGER”

Google Araştırmacıları, Tek Bir Fotoğraftan Gerçekçi Videolar Oluşturan “VLOGGER” Adlı Yapay Zeka Sistemini Tanıttı. VLOGGER fotoğrafları gerçek anlamda canlandırabiliyor.

Google Araştırmacıları, sadece tek bir durağan fotoğraftan yola çıkarak konuşan, jest yapan ve hareket eden insanların gerçekçi videolarını oluşturabilen yeni bir yapay zeka sistemi geliştirdiler. VLOGGER adı verilen bu sistem, durağan görüntülere hayat vererek yepyeni bir görsel anlatım imkanı sunuyor.

Sanıyorum ileride tamamen yapay zeka Youtuberları izlemeye başlayacağız, yapımcı sadece herhangi bir fotoğraf ve söylemek istediklerini yazıp video üretebilecek.

Sistem Nasıl Çalışıyor?

VLOGGER, “difüzyon modelleri” adı verilen bir tür makine öğrenimi modelini kullanıyor. Bu modeller, rastgele gürültüden başlayarak, fotoğrafa benzeyen bir görüntüye dönüşen bir dizi piksel oluşturuyor. Ardından, model videonun her karesini oluşturmak için bu görüntüyü kademeli olarak değiştiriyor.

Sonuçlar Ne Kadar Gerçekçi?

VLOGGER tarafından oluşturulan videolar kusursuz olmasa da, durağan resimleri canlandırma yeteneği açısından önemli bir ilerlemeyi temsil ediyor. Elbette, bazı küçük hatalar ve kusurlar mevcut. Örneğin, bazı videolarda dudak senkronizasyonu tam olarak doğru olmayabilir veya saç hareketleri doğal görünmeyebilir.

VLOGGER, tek bir görüntüden konuşan ve jest yapan avatarların fotogerçekçi videolarını oluşturur. (Kredi: enriccorona.github.io)

VLOGGER’ın Potansiyel Kullanım Alanları

VLOGGER’ın birçok farklı kullanım alanı olabilir. Örneğin, bu sistem:

Film ve video prodüksiyonlarında özel efektler oluşturmak için kullanılabilir.
Sosyal medya platformlarında avatarları canlandırmak için kullanılabilir.
Eğitim ve öğretim materyallerinde görsel olarak ilgi çekici içerikler oluşturmak için kullanılabilir.
Haber ve medya kuruluşlarında fotoğrafları canlandırarak daha etkileyici haber sunumları oluşturmak için kullanılabilir.

VLOGGER’ın Geleceği

VLOGGER halen geliştirilme aşamasında olsa da, görsel anlatım ve içerik oluşturma dünyasında devrim yaratma potansiyeline sahip. Gelecekte, VLOGGER’ın daha da gerçekçi videolar üretebilmesi ve daha geniş bir yelpazede uygulama alanı bulması bekleniyor.

2. Generation of Moving and Talking People

Here's an example on talking face generation given just a single input image and a driving audio. pic.twitter.com/hd7HKDfYkP
— EyeingAI (@EyeingAI) March 18, 2024

Google just unveiled VLOGGER, a tool that generates lifelike talking videos with a single photo. Now, anybody can become a YouTuber. Here’s what you need to know:

Kaynak: Google Researchers Unveil “VLOGGER”, An AI That Can Bring Still Photos To Life: venturebeat.com/ai/google-researchers-unveil-vlogger-an-ai-that-can-bring-still-photos-to-life/

Google bundan önce yapay zeka temelli “SIMA” ile ses getirmişti. DeepMind ekibi tarafından hazırlanan SIMA (Scalable Instructable Multiworld Agent), şu aşamada bir yapay zeka araştırma çalışması ve oyun oynamayı gerçek oyunlar ile öğreniyor. DeepMind araştırmacılarının Hello Games (No Man’s Sky), Tuxedo Labs (Teardown) ve Coffee Stain (Valheim ve Goat Simulator 3) gibi stüdyo ve yayıncılarla birlikte çalışarak eğitti SIMA, adeta bizim gibi oyun oynayabilir seviyede ve sürekli olarak iyileştiriliyor. Bu sistemin tahmin edebileceğiniz üzere ortaya koyabileceği çok sayıda potansiyel bulunuyor ancak altyapının özellikle oyun dünyalarındaki NPC’leri tamamen değiştirme ihtimali bulunuyor.

Bu sistem sayesinde çok daha doğal şekilde hareket edebilen, çevresine bizim gibi tepki verebilen oyun karakterleri ortaya çıkabilir ve bu oyunlardaki NPC’leri önceden belirlenmiş rotaların dışına çıkararak gerçekçiliği inanılmaz artırabilir. Yapılan açıklamaya göre SIMA şu anda sağa / sola dönmek, merdivene tırmanmak ve harita kullanmak için menüyü açma gibi yaklaşık 600 temel beceriye sahip. İleride bir oyun içinde daha karmaşık işlevleri yerine getirmesi için talimat verilebileceği de söylenen sistem, gerçekten ilginç görünüyor ve önemli kapılar açacak izlenimi oluşturuyor.

Google oyun konusunda başka çalışmalar da yapıyor. Örneğin GoogleDeepMind ekibinin elinden kısa süre önce Genie isimli bir sistem çıktı. Bu sistem verilen komutlardan çok temel seviyede oynanabilir oyunlar üretebiliyor. Ses getiren Genie, yapılan açıklamaya göre 200 bin saatlik oyun videosu üzerinde eğitilmiş ve tek bir metin komutu veya görüntüden video oyunları oluşturabiliyor olmasıyla çok dikkat çekiyor.

Google DeepMind just dropped 'Genie', an AI that can generate interactive video games.

This is a huge deal.

Genie is trained on 200,000 hours of unsupervised public internet gaming videos and can generate video games from a single prompt or image.

But here's what's insane:… pic.twitter.com/C63tDAVEVr
— Rowan Cheung (@rowancheung) February 26, 2024

Google DeepMind just dropped “Genie”, an AI that can generate interactive video games. This is a huge deal. Genie is trained on 200,000 hours of unsupervised public internet gaming videos and can generate video games from a single prompt or image. But here’s what’s insane: Despite not being trained on action or text annotations, the foundation model can determine who the main character is and enable a user to control that character in the generated world. It does this through its Latent Action Model, Video Tokenizer, and Dynamics Model (will go more in-depth on this in tomorrow’s newsletter for those interested). And for those asking, yes, it’s research-only and not publicly available (here come the Google memes), and it does come with some limitations, like only currently creating games at 1FPS. But this is the worst AI will ever be. Anyone will be able to create their own entirely imagined virtual worlds soon, and that’s a wild sentence to say out loud.

Şimdilik herkese açılmayan ve gelecek için çok ciddi bir potansiyel ortaya koyan sistem, verilen bilgiye göre ana karakterin kim olduğunu belirleyebiliyor ve kullanıcının oluşturulan dünyada bu karakteri kontrol etmesini sağlayabiliyor. Bu gerçekten oldukça iddialı görünüyor, sistemin zamanla grafiksel açıdan çok daha iyi hale getirileceği düşünülüyor. OpenAI imzalı video modeli Sora’yı gördükten sonra bu tarz sistemlerin geleceği hakkındaki beklentiler inanılmaz artıyor, üretken yapay zeka sistemleri her geçen gün korkutucu derece iyi hale geliyor.