Stable Video Diffusion

Yüklenen bir fotoğrafı video haline getirebilen yeni sistem Stable Video Diffusion, Stability AI firması tarafından duyuruldu.

Yazarak görsel üretme odaklı Stable Diffusion ile tanınan Stability AI tarafından geliştirilen Stable Video Diffusion, açık kaynak yapıda iki farklı üretken yapay zeka modelini bir araya getiriyor ve Nvidia ekran kartına sahip sistemlerde lokal olarak kullanılabiliyor. Bu sistem içerisine yüklenen fotoğrafları analiz ediyor ve onlardan 4 saniye kadar kısa videolar oluşturabiliyor.

Fotoğrafları video haline getirebilen sistem.
Stable Video Diffusion https://t.co/rKcHZ6giQY @YouTube aracılığıyla
— Volkan Yılmaz 🇹🇷 (@wolkanca) November 28, 2023

Fotoğrafları video haline getirebilen sistem. Stable Video Diffusion https://youtu.be/G7mihAy691g?si=qKH7XoZl3fTTFzHW

Videodan da görüleceği üzere hazırladığı videolardaki kişileri ya da objeleri hareket eder hale getirebilen ya da direkt olarak fonu hareketlendirebilen sistem, şimdilik çok kısıtlı bir kullanım alanı sunuyor ve şu aşamada ilk seviye test denemeleri yapılıyor.

Bu konuda daha önce çok ses getiren bir Will Smith videosu olmuş, bu video komik ve bir o kadar da ürkütücü bir tarafa sahipti. Bu videoda Smith’in spagetti yemesi inanılmaz garip bir şekilde simüle ediliyor, video spesifik olarak “Chaindrop” adlı Reddit kullanıcısından geliyordu:

Will Smith eating spaghetti
byu/chaindrop inStableDiffusion

Will Smith eating spaghetti

Aktarıldığı kadarıyla 20 saniyelik aşağıdaki video için birbirinden bağımsız olarak oluşturulmuş 10 adet iki saniyelik bölüm bir araya getirilmiş. Her bir bölüm simüle edilmiş Will Smith’in açgözlülükle spagetti yemesini farklı açılarda gözler önüne seriyor, sürecin arkasında geliştirme aşamasında olan bir altyapı bulunuyor.

Videonun Alibaba’nın bir araştırma bölümü olan DAMO Vision Intelligence Lab tarafından hazırlanan ModelScope adlı yapay zekâ aracı üzerinde hazırlandığı aktarılıyor. ModelScope, “LAION5B, ImageNet ve Webvid” gibi veri tabanlarındaki milyonlarca fotoğraf ve binlerce videoyu analiz ederek, yazılan metinlerden videolar oluşturmak üzere eğitilmiş bir “text2video” modelini temel alıyor.

Bu da şahane bir canlı örnek, yapılırken görüyorsunuz, yapay zeka işaretlenen alanlardaki görselde ne varsa onu analiz edip ne olduğunu anlıyor ve hareketlendiriyor, video aşağıda, instagram(instagram.com/p/C0H3qL7rtl7/).