Metinden görsel üreten yapay zekalı araçlar arasında yoğun bir rekabet yaşandı. Şimdi bu rekabet hızla metinden video üretimine doğru kayıyor. Runway’in Text to Video özelliği en çok ses getirenlerdendi. Şimdi de teknoloji devleri Google ve Meta arasında alevlenen kıyasıya bir rekabet gündemde.
Google dün Imagen Video isimli metinden video üreten aracını detaylı bir şekilde tanıttı. Bu hamle aslında bir bakıma Meta’nın 29 Eylül’de tanıttığı Make-A-Video isimli aracına misilleme niteliğindeydi.
Make-A-Video tanıtımındaki resim yapan ayıcığa karşılık, Imagen Video’nun bulaşık yıkayan ayıcık videosu…
Imagen Video ve Make-A-Video metinden video üretiminde yaşanan sıçramayı ortaya koyuyor
Google, Imagen Video‘nun yüksek derecede kontrol edilebilirliğine ve görüntü oluşturma yeteneğine vurgu yaptı. Ayrıca dünya bilgisine sahip bir sisteme doğru bir adım olduğunu da vurguladı. Çoğu metinden resim üreten araçta olduğu gibi bu video üreticisi de farklı stillerde klipler üretebiliyor.
Metinden video üreten sistemler yeni değil. Örneğin 2022’nin başlarında, Tsinghua Üniversitesi ve Pekin Yapay Zeka Akademisi’nden bir grup araştırmacı, metni makul derecede yüksek kaliteli kısa kliplere çevirebilen CogVideo‘yu yayınlamıştı. CogVideo ile yaratılan klip örneklerini şurada görebilirsiniz. Ancak yılın son çeyreğine vardığımız bu dönemde bu alanda hızla bir sıçrama yaşandığı gerçek. Haberin girişinde bahsettiğin Runway bunlardan biriydi. Imagen Video da bu sıçramanın somut kanıtlarından biri. Bu yeni metinden video üreten sistemler, mevcut sistemlerin anlamakta güçlük çekeceği metinleri canlandırmak için daha gelişmiş yeteneklere sahip.
Excited to announce Imagen Video, our new text-conditioned video diffusion model that generates 1280×768 24fps HD videos! #ImagenVideohttps://t.co/JWj3L7MpBU
Work w/ @wchan212 @Chitwan_Saharia @jaywhang_ @RuiqiGao @agritsenko @dpkingma @poolio @mo_norouzi @fleet_dj @TimSalimans pic.twitter.com/eN81LqZW7I— Jonathan Ho (@hojonathanho) October 5, 2022
Örneklere baktığımızda en iyi çıktıların bile hala biraz bulanık ve yapay olduğunu görüyoruz. Imagen Video ekibi bunları aşmak için, bugün piyasaya sürülen ve uzun, ayrıntılı komutları daha düşük kalitede de olsa iki dakikadan fazla videoya dönüştürebilen başka bir Google metinden videoya sistemi olan Phenaki‘nin arkasındaki araştırmacılarla güçlerini birleştirmeyi planlıyor.
Ben de bu pürüzlerin hızla aşılacağını tahmin ediyorum. Bu pürüzlerin nedeni, videoların resimlere kıyasla yüksek sayısal hesaplama işlemleri gerektirmesi. Ancak geçen yıl bu zamanlar metinden resim üreten araçlar da ilkel bir durumdaydı. Bu nedenle metinden video üreten araçların önümüzdeki aylarda hızla gelişebileceğini hayal etmek zor değil. O yüzden Imagen Video’yu gerçekten büyük bir gelişme olarak tarihe not düşebiliriz.
Imagen Video tahmin edeceğiniz üzere Google’ın Imagen’i üzerine kurulu bir sistem. Imagen, mevcut birçok veri örneğinin nasıl “yok edileceğini” ve “kurtarılacağını” öğrenerek yeni veriler üreten bir “diffusion” (yayılma) modeli. Hatta OpenAI’nin DALL-E’si ve Stable Diffusion ile kıyaslanan en iyi modellerden. Model, mevcut örneklerle beslendikçe, yeni işler oluşturma konusunda daha iyi hale geliyor. Tabii Google’ın bu açıdan diğer teknoloji şirketlerine kıyasla ne kadar avantajlı olduğunu görmek zor değil. Dolayısıyla Google’ın Imagen’ı hem resim hem de video üretmede rakiplerini geride bırakıp tek başına piyasaya hakim olma potansiyeli taşıyor. Düşünün ki Google, Imagen Video’nun 14 milyon video-metin çifti ve 60 milyon görüntü-metin çiftinin yanı sıra halka açık LAION-400M görüntü-metin veri kümesi üzerinde eğitildiğini açıklamış.
Imagen Video nasıl çalışıyor?
Imagen Video’nun arkasındaki Google araştırma ekibinin şu makalede açıkladığı gibi, sistem metne göre ilk aşamada saniyede üç kare (24 x 48 piksel çözünürlükte) olmak üzere 16 kareden oluşan bir video yaratıyor. Ardından, sistem tahmin yeteneğini devreye sokarak ek kareler üretiyor. Böylece 720p (1280×768) bir klip ortaya ortaya çıkıyor. Bu son aşamada klip saniyede 24 kare olmak üzere 128 kareye genişliyor. Ekip yaptığı deneylerde, Imagen Video’nun Van Gogh resimleri ve sulu boya tarzında videolar oluşturabildiğini görmüş. Hatta Imagen Video’nun derinlik ve üç boyutluluk anlayışı gösterdiğini, nesnelerin etrafında dönen ve nesneleri bozmadan farklı açılardan yakalayan videolar oluşturabileceğini iddia ediyorlar.
Çoğunuzun bildiği üzere Imagen halka açık bir yapay zekalı araç değil. Şimdiye kadar yalnızca Google çalışanları tarafından metinden görüntü oluşturmak için kullanıldı. Zaman zaman da ortaya çıkan örnekler basınla paylaşıldı. Aynı durum Imagen Video için de geçerli. Araştırmacılar, sistemi eğitmek için kullanılan veriler arasında, Imagen Video’nun şiddet içeren veya müstehcen klipler üretmesine neden olabilecek sorunlu veriler de olduğunu belirtiyor. Google, “bu endişeler giderilinceye kadar” Imagen Video modelini veya kaynak kodunu yayınlamayacağını açıklamıştı. Hatta Meta’nın yaptığı gibi bir kayıt formu dahi açmayacaklar. Haberin ilerleyen kısımlarında Meta’nın da bu tür endişeler taşıdığından bahsedeceğim.
last week, meta unveiled its project to generate an entire video from a short text prompt. this week, google is doing the same thing. h/t @_akhaliqhttps://t.co/lCbL64iFIwhttps://t.co/27LFzAgL6L pic.twitter.com/USJf6tDFdF
— Rachel Metz on mastodon @[email protected] (@rachelmetz) October 5, 2022
Make-A-Video’yu büyük bir ilerleme olarak duyuran Meta’nın da Google gibi bu teknolojiyle ilgili endişeleri var
Şimdi gelelim Meta’nın Make-A-Video sistemine… Bu sistem, Meta’dan makine öğrenimi mühendislerinden oluşan bir ekip tarafından tanıtıldı. Tıpkı Imagen Video’da olduğu gibi, bu yapay zekalı araç da alelacele tanıtılmış gibi duruyor. Çünkü bu araçla üretilen videolarda görüntüsü kalitesi iyi değil ve belirgin bir yapaylık hakim. Ancak yine de yapay zekayla içerik üretimi alanında önemli bir gelişmeyi temsil ettiği kesin. Google’ı en çok zorlayacak rakibin, Instagram ve Facebook gibi görsel ve video havuzlarıyla da beslenme potansiyeli olan Meta olduğunu inkar edemeyiz.
We’re pleased to introduce Make-A-Video, our latest in #GenerativeAI research! With just a few words, this state-of-the-art AI system generates high-quality videos from text prompts.
Have an idea you want to see? Reply w/ your prompt using #MetaAI and we’ll share more results. pic.twitter.com/q8zjiwLBjb
— Meta AI (@MetaAI) September 29, 2022
Çalışmayı duyuran bir blog yazısında Meta şu açıklamayı yapmış: “Video üreten yapay zeka araştırması, insanlara hızlı ve kolay bir şekilde yeni içerik oluşturma araçları vererek yaratıcı ifadeyi ileriye taşıyor. Sadece birkaç kelime veya metin satırıyla Make-A-Video, hayal gücünü canlandırabiliyor; canlı renkler ve manzaralarla dolu türünün tek örneği videolar oluşturabiliyor.”
Meta CEO’su Mark Zuckerberg de çalışmayı “şaşırtıcı bir ilerleme” olarak nitelendirmiş. Zuckerberg şöyle devam etmiş: “Video oluşturmak fotoğraflardan çok daha zor çünkü her pikseli doğru bir şekilde oluşturmanın ötesinde, sistemin görüntünün zaman içinde nasıl değişeceğini de tahmin etmesi gerekiyor.”
Klipler beş saniyeden uzun değil ve ses içermiyorlar. Ancak Make-A-Video’nun çok çeşitli istemleri yerine getirebildiğini ortaya koyuyorlar. Modelin performansını değerlendirmenin en iyi yolu çıktıyı izlemek ne de olsa. Videoların altına kullanılan prompt’lar da eklenmiş.
Meta’nın Make-a-Video’yu duyuran blog yazısında şirket, video oluşturma araçlarının “yaratıcılar ve sanatçılar için” çok değerli olabileceğini belirtiyor. Ancak, metinden görüntüye modellerde olduğu gibi, endişe verici olasılıklar da var. Bu araçların çıktıları yanlış bilgi, propaganda sahtekarlık, taciz, porno ve tehdit için amaçlı kullanılma potansiyeli taşıyor.
Meta, bunun gibi yeni üretken yapay sistemlerinin inşası konusunda düşünceli olmak istediğini ve şu anda Make-A-Video modeli hakkında buna dair bir makale yayınladığını vurgulamış. Şirket ayrıca sistemin bir demosunu yayınlamayı planladığını söylüyor ancak modele erişimin ne kadar süre boyunca ve ne derecede sınırlı olabileceğiyle ilgili detay vermiyor.
Yapay zeka sanatı konusuyla ilgilinen bir sanatçıysanız yapay zekanın eserlerinizle beslenip beslenmediğini öğrenebileceğiniz aşağıdaki araca da göz atabilirsiniz.
Görsel: Imagen Research Google Video, Meta AI blog, Make-A-Video