OpenAI, dün metin komutlarından bir dakikaya kadar yüksek çözünürlüklü videolar üreten yepyeni bir model olan Sora’yı duyurdu. Japonca’da “gökyüzü” anlamına gelen Sora’nın genel kullanıma açılması yakın zamanda söz konusu değil. OpenAI şu an için aracı, zarar ve kötüye kullanım potansiyelini değerlendirecek küçük bir akademisyen ve araştırmacı grubunun kullanımına sunuyor.
Büyük yankı uyandıran bu gelişmeyle ilgili OpenAI’ın internet sitesinde şu detaylar yer alıyor: “Sora, birden fazla karakterin, belirli hareket türlerinin ve konu ile arka planın doğru ayrıntılarının yer aldığı karmaşık sahneler oluşturabiliyor. Model, yalnızca kullanıcının istemde ne istediğini değil, aynı zamanda bu şeylerin fiziksel dünyada nasıl var olduğunu da anlıyor.”
OpenAI, internet sitesinde ve sosyal medyada Sora ürünü çok etkileyici videolar paylaşmış. En çok ses getiren de bu örnek videolar oldu. Çünkü Sora’nın performansı ve 60 saniyelik videolar üretebilmesi gerçekten herkesi şaşkına uğrattı. Bu videolardan biri, etraflarında kiraz çiçeği yaprakları ve kar taneleri uçuşurken Tokyo şehrinde yürüyen bir çifti gösteriyor.
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
Bir diğer video ise karla kaplı sıradağların fonunda karlı bir çayırda yürüyen gerçekçi görünümlü mamutları gösteriyor.
Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS
— OpenAI (@OpenAI) February 15, 2024
Yine aşağıdakiler de en çok ilgi gören videolar arasında.
Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024
Evet çok iyi ama henüz mükemmel değil
OpenAI, modelin “dili derinlemesine anlama” alt yapısıyla çalıştığını ve bunun da metin istemlerini doğru şekilde yorumlamasını sağladığını söylüyor. Yine de şu anki diğer tüm yapay zekâ görüntü ve video oluşturucular gibi Sora da mükemmel değil. OpenAI modelin neden-sonuç ilişkisini anlamakta şu an için zorlanabileceğini belirtmiş. Örneğin bir kişinin kurabiye yediği bir video oluşturabilir ancak kurabiyede ısırık izleri bulunmayabilir. Ayrıca sosyal medyada, Sora’nın istemlerdeki bazı şeyleri atladığı, yürüyen figürlerin hareketlerinde sadece profesyonellerin fark edebileceği saliselik aksaklıklar olduğu şeklinde yorumlar almış. Benim dikkatimi çeken en bariz kusurlardan biri, gözlüklü kadının sokakta yürüdüğü yukarıdaki videoda, başının çevresinde beyaz bir ışık gibi sınır çizgisi olması. Bu beyaz sınır onu fondan ayırıyor ve bazı saniyelerde çok belirgin oluyor. Yine sosyal medyadaki yorumların bir çoğunda yaratıcı sektörden insanların “işimi kaybedeceğim” “meslekleri incitiyorsunuz” şeklindeki serzenişleri var.
Bildiğiniz üzere Sora, metinden video üreten ilk model değil. Meta, Google ve Runway de böyle araçlar sunuyor. Yine de başka hiçbir araç şu anda 60 saniyeye kadar video oluşturamıyor. Sora ayrıca diğer modellerin yaptığı kare kare bir araya getirme süreci yerine tüm videoları tek seferde oluşturuyor.
“Bu tür bir şeyin seçimleri etkilemesinden korkuyorum”
Metinden videoya dönüştürme araçlarının geldiği bu nokta, yapay zekanın sahte görüntüler oluşturma potansiyeline ilişkin endişeleri artırdı. Washington Üniversitesi’nde yapay zeka konusunda uzman profesör ve siyasi medyadaki dezenformasyonu tespit etmeye çalışan bir kuruluş olan True Media’nın kurucusu Oren Etzioni, “Bu tür bir şeyin seçimleri etkilemesinden kesinlikle korkuyorum” açıklamasında bulunmuştu. Ayrıca bu gelişmeler, işlerini kaybetme ve telif haklarının ihlali konusunda endişe duyan sanatçıların ve yaratıcı profesyonellerin tepkisinin giderek daha fazla yükselmesine neden oluyor.
OpenAI, aracı halka açık hale getirmeden önce yanlış bilgi, nefret söylemi ve önyargı gibi konularda test etmek için uzmanlarla birlikte çalıştığını açıkladı. Şirket ayrıca Sora tarafından oluşturulan videoları tespit edebilen ve daha kolay tespit için oluşturulan videolara meta veriler ekleyebilen araçlar geliştiriyor. Şirket, hem “halka açık videolar” hem de telif hakkı sahiplerinden lisanslanan videolar kullandığını da açıkça belirtmiş. Ancak Sora’nın nasıl eğitildiğiyle ilgili sorulara şu an için yanıt vermiyor.
Görsel: OpenAI