Finansal açıdan Microsoft tarafından desteklenen ve kurucuları arasında Elon Musk’un da yer aldığı yapay zeka araştırma şirketi Open AI, dil tahmin modeli olan GPT-3’ün arkasındaki kuruluş. Araştırma kuruluşu, bununla birlikte geçtiğimiz yılın başlarında yapay zeka desteği sayesinde metinlerden görseller yaratabilen DALL-E isimli programı duyurmuş ve oldukça ses getirmişti. Aradan geçen süreç boyunca DALL-E gelişti ve artık daha yüksek çözünürlüklü, daha düşük gecikme süreli işlemler yapabiliyor.
OpenAI’ın duyurduğu yeni sürüm DALL-E 2, kullanıcılar tarafından yazılan metinleri hızlı bir şekilde görsellere dönüştürmesinin yanı sıra mevcut görselleri de düzenleme gibi farklı yetenekler kazanmış.
Our newest system DALL·E 2 can create realistic images and art from a description in natural language. See it here: https://t.co/Kmjko82YO5 pic.twitter.com/QEh9kWUE8A
— OpenAI (@OpenAI) April 6, 2022
DALL-E 2 daha iyi performansla çarpıcı sonuçlar ortaya çıkarıyor
Sistemin arkasındaki teknoloji henüz paylaşılmıyor ancak DALL-E’nin çalışma prensibi milyonlarca dijital görüntüyü ve bu görüntünün neyi tasvir ettiğini açıklayan metin başlıklarını incelemekten geçiyor. Bu kalıpları algılayan yapay zeka, verilen tanımlar içinde kelimeleri piksellerle değiştirerek görüntülerin oluşmasını sağlıyor. CLIP dil modelini kullanan DALL-E 2, görsellerin ayrıntılarını tamamlamak için verilen kelimelerden tahminler yürüterek boşlukları tamamlıyor. Ancak bu aşama bir öğrenme süreci olduğu için her zaman kusursuz sonuçlar almak mümkün olmuyor.
Allen Institute for Artificial Intelligence CEO’su Oren Etzioni, DALL-E’deki daha çarpık, kalitesi daha düşük sonuçlardan net ve verimli sonuçlara uzanan bu gelişmeyi GPT-2’den GPT-3’e geçişte benzetiyor. DALL-E 2, orijinal görüntülerden ilham alarak benzerlerini oluşturabiliyor, bu görselleri üzerinde düzenlemeler yapmaya imkan tanıyor. Farklı stillerde ve konseptlerde görüntüler yaratırken bir önceki versiyona göre 4 kat daha kaliteli görüntüler ortaya çıkarabiliyor.
Zararlı içeriği ve dezenformasyonu engelleyen kullanıcı politikası
Bu tür teknolojik gelişmeler başkanlık seçimlerini dahi etkileyebilecek, dezenformasyon odaklı içeriklerin yaratılmasına yardımcı olabiliyor. DALL-E’nin yetenekleri ilerledikçe geliştiriciler de birtakım kısıtlamalarla bu yeteneklerin kötüye kullanımını engellemeyi hedefliyor.
Geliştiriciler, müstehcenlik, çıplaklık, zorbalık, aşırı ve radikal idolojik tanımlamalar ya da süregelen jeopolitik durumlar/çatışmalar/savaşlar ile ilgili komplo teorisi içeren görselleri yaratmayı engelleyecek filtreler üzerinde çalışıyor. Örneğin “a pig with the head of a sheep” (koyun başlı bir domuz) yazıldığı zaman filtre “domuz” ve “kafa” kelimeleri zorbalık karşıtı bu filtrasyon sistemine takılıyor ve görüntün çıktısı gösterilmiyor.
OpenAI internet sitesi üzerinden deneyimlenebilen DALL-E 2, ilk sürümünden farklı olarak şimdilik sadece sınırlı deneyimler sunuyor ve deneyimli ortaklar tarafından test edilebiliyor. Araştırma kuruluşu, sistemi sadece küçük bir test grubuna açacak olsa da her görüntünün köşesine küçük bir filigran koyarak görsellerin DALL-E üzerinden yaratıldığını vurgulamaya ve dezenformasyon içerikli görsellerin yayılmasını engellemeye çalışacak.
Araştırmalar ve geliştirmeler devam ettikçe bu sistemlerin arama motorlarından dijital asistanlara, grafik sanatçılardan programlayıcılara kadar pek çok alanda yeni görevlerde kullanılabileceği öngörülüyor. Yeni sürüme ait detayları aşağıdaki videoda bulabilirsiniz. Ayrıca internet sitesinde ve Instgram hesabında DALL-E 2’nin neler yarattığını görmek, OpenAI’ın Twitter gönderisindeki örneklerde ne kadar gerçekçi yaratımlar yaptığına şahit olmak da mümkün.
“Teddy bears mixing sparkling chemicals as mad scientists” in the style of steampunk, a 1990s Saturday morning cartoon, and digital art #dalle pic.twitter.com/6SjCPatC7P
— OpenAI (@OpenAI) April 6, 2022
“A bowl of soup that looks like a monster” knitted out of wool, made of plasticine and spray painted on a wall #dalle pic.twitter.com/eLHdiVUVGx
— OpenAI (@OpenAI) April 6, 2022
DALL·E 2 is here! It can generate images from text, like "teddy bears working on new AI research on the moon in the 1980s".
It's so fun, and sometimes beautiful.https://t.co/XZmh6WkMAS pic.twitter.com/3zOu30IqCZ
— Sam Altman (@sama) April 6, 2022
"a raccoon astronaut with the cosmos reflecting on the glass of his helmet dreaming of the stars"@OpenAI DALL-E 2 pic.twitter.com/HkGDtVlOWX
— Andrew Mayne (@AndrewMayne) April 6, 2022
Today we released #dalle 2 – a model which can generate incredibly impressive images based on a textual description!
"A cobra, surfing on a big wave"
(Feel free to drop suggestions in the thread – I'll generate and share if they are fun!) pic.twitter.com/lKRtEESzAs
— Boris Power (@BorisMPower) April 6, 2022
Görsel: OpenAI, Twitter