Metinden ve sesli komutlardan görüntü oluşturan yapay zekâ modellerine aşinayız. Peki yapay zekâ bir konumun ses kayıtlarını dinleyerek onunla eşleşen görüntüler üretebilir mi? Teksas üniversitesinde yapılan bir araştırmada geliştirilen deneysel teknoloji, bunun cevabının “evet” olduğuna işaret ediyor. Üstelik yapay zekâ, akustik verileri kullanarak esrarengiz bir şekilde gerçeğine uygun görüntüler üretebiliyor.
Austin’deki Texas Üniversitesi’nden Yardımcı Doçent Yuhao Kang ve meslektaşları tarafından geliştirilen “Ses Ortamından Görüntüye” modeli (Soundscape-to-Image Diffusion Model), 10 saniyelik görsel-işitsel kliplerden oluşan bir veri kümesiyle eğitilmiş.
Klipler; Kuzey Amerika, Asya ve Avrupa’daki kentsel ve kırsal sokakların YouTube videolarından alınan durağan görüntülerden ve ortam seslerinden oluşuyormuş. Derin öğrenme algoritmalarını kullanan sistem, yalnızca hangi seslerin görüntülerdeki hangi öğelere karşılık geldiğini değil, aynı zamanda hangi ses niteliklerinin hangi görsel ortamlara karşılık geldiğini de öğrenmiş.
Bu yapay zekâ modeli, YouTube videolarıyla eğitildi
Eğitimi tamamlandıktan sonra sistem, yalnızca diğer 100 sokak görünümü videosunun kayıtlı ortam sesine dayalı görüntüler oluşturmakla görevlendirilmiş. video başına bir görüntü üretmesi sağlanmış.
İnsan hakemlerden oluşan bir grup, bu görsellerin her birini, diğer sokaklardan oluşturulmuş iki görselle birlikte yapay zekaya gösterdiler ve bu sırada görselin temel aldığı video sesini dinlediler. Üç görüntüden hangisinin film sesine karşılık geldiğini belirlemeleri istendiğinde, bunu yaparken ortalama %80 doğru sonuç elde ettiler.
Dahası, oluşturulan görüntüler bilgisayarda analiz edildiğinde; açık gökyüzü, yeşillik ve binaların göreceli oranlarının orijinal videolardaki oranlarla “güçlü bir şekilde ilişkili” olduğu görülmüş.
Aslında çoğu durumda oluşturulan görüntüler aynı zamanda kaynak videoların güneşli, bulutlu veya karanlık gökyüzü gibi aydınlatma koşullarını dahi yansıtıyormuş. Bu, geceleri trafik gürültüsünün azalması veya gece böceklerinin sesi gibi faktörlerle mümkün olmuş olabilir.
Her ne kadar teknoloji, ses kaydının nerede yapıldığına dair kabaca bir fikir edinmek gibi adli tıp uygulamaları için potansiyel taşıyor olsa da, çalışma daha çok sesin yer duygumuza nasıl katkıda bulunduğunu keşfetmeyi amaçlıyor.
Araştırmacılar, yakın zamanda Nature dergisinde yayınladıkları makalede şöyle diyor: “Sonuçlar, görsel ve işitsel algıların insan ruh sağlığı üzerindeki etkilerine ilişkin bilgimizi geliştirebilir, kentsel tasarım uygulamalarına yol gösterebilir ve topluluklardaki genel yaşam kalitesini iyileştirebilir.”
Görsel: Teksas Üniversitesi, Unsplash