Yaratıcı bünyeler için günlük besin kaynağı
“Seçici İşitme” Kulaklıklarıyla Kalabalıkta Bir Kişiyi Tek Bakışla Duymak Mümkün

“Seçici İşitme” Kulaklıklarıyla Kalabalıkta Bir Kişiyi Tek Bakışla Duymak Mümkün

Washington Üniversitesi araştırmacıları, gürültülü ortamlarda hedefi daha iyi işitmek için bir kulaklık geliştirdi.

Araştırmacılar, gürültülü bir kalabalıktaki konuşmacının sesini sadece ona bakarak izole etmek için geliştirilen kulaklıklarda, yapay zekayı kullandılar. Özellikle işitme güçlüğü çeken kişilerin hayatını kolaylaştırmak için yaratılan kulaklık, modern işitme cihazlarının gürültü engelleme teknolojisini kullanıyor. Ancak arka plandaki gürültüyü tamamen ortadan kaldırmıyor.

Paul G. Allen Bilgisayar Bilimi ve Mühendisliği Okulu’ndan profesör ve çalışmanın kıdemli yazarlarından Shyam Gollakota, “Artık yapay zekayı soruları yanıtlayan internet tabanlı sohbet robotları olarak düşünmeye eğilimliyiz. Ancak bu projede, kulaklık takan herkesin işitsel algısını, tercihleri ​​doğrultusunda değiştirmek için yapay zeka geliştiriyoruz. Cihazlarımız sayesinde artık birçok insanın konuştuğu gürültülü bir ortamda olsanız bile tek bir konuşmacıyı net bir şekilde duyabilirsiniz.”

Her şey gerçek zamanlı olarak gerçekleşiyor

Araştırmacıların geliştirdiği ‘hedef konuşmayı duyma’ (THS) sistemi basit ama etkili. Piyasada satılan kulaklıklar, her kulaklıkta bir tane olmak üzere iki mikrofonla donatılıyor. Kullanıcı, duymak istediği kişiye bakarken kulaklığın yan tarafındaki düğmeye 3 ila 5 saniye süreyle bir kez basıyor. Konuşmacının sesinden gelen ses dalgaları her iki mikrofona da aynı anda ulaşıyor (16 derecelik bir hata payı var) ve makine öğrenimi yazılımının konuşmacının ses kalıplarını öğrendiği yerleşik bir bilgisayara gönderiliyor. Konuşmacının sesi daha sonra izole ediliyor ve kulaklıklar aracılığıyla, hareket ettiklerinde bile yönlendiriliyor ve yabancı gürültü filtreleniyor.

Peki yapay zeka, konuşmacının sesini ne kadar hızlı işleyebiliyor ve istenmeyen sesleri kaldırabiliyor? Test edildiğinde araştırmacılar, sistemlerinin uçtan uca 18,24 milisaniyelik bir gecikmeye sahip olduğunu bulmuş. Karşılaştırma yapmak gerekirse, bir göz kırpması 300 ile 400 milisaniye arasında sürer. Bu, dinlemek istediğiniz birine bakmak ile kulaklığınızda yalnızca onun sesini duymak arasında neredeyse hiç gecikme olmadığı anlamına geliyor; her şey gerçek zamanlı olarak gerçekleşiyor.

Araştırmacılar çalışmalarını bu ayın başlarında Honolulu, Hawai’i’de düzenlenen Bilgisayar Sistemlerinde İnsan Faktörleri konulu Bilgisayar Makineleri Birliği (ACM) Bilgisayar-İnsan Etkileşimi (CHI) konferansında sunmuşlar ve burada Onur Mansiyonu almışlar. Yayınlanmamış araştırma makalesine buradan ulaşabilirsiniz.

Görsel: YouTube