Geçtiğimiz yıl geliştirdikleri kızılötesi kamera destekli SpeeChin isimli kolye ile sesli asistanlarla sessizce iletişim kurulabilmesini sağlayan Cornell Üniversitesi’nden araştırmacılar, bu kez hassas sensörlerle sessiz komutları algılayabilen yapay zekâ destekli bir sonar gözlük geliştirdi.
Kullanan kişinin yüksek sesle konuşmasına gerek kalmadan fısıltıyla kendisine verilen komutları yüzde 95 gibi bir doğruluk payıyla okuyabilen EchoSpeech adlı gözlük, kullanıcının çene ve boyun hareketlerini analiz eden bir kameraya sahip SpeeChin’den farklı olarak yüksek hassasiyete sahip mikrofon ve hoparlörler barındırıyor. EchoSpeech ile bir müzik parçasını duraklatmak veya atlamak, telefonunuza dokunmadan bir şifre girmek gibi işlemleri herhangi bir tuşa basmadan veya klavye ve mouse kullanmadan sessizce gerçekleştirebilirsiniz.
Sonar gözlük EchoSpeech, yüzün her iki tarafını da algılayabilmek amacıyla çerçevelerin altına yerleştirilen hassas hoparlörler ve mikrofonlarla ses dalgalarını kelimelere dönüştürmek için yapay zekâdan yararlanıyor. Hoparlörler 20 kilohertz civarında (ultrasona yakın bir frekansta) ses dalgaları yaydığında, bu dalgalar bir mercekten dudaklara doğru, oradan da karşı merceğe doğru bir yol izliyor. Hoparlörlerden gelen ses dalgaları dudaklara çarptıktan sonra yansıyarak kırılıyor ve mikrofonlar tarafından yakalanıyor. Ardından ses dalgaları, yapay zekâ tarafından bir derin öğrenme algoritması kullanılarak analiz edilerek işleniyor.
Ses dalgası sensörleri, USB kablo aracılığıyla bir dizüstü bilgisayarla iletişim kurabilen özelleştirilmiş bir ses amplifikatörüne sahip mikro denetleyiciye bağlı. Bluetooth yardımıyla dizüstü bilgisayar veya akıllı telefonla eşleştirilebilen cihaz, ses dalgalarını komutlara dönüştürerek bilgisayar veya telefon aracılığıyla komut işlemlerini gerçekleştirebiliyor. Cihaz, dudak ve ağız hareketlerine dayanarak 31 adede kadar seslendirilmemiş komutu sürekli olarak tanımak için akustik algılama ve yapay zekâ kullanan bir sessiz konuşma tanıma arayüzüne sahip.
EchoSpeech sonar gözlüğün diğer benzer teknolojilerden farkı
Belirli komutlarla ilgili önceden eğitilen EchoSpeech’in her yeni kullanıcıya uyum sağlaması için yaklaşık 6-7 dakika süren bir eğitim aşamasından geçmesi gerekiyor. Projede çalışan bilim insanı Cheng Zhang, sessiz konuşma tanıma teknolojilerinin çoğunun önceden belirlenmiş bir dizi komutla sınırlı olduğunu ve kullanıcıların mutlaka bir kameraya ihtiyaç duyduğunu belirtiyor. EchoSpeech, benzer teknolojilerdeki bir kameraya bakma veya kulaklık takma gibi zorunlulukları ortadan kaldırıyor.
Ayrıca, veriler doğrudan buluta yüklenmek yerine akıllı telefonda yerel olarak işlendiğinden veri çıkışı kaynaklı gizlilik endişeleri de ortadan kaldırılıyor. Bunun yanı sıra ses verilerinin iletilmesi görsel verilere kıyasla daha az bant genişliği gerektirdiğinden dolayı da sonar gözlük çalışmak için daha az güce ihtiyaç duyuyor. Ticarileştirilmesi üzerinde çalışılan cihaz, mevcut prototipiyle yaklaşık 10 saatlik pil ömrü sunuyor.
Görsel: Cornell University, Youtube