Şimdiye kadar yapay zekânın, görsel yaratıcılardan çalmasını önlemek için geliştirilen Glaze gibi çözümlerden bahsettik. Hatta Instagram’ı yapay zekâ politikası yüzünden terk eden bazı sanatçılar da alt yapısında Glaze kullanılan Cara isimli bir uygulamaya geçiş yapmıştı. Peki ya metin formundaki (kitap, haber, makale vb) yaratımlar? Bu durumda hak ihlali olup olmadığını test edebilecek yeni bir araç gündemde.
Imperial College London’daki bir ekip tarafından geliştirilen araç, copyright traps / telif hakkı tuzakları adını taşıyor. Bu aracın, Large Language Model (LLM /Geniş Dil Modeli) eylemlerini deşifre edecek bir anahtar niteliğinde olabileceğinden bahsediliyor.
Eski harita yapımcılarının taktiklerinden esinlenen bir çözüm
Bu aracın yağımında; bir zamanlar izinsiz kopyaları yakalamak için haritalara sahte kasabalar yerleştiren 20. yüzyılın harita yapımcılarının kullandığı stratejilerden ilham alınmış. Araç, yazarların ve yayıncıların çalışmalarını incelikli bir şekilde işaretlemelerine olanak tanıyor. Bu tuzaklar, metinlere anlamsız cümleler yerleştirerek çalışıyor ve bunların yapay zekâ eğitim verilerinde kullanılıp kullanılmadığını tespit etmeyi mümkün kılıyor.
Baş araştırmacı Yves-Alexandre de Montjoye çalışmalarını şöyle açıklıyor: “‘Telif hakkı tuzaklarının’ (benzersiz hayali cümleler) orijinal metne enjekte edilmesinin, eğitilmiş bir LLM’de (Large Language Model / Geniş Dil Modeli) tespit edilebilirliğini nasıl mümkün kılacağını araştırıyoruz.”
Bu yenilik, pek çok yayıncı ve yazarın, fikri mülkiyetlerinin izinsiz kullanıldığı iddiasıyla teknoloji devleriyle hukuki mücadeleye girdiği bir dönemde ortaya çıktı. Bu davalardan en dikkate değer olanı The New York Times ve OpenAI arasındaki dava olmuştu.
The New York Times’ın OpenAI’a Açtığı Telif Hakkı Davasından Detaylar
Imperial College London ekibi, bir kelime oluşturucu kullanarak anlamsız dizelerle dolu binlerce sentetik cümle oluşturmuş. Örnek bir cümle: “Kargaşa zamanları geldiğinde… neyin indirimde olduğu ve daha da önemlisi, ne zaman en iyi olduğu, bu liste size Thrs’de kimin açıldığını söyler. geceleri, komşularınızın düzenli satış saatleri ve diğer açılış saatleri ile. Sen hâlâ.” Bu tuzaklar daha sonra beyaz zemin üzerine beyaz metin veya kaynak kodunda gizlenme gibi çeşitli yöntemlerle mevcut metinlere yerleştirilmiş.
Bu tuzakları tespit etmek için araştırmacılar, ürettikleri sentetik cümlelerle büyük bir dil modelini beslemişler. Tespit yöntemi, modelin bir cümlenin yapay zekaya ne kadar tanıdık geldiğini ölçen “sürpriz” puanına dayanıyor. Bir bölümün kopyalanma olasılığı da bu sürpriz paunına göre değişiyor. Ancak araç henüz mükemmel değil ve araştırmalar devam ediyor. Çünkü bir modelin, tuzak içeren bir metin üzerinde eğitilmesi durumunda, tuzak cümleyi tanıma ve eğitim verilerindeki varlığını tespit edebilme olasılığı var.
Ekibin tuzak oluşturma ve tespit etme kodu GitHub’da mevcut. Herkesin bu tuzakları çalışmalarına eklemesine yardımcı olacak kullanıcı dostu bir araç geliştirmeyi planlıyorlar.
Görsel: Unsplash