Yaratıcı bünyeler için günlük besin kaynağı

Netflix'in 10 Yıllık A/B Testinden Öğrendikleri [SXSW 2015]

Netflix, kullanıcı davranışlarını sürekli teste tutuyor ve bu sayede ürünlerini sürekli geliştirebiliyor.

Netflix'in ürün inovasyonundan sorumlu genel müdür yardımcısı Todd Yellin, markanın arayüzlerinin ve ürünlerinin son 10 yılda nasıl kullanıcı testlerine tabi tutulduğunu anlattığı oturumda samimi bir sunum yapmayı başardı.

Şirketlerde ürünle ilgili kararlar genellikle toplantı odalarında verilir ve bu kararda en etkili profesyonel de genellikle düşüncesini en tutkulu şekilde savunan, hatta bazen sesi en çok çıkan kişi olur. Netflix'te ürün kararları bu şekilde alınmıyor. Netflix, ürün kararlarını alırken A/B testi denilen yöntemi kullanıyor. A/B testini basit olarak açıklamak gerekirse yine Netflix'ten örnek verelim. Netflix'e yeni abone olduğunuzda sistem sizi otomatik olarak ve rasgele bir deney grubunun içine koyuyor. Size gösterilen tasarım sonucunda site geçirdiğiniz zaman ve izlediğiniz toplam içerik saati gibi metrikler ölçülüyor. Bu rakamlar diğer test grubunun sonuçlarıyla karşılaştırılıyor ve iki gruba sunulan tasarımdan hangisi ile ilerleneceği belirleniyor.

A/B testinde Netflix'in uyguladığı temel kurallar şunlar:
- denekler rasgele ve bilinmeden seçilmeli
- metrikler konusunda test başlamadan anlaşmaya varılmış olmalı

Milyonlarca seçenek arasından seçim yaptığımı bir dönemde, insanların davranışlarının ölçülmesi çok önemli. Netflix'in bu konudaki kendi bulguları da bir hayli ilginç. Netflix tavsiye kelimesini asla kullanmıyor. Tüketiciye gösterdiği seçenekleri asla tavsiye olarak konumlandırmıyor. Çünkü, makine ve algoritmanın önerisi hiçbir zaman kesin doğru olmayabilir ve insanlar da bunu biliyorlar diyor Yellin. Netflix'in bir başka ilginç bulgusu, izlenen içeriklerin demografi ile alakasının sanıldığından az olması. Kadın programlarını kadınlar, gençlik dizilerini gençler izler diye kesin sonuçlarla hareket etmiyorlar, çünkü ellerindeki veriye göre gerçekten de herkes, her şeyi izleyebiliyor.

A/B testinin başarılı bir örneğini yarım yıldız hikayesi üzerinden anlattı Yellin. Netflix'te izlediğiniz içeriğe 5 yıldız üzerinden puan verebiliyorsunuz. Geçtiğimiz yıllarda kullanıcılar (hatta onbinlerce kullanıcı) yarım yıldız seçeneğinin de olmasını istediklerini iletmiş. Netflix bu isteği olumu karşılasa da önce test uygulamış tabii ki.

25 bin yeni üye siteye girdiklerinde yarım yıldız seçenekli puanlamayla karşılaşmış, kontrol grubu olarak da yine 25 bin yeni üye, 5 yıldız sistemiyle devam etmiş. Testin sonucunda yarım yıldız grubunda:
- Sitede geçirilen zaman aynı
- Tüketilen içerik aynı
- İki dönem sonunda  50'den fazla içerik oylamış kullanıcı sayısı %10 düşük
çıkmış. Böylece teste dayanarak Netflix yarım yıldızı getirmeme kararı almış. Burada şu da önemli: Test, çıkan sonucun nedenini söylemiyor, ama net bir şekilde bir sonuç veriyor. Yani yarım yıldız neden puanlamaya olumsuz etki yaptı, bu A/B testinin konusu değil, ancak yarım yıldızın puanlamaya olumsuz etkisi testin kesin bir sonucu.

Yellin'in konuşmasında bir başka önemli nokta, ürün stratejisinin dominant metrik seçimi konusunda önemli olduğuydu. Yani metrikleri belirlerken kimi zaman daha farklı ve cesur adımlar atmak gerekebilir. Örneğin internet üzerinden video içerik tüketimi yeni başlarken Netflix'in tüm gelir modeli DVD kiralama üzerineymiş. Ancak daha o dönemde DVD'nin günlerinin sayılı olduğunu bilen Netflix, cesur bir adım atarak sitede "hemen izle" opsiyonunu "DVD kirala" yerine varsayılan sayfa olarak sunmayı düşünmüş ve test etmiş. Sonuçta sitede geçirilen süre aynı kalmış, kiralanan DVD sayısında düşüş olmuş, ancak stream edilerek izlenen içerik dakikaları artmış. Bu da Netflix'in bu yeni tasarıma geçmesi için yeterli olmuş.

Şimdi size bir soru: aşağıdaki görsellerden hangisi Braking Bad dizisinin izlenme dakikalarını artırmış olabilir sizce?

Bu soruya neredeyse tüm salon en sağdaki görseli seçerek yanıt verdik. Testin galibiyse ortadaki karavanlı görsel olmuş. Bu örnekte olduğu gibi kimi zaman en bariz gibi görünen seçimler bile test sonucunda iptal olabiliyor.

Netflix'in dağ testi adını verdiği daha büyük tasarım testleri de var. Burada her birinin geliştirmesi aylar süren tasarım ve mekanizmalar test ediliyor. Örneğin akıllı tv'lerde Netflix arayüzü için 4 versiyonlu bir test yapılmış.


Hiyerarşik


Grid


Bölümleme


Video

Bu tasarım yaklaşımlarından 3 numara, Apple TV'nin kullandığı yöntem, 4 numaraysa, seçilen içeriğin videosunu arka planda önden oynatmaya başlayan bir tasarım. Test sonuçlarında kazanan 2 numara (grid) olmuş. Burada Yellin, Apple'ın kendi arayüzünde içerik tüketimini ön planda tutmadığını düşündüğünü de ekledi. Tabii bu tasarım kalıcı olmamış. Sürekli yeni testler yapıldığından, mükemmel tasarım ya da arayüz arayışında değil Netflix, sürekli gelişim peşinde. Çünkü içerik tükettiğimiz cihazlar ve arayüzleri de sürekli değişiyor.

Sunum sonunda metriklere rağmen alınması gereken kararlardan da bahsetti Yellin. Örneğin çağrı merkezi linki çok görünür olursa insanlar daha çok arar ve şirkete maliyeti yüksek olur, ama çağrı merkezinin görünür olması marka imajı için önemlidir. Keza, üyelik iptali de benzer bir örnek. Netflix'te üyelik kapatma çok kolay. Bunun sonucu üyelik iptali metrikleri yükselebilir, ama yine marka değeri da yükseleceğinden bu kararları almayı tercih ediyor Netlix.

Manşet görseli: Netflix, diğer görseller: Bigumigu

| TEKNOLOJİ


Genel Yayın Yönetmeni
Bunlar da ilginizi çekebilir
REKLAM