Yapay Zeka Modellerinin Haber Arama Performansı: Doğruluk Sorunları Ortaya Çıkıyor
Columbia Journalism Review’un Tow Center for Digital Journalism’i tarafından gerçekleştirilen kapsamlı bir araştırma, üretken yapay zeka (YZ) modellerinin haber arama işinde ciddi doğruluk sorunları yaşadığını gözler önüne serdi. Bu araştırmada, canlı arama işlevine sahip sekiz farklı YZ destekli arama aracı detaylı bir incelemeye tabi tutuldu ve bu araçların haber kaynaklarıyla ilgili verilen istemlerin %60’ından fazlasına yanlış yanıtlar ürettiği belirlendi.
Araştırmacılar, günümüzde Amerikalıların dörtte birinden fazlasının YZ modellerini geleneksel arama motorlarına alternatif olarak kullandığını vurgulayarak, bu durumun hataların etkisini daha da ciddileştirdiğine dikkat çektiler. Araştırmada doğruluk oranlarındaki farklılıklar oldukça dikkat çekiciydi. Örneğin, Perplexity platformu, verilen istemlerin %37’sinde yanlış bilgi sunarken, ChatGPT Search bu oranı %67’ye çıkardı. Bununla birlikte Grok 3, %94 gibi çarpıcı bir hata oranıyla en düşük performansı sergileyerek dikkatleri üzerine çekti.
Testler Nasıl Gerçekleştirildi?
Araştırmacılar, bu YZ modellerini gerçek haber makaleleriyle sınamak için çeşitli istemler oluşturdular. İstemlerde, haber makalesinin başlığını, orijinal yayımcısını, yayım tarihini ve URL’sini doğru bir şekilde tespit etmeleri istendi. Tüm testlerde, sekiz farklı arama aracıyla toplamda 1.600’den fazla istem kullanıldı. İlginç bir şekilde, modellerin güvenilir bilgiye sahip olmadıkları durumlarda yanıt vermeyi reddetmek yerine, gerçekçi görünümlü ama hatalı ya da tahmine dayalı yanıtlar verdikleri gözlemlendi. Bu durum, incelenen tüm modellerde ortak bir sorun olarak öne çıktı.
Ücretli Modeller, Ücretsiz Sürümlerden Daha mı Kötü?
Araştırma, ücretli hizmetlerin bazen beklenenin tersine ücretsiz sürümlerden daha kötü performans sergileyebildiğini ortaya koydu. Örneğin, aylık 20 dolarlık Perplexity Pro ve 40 dolarlık Grok 3 Premium hizmetleri, ücretsiz sürümlerine kıyasla daha sık ve daha kendinden emin hatalar üretti. Bu modeller, daha fazla sayıda isteme yanıt verme eğiliminde olsalar da, yanıtlarını reddetmemeleri hata oranlarını artırdı.
Araştırmacılar, bazı YZ araçlarının yetkisiz erişimi önlemeye yönelik ayarları dikkate almadığını da fark ettiler. Örneğin, Perplexity’nin ücretsiz sürümü, National Geographic’in açık bir şekilde izin vermemesine rağmen, ücretli içeriklerden 10 tanesini doğru bir şekilde tanımlamayı başardı. Ayrıca sıkça karşılaşılan sorunlar arasında, alıntı yapılan yazılarda orijinal kaynağı göstermek yerine Yahoo News gibi başka sitelere bağlantı verme ve hatalı ya da geçersiz bağlantılar sağlama yer aldı.
Sonuç olarak, yapay zeka destekli arama araçları, haber arama süreçlerinde bazı avantajlar sunsa da, doğruluk ve güvenilirlik açısından önemli sorunlar barındırıyor. Bu durum, kullanıcıların doğru bilgiye ulaşmalarını zorlaştırabilir ve yanıltıcı sonuçlar doğurabilir.