İnternet üzerinde günlük olarak kullandığınız hizmetler, farkında olmadan yapay zeka araçlarının eğitilmesine katkıda bulunuyor. ChatGPT, Gemini ve Claude gibi büyük dil modelleri göz önünde olduğunda, bunların eğitiminde hangi metinler kullanılıyor sorusu gündeme geliyor. Kitaplar, web sayfaları, makaleler ve çeşitli yazılı materyaller; çoğu kez kamuya açık kaynaklardan toplanabiliyor. Ancak son dönemde bu sürecin kullanıcıların çevrimiçi davranışlarından doğrudan derlendiği tartışmaları daha çok konuşulur hale geldi.
Bir güvenlik adımı olan CAPTCHA ve reCAPTCHA, sadece insan olduğumuzu doğrulamada değil, yapay zekanın eğitimi için de verilerin toplandığı bir kapı olarak eleştiriliyor. Özellikle görsellerdeki karakterleri yazmamız veya nesneleri ayırt etmemiz istenen bu testler, yıllardır tartışmaların merkezinde. Google’ın reCAPTCHA uygulamasındaki verilerin güvenlik için kullanıldığı vurgulanırken, “hizmet şartlarıyla uyumlu” olduğu da sıkça tekrarlanıyor.
Hareketlerimiz dijital veriye dönüşüyor Dünyanın farklı köşelerinde günlük oyunlar ve uygulamalarda toplanan veriler, yapay zekanın eğitimi için dev veri havuzlarını oluşturuyor. Niantic’in Pokemon Go gibi oyunları, kullanıcılardan aktarılan konum ve görüntü verileriyle büyük bir veri bulutu yarattı. MIT Technology Review’un haberine göre bu verilerle, gerçek dünyanın dijital bir modeli üretildi ve konum paylaşımını kolaylaştıran teknolojiler geliştirildi. Kasım 2024’te açıklanan bilgilere göre bu süreç tamamen isteğe bağlı olsa da kullanıcıların verileri toparlanıyor ve değerlendiriliyor.
Profesör Christian Peukert, CAPTCHA’lar gibi yöntemlerin eski versiyonlarında bile kullanıcıların yazdığı yanıtların, sistemin insanlığı doğrulamasında nasıl kullanıldığını anlattı. “Kullanıcılar çoğu zaman farkında olmadan metin ve görüntü verilerini paylaşıyor; bu veriler, yapay zekanın dil ve görsel yeteneklerini güçlendirmek için kullanılıyor.” dedi. Peukert, sosyal medya ve arama motorları gibi platformların da metinlerden, açıklamalardan ve etiketlerden hareketli modellerin eğitimine katkıda bulunduğunu belirtti. Ayrıca Google Haritalar ve Waze gibi uygulamaların konum verilerini toplayarak tahmin modellerinin gelişimine yardımcı olduğuna vurgu yaptı.
Gizlilik endişeleri ise büyüyor. Büyük veri depolarının kötüye kullanılma ihtimali, sahte içerik üretimi ve kullanıcıların kendi rekabet eden sistemleri beslemesi gibi riskleri beraberinde getiriyor. Ancak bu veri katkısının bazı faydaları da yok değil: dil teknolojileri, çeviri, erişilebilirlik araçları, bilimsel çalışmalar ve arama motorları gibi alanlarda somut iyileştirmeler sağlanabiliyor.
