Columbia Üniversitesi Mühendislik Fakültesi’ndeki Creative Machines Lab’de geliştirilen insansı bir robot, şimdiye dek robotik dünyasında nadir görülen ölçüde gerçekçi dudak hareketleri sergiledi. Bu başarı, insan videolarını izleyip taklit ederek öğrenmenin sonuçlarını gösteriyor. Araştırma, otonom bir sistemin konuşma ve şarkı söylemeye yönelik doğal dudak hareketlerini görsel öğrenme yoluyla kazandığı ilk çalışma olarak kayda geçti.
Yüz hareketlerinin bu denli gerçekçi olması, yıllardır mühendisler için en büyük uğraşlardan biri olan konuya yeni bir soluk getiriyor. Yürüyüş, kavrama ve genel mekanik becerilerde kaydedilen ilerlemelere rağmen, konuşma sırasında ağız ve dudakların “doğru hissi veren” biçimde hareket etmesi hâlâ ciddi bir zorluk. En gelişmiş robotlar bile çoğu zaman kukla benzeri, yapay ağız hareketleri sergileyebiliyor. İnsan beyni ise bu türlü küçük tutarsızlıklara karşı son derece hassas ve bu da robotların ürkütücülük algısını tetikleyebiliyor.
Doğal konuşma için oldukça önemli olan bu sorun, ekibin alışılmışın dışındaki bir yaklaşımla ele alınmasına yol açtı. Robotun yüzü, yumuşak sentetik bir deri altında 26 minyatür motorla hareket ettiriliyor. Bu motorlar, önceden elle yazılmış kurallar yerine deneme, gözlem ve taklit yoluyla eğitildi. İlk aşamada robot kendini aynaya karşı konumlandırıp binlerce rastgele yüz ifadesi üretiyor ve kendi hareketlerini izleyerek hangi motor hareketinin hangi yüzde ne şekilde şekil verdiğini öğreniyor. Böylece robot, önce kendi yüzünün nasıl çalıştığını anlama sürecine giriyor.
Ardından insanları gözlemleme aşamasına geçiliyor. Sistem, YouTube’daki saatler süren konuşma ve şarkı söyleme videolarıyla eğitim alıyor. Geliştirilen vision-to-action (VLA) modeli sayesinde robot, duyduğu sesleri doğrudan motor komutlarına çevirme becerisini kazanıyor; bu sayede duyulan seslerle uyumlu dudak hareketleri üretebiliyor.
Testlerde robotun birçok dilde dudak senkronu gerçekleştirebildiği ve Hello World adlı yapay zeka üretimi albümünden parçaları “söylerken” oldukça ikna edici göründüğü aktarılıyor. Ancak sistem hâlâ kusursuz değil: B harfinin sert kapanışı veya W harfinin büzülme gerektirdiği durumlar robot için hâlâ zorluk oluşturuyor. Creative Machines Lab Direktörü ve makine mühendisliği profesörü Hod Lipson, “İnsanlarla ne kadar çok etkileşime girerse, o kadar iyi olacak” diyor.
Araştırmanın asıl önemi yalnızca eğlence tarafında değil; iletişimin derinleşmesi adına da büyük potansiyele sahip. Daha doğal yüz hareketlerine sahip robotlar, insanlarla duygusal olarak daha güçlü bağlar kurabilir. Çalışmanın başyazarı Yuhang Hu ise bu tür yüz animasyonlarının ChatGPT veya Gemini gibi sohbet odaklı yapay zekalarla birleştiğinde etkileşimlerin duygusal gerçekliğini önemli ölçüde artırabileceğini belirtiyor. Zamanla mikro ifadelerin bağlama karşı daha duyarlı hale gelmesi de mümkün görünüyor.