Yapay zekâ teknolojileri büyük bir hızla gelişmeye devam ediyor ancak bu gelişim her zaman doğru yönde ilerlemiyor. OpenAI tarafından geliştirilen son modeller GPT-o3 ve GPT-o4-mini, insan düşünce sistemini daha yakından taklit edebilmek için özel olarak tasarlandı. Ancak yapılan son araştırmalar, bu modellerin daha akıllı olsalar da daha fazla yanıltıcı bilgi ürettiklerini gösteriyor.
Yapay zekâ tabanlı sohbet robotlarında (chatbot) uzun süredir devam eden "halüsinasyon" sorunu, yani gerçekle ilgisi olmayan bilgi üretimi, GPT'nin yeni sürümlerinde daha belirgin hâle geldi. Her yeni modelde bu sorunun azalması beklenirken, OpenAI’nin son verileri bunun aksine bir tablo çiziyor.
Gerçekleştirilen bir kamu figürleri testinde GPT-o3 modelinin verdiği yanıtların yüzde 33’ü yanlış bilgi içerdi. Bu oran, önceki sürüm GPT-o1’in hata oranının neredeyse iki katı. Daha küçük ve kompakt bir model olan GPT-o4-mini ise daha da yüksek bir hata oranı ile yüzde 48 yanıltıcı bilgi üretti.
Yapay zekâ daha çok düşündükçe daha çok mu yanılıyor?
Önceki modeller metin üretiminde akıcılık açısından başarılıydı. Ancak GPT-o3 ve GPT-o4-mini, insan mantığını adım adım taklit edecek şekilde düşünme programlamasıyla geliştirildi. Araştırmacılara göre, bu yeni düşünme tekniği, modellerin hata yapma olasılığını artırıyor. Yani yapay zekâ ne kadar karmaşık düşünürse, yanlış bir sonuca ulaşma riski de o kadar artıyor.
Yeni modeller, daha eski ve temkinli sistemlerin aksine, kavramlar arasında bağlantı kurmaya çalışırken gerçek dışı veya tuhaf çıktılar sunabiliyor.
Gelişmiş modeller neden daha az güvenilir?
OpenAI’ye göre, yapay zekâ sistemlerinin daha fazla halüsinasyon üretmesi, doğrudan düşünce tarzıyla değil, kullanılan dilin kapsamı ve modelin kendine güveniyle ilgili. Modeller faydalı ve kapsamlı olma çabasıyla, zaman zaman gerçek olmayan tahminlerde bulunabiliyor ve bu tahminleri gerçek gibi sunabiliyor.
Sonuçlar ikna edici olsa da, hatalı bilgiler taşıyabiliyor.
Halüsinasyonların gerçek dünyadaki tehlikeleri
Yapay zekânın hukuk, sağlık, eğitim veya kamu hizmetleri gibi kritik alanlarda kullanılması, ciddi riskleri de beraberinde getiriyor. Hukuki belgelerde veya tıbbi raporlarda yer alan hatalı bilgiler telafisi zor sonuçlar doğurabilir.
Geçmişte, ChatGPT aracılığıyla uydurma mahkeme kararları sunan bazı avukatların yaptırımlarla karşılaştığı biliniyor. Aynı şekilde, iş raporlarında, öğrenci ödevlerinde veya kamu politikalarında yapılan küçük hatalar bile büyük sorunlara yol açabiliyor.
Yapay zekâ hayatımıza daha fazla entegre oldukça, hata yapma ihtimali azalsa da, yapılan hataların etkisi çok daha ciddi sonuçlar doğurabiliyor.