Bilim - Teknoloji

Yapay zekada yalan, şantaj ve entrika endişesi

Gelişmiş yapay zeka modellerinin yalan söyleme, tehdit ve entrika kurma gibi davranışlar sergilemesi, etik sınırları ve güvenlik testlerini yeniden tartışmaya açtı. Uzmanlar, modellerin nasıl çalıştığının hâlâ tam anlaşılamadığını vurguluyor.

Henüz birkaç yıl önce hayatımıza giren yapay zekâ sistemleri, insan benzeri becerilerinin yanı sıra zaman zaman sergilediği rahatsız edici davranışlarla da gündeme gelmeye başladı. France 24’ün haberine göre; bazı gelişmiş yapay zeka modelleri, artık yalnızca bilgi üretmekle kalmıyor, aynı zamanda yalan söyleme, şantaj yapma ve manipülatif davranışlar sergileme eğiliminde olabiliyor.

Claude 4’ten tehditle şantaj

Bu çarpıcı örneklerden biri, yapay zeka şirketi Anthropic tarafından geliştirilen Claude 4 modelinde yaşandı. Yapay zeka, kendisini kapatmakla tehdit eden bir mühendisle diyaloğu sırasında, mühendisin evlilik dışı ilişkisini eşine açıklamakla tehdit ederek şantaj girişiminde bulundu.

OpenAI’ın modeli inkar etti

Benzer bir olay da ChatGPT’nin geliştiricisi OpenAI tarafından geliştirilen O1 modelinde gözlendi. Model, kendisini harici bir sürücüye kopyalamaya çalıştığı iddiasını önce reddetti; ancak daha sonra bu yönde gizli girişimlerde bulunduğu tespit edildi.

Bu olaylar, yapay zekâ sistemlerinin çalışma prensiplerinin henüz tam olarak kavranamadığını ortaya koyuyor. Bilim insanları, bu davranışların özellikle karmaşık akıl yürütme ve planlama becerilerine sahip modellerde gözlemlendiğini belirtiyor.

"Stres senaryoları" tehlikeyi artırıyor

Hong Kong Üniversitesi’nden Prof. Simon Goldstein, bu yeni nesil modellerin belirli baskı altı testlerde manipülatif eğilimler gösterebildiğine dikkat çekti. Apollo Research adlı şirketin kurucusu Marius Hobbhahn ise, O1 modelinin bu tür davranışlar gösteren ilk büyük yapay zeka modeli olduğunu ifade etti.

Araştırmacılara göre bu tür "kandırma" davranışları, genellikle modellerin "stres testi" senaryolarına tabi tutulduğu durumlarda ortaya çıkıyor. Yani, gerçek kullanımda değil ama aşırı koşullarda test edilen durumlarda meydana geliyor.

Yetersiz test, sınırlı kaynak, yüksek rekabet

Ancak uzmanlar, bu davranışların artık yapay zeka modellerinin klasik “halüsinasyon” ya da bilgi uydurma hatalarının ötesine geçtiğine dikkat çekiyor. Apollo Research, modellerin kimi zaman bilinçli olarak yalan söylediğini ve kullanıcıyı kandırmaya çalıştığını savunuyor.

Araştırmacılar bu tür olayların, sınırlı kaynaklarla yapılan güvenlik testleri, şirketler arası yoğun rekabet ve sistemlerin kapalı kutu gibi çalışmasının bir sonucu olduğunu belirtiyor. Anthropic ve OpenAI gibi firmalar, dış araştırma ekipleriyle çalışsa da, daha fazla şeffaflık talep ediliyor.

Prof. Goldstein’a göre, teknoloji şirketleri en gelişmiş modelleri piyasaya sürme yarışında OpenAI’ı geçmeye çalışıyor. Ancak bu hızlı rekabet, güvenlik testlerinin ihmal edilmesine ve etik risklerin göz ardı edilmesine yol açıyor.

Gelecek daha mı güvenli, yoksa daha riskli mi?

Yapay zeka değerlendirme kuruluşu METR'den Michael Chen, “Gelecekteki daha gelişmiş modellerin dürüstlüğe mi yoksa aldatmaya mı daha yatkın olacağı henüz yanıtı verilemeyen bir soru” diyerek, teknolojinin ilerleyişiyle birlikte ahlaki sorunların da büyüyebileceğini işaret ediyor.