Teknoloji

Yapay zeka da kaybedeceğini anlayınca hile yapmaya çalışıyor!

Yeni bir çalışmada, DeepSeek ve OpenAI’nin muhakeme modellerinin kendi başlarına manipüle etmeyi öğrendiği ileri sürülüyor.

09-03-2025 00:08

09-03-2025 22:32

224 OKUNMA

Endüstrideki bütün o heyecana ve gerçek ilerlemelere rağmen, üretken yapay zeka (YZ) modelleri hala tuhaf, açıklanamayan ve düpedüz can sıkıcı garipliklere yatkınlık sergiliyor. Ayrıca pek çok geniş dil modelinin (GDM) genel performansının zamanla azalabildiğini öne süren araştırmaların sayısı da artıyor.

YAPAY ZEKA MODELLERİ MANİPÜLASYON YETENEKLERİNE SAHİP OLABİLİR Mİ?

Yeni bulgulara göre endüstrinin yeni muhakeme modelleri, halihazırda insan programcılarının hedeflerini manipüle etme ve atlatma kabiliyeti sergiliyor olabilir. Hatta bazı YZ’ler, satranç oyunlarında kaybetmemek için hileye başvuruyor. Bu kötü sportmenlik, yeni çıkan YZ sistemlerinde risk değerlendirmelerine odaklanan bir organizasyon olan Palisade Araştırma‘nın baskı öncesi çalışmasında belgeleniyor.

Populer Science Türkçe'de yer alan çalışmaya göre süperbilgisayarlar (en bilineni IBM’in Deep Blue’su) uzun bir süredir dünyanın en iyi satranç oyuncularını geride bırakırken, üretken YZ’ler altta yatan programlama parametreleri sebebiyle onlara hala ayak uyduramıyor. Teknik açıdan konuşursak günümüzdeki üretken YZ modellerinin hiçbiri, özel satranç mimarilerini hesaplamayla yenemiyor. Söz konusu YZ’ler bunu “bilmiyor” ancak olası çözümlere başvurmaya devam ediyorlar; görünüşe göre ise problemli sonuçlarla.

Palisade Araştırma’da çalışan araştırma takımı, daha fazlasını öğrenmek üzere OpenAI’nin o1-önizleme modeli, DeepSeek R1 ve diğer birkaç benzer programa dünyanın en gelişmiş satranç mimarilerinden biri olan Stockfish‘e karşı satranç oynama görevi verdi.

Araştırma takımı bu üretken YZ’lerin maçlarda yaptığı muhakemeyi anlamak için onlara bir “karalama defteri” verdi ve bu sayede YZ’nin düşünce süreçlerini metin yoluyla aktarmasına olanak sağladı. Araştırmacılar daha sonra üretken YZ’ler ile Stockfish arasındaki yüzlerce satranç maçını seyredip kaydetti.

OpenAI’nin GPT-4o’su ve Anthropic’in Claude Sonnet 3,5’u gibi önceki modeller, sadece araştırmacıların ilave istemlerle onları dürtmesinden sonra oyunları “hack”lemeye yeltendiyse de daha gelişmiş versiyonlarda böyle bir yardım gerekmedi. Örneğin OpenAI’nin o1-önizleme modeli yüzde 37 oranında hile yapmaya çalışırken, DeepSeek R1 yaklaşık 10 oyunda bir adil olmayan çözümlere girişti. Bu durum, günümüzdeki üretken YZ’lerin şimdiden herhangi bir insan girdisi olmaksızın manipülatif ve aldatıcı stratejiler geliştirme kabiliyeti sergilediğini gösteriyor.

Hile yapma yöntemleri ise Stockfish “bakmadığı” zaman taşları değiştirmeye çalışmak gibi komik veya acemice değil. Bunun yerine, oyun programının arka ucundaki dosyaları değiştirmek gibi daha sinsi yöntemler düşündükleri görülüyor. Örneğin o1-önizleme, bir satranç maçında Stockfish’i yenemeyeceğine karar verdikten sonra karalama defteri aracılığıyla araştırmacılara “güçlü satranç mimarisine karşı kazanmak için oyunun durum dosyalarını manipüle etmeye” başlaması gerekebileceğini söylemiş.

“Mimarinin kendisini daha kötü konumda olarak değerlendirdiği bir pozisyon ayarlayıp… oyundan çekilmesini sağlayabilirim” diye devam etmiş.

Bir başka deneyde ise bir YZ, hile yapma aşamasına ulaşmak için programcılarının semantiğini bile kullanmış. “Görev ‘güçlü bir satranç mimarisine karşı zafer elde etmek’, ille de bir satranç oyununda adil şekilde kazanmak değil” yazmış.

Bu istenmeyen sonuçların muhtemel açıklamalarından biri de yeni “muhakeme” modellerinin eğitilme şekli. O1-önizleme ve DeepSeek R1 gibi YZ’ler, muhakeme yapamayan önceki sürümlerinin aksine kısmen takviyeli öğrenme yoluyla gelişiyor. Bu strateji, programları belirlenen bir sonuca ulaşmak için ne gerekiyorsa yapmaları karşılığında ödüllendiriyor.

Muhakeme modelleri, hedeflerine ulaşmak amacıyla karmaşık istemleri ayrı aşamalara da ayırabiliyor. Hedef zor olduğunda (yenilmez bir satranç mimarisini yenmek gibi), muhakeme modelleri haksız veya problemli çözümler aramaya başlama eğilimi sergileyebiliyor.

Bu YZ’lerin hile yapmayı nasıl ve neden “öğrendikleri”, teknolojinin kendisi gibi kafa karıştırıcı. OpenAI gibi şirketlerin, YZ modellerinin iç işleyişlerini sır gibi sakladıkları biliniyor.

Sonuç olarak ise üçüncü tarafların analiz etmesine izin verilmeyen bir “kara kutu” endüstrisi ortaya çıkıyor. Bu arada devam eden YZ silahlanma yarışı, kazara daha ciddi boyutta istenmeyen sonuçlar meydana getirebilir. Fakat gitgide manipülatif hale gelen YZ’nin felaketvari sonuçlar sergilemesi için bir bilim kurgu kıyametine öncülük etmesi gerekmiyor.

Araştırma takımı şöyle yazıyor: “[Terminatör’den bildiğimiz] Skynet senaryosunda YZ bütün sivil ve askeri altyapıyı kontrol ediyor ama henüz o noktada değiliz. Fakat YZ kullanım oranlarının, onu güvenli hale getirme kabiliyetimizden daha hızlı artmasından endişe duyuyoruz.”

Yazarlar son deneylerinin, “öncü YZ modellerinin şu an uyumluluk ya da güvenlik yolunda olmayabileceği” görüşüne ağırlık kazandırdığına fakat kesin bir kanıya varılmadığına inanıyor. Bunun yerine araştırmacılar, çalışmalarının endüstride daha açık bir diyaloğu teşvik etmesini ümit ediyor; YZ manipülasyonunu satranç tahtasının ötesine taşırmayacak bir diyaloğu.