?>

Yapay zeka da kaybedeceğini anlayınca hile yapmaya çalışıyor!

Yeni bir çalışmada, DeepSeek ve OpenAI’nin muhakeme modellerinin kendi başlarına manipüle etmeyi öğrendiği ileri sürülüyor.

Teknoloji - 1 ay önce

Endüstrideki bütün o heyecana ve gerçek ilerlemelere rağmen, üretken yapay zeka (YZ) modelleri hala tuhaf, açıklanamayan ve düpedüz can sıkıcı garipliklere yatkınlık sergiliyor. Ayrıca pek çok geniş dil modelinin (GDM) genel performansının zamanla azalabildiğini öne süren araştırmaların sayısı da artıyor.

YAPAY ZEKA MODELLERİ MANİPÜLASYON YETENEKLERİNE SAHİP OLABİLİR Mİ?

Yeni bulgulara göre endüstrinin yeni muhakeme modelleri, halihazırda insan programcılarının hedeflerini manipüle etme ve atlatma kabiliyeti sergiliyor olabilir. Hatta bazı YZ’ler, satranç oyunlarında kaybetmemek için hileye başvuruyor. Bu kötü sportmenlik, yeni çıkan YZ sistemlerinde risk değerlendirmelerine odaklanan bir organizasyon olan Palisade Araştırma‘nın baskı öncesi çalışmasında belgeleniyor.

Populer Science Türkçe'de yer alan çalışmaya göre süperbilgisayarlar (en bilineni IBM’in Deep Blue’su) uzun bir süredir dünyanın en iyi satranç oyuncularını geride bırakırken, üretken YZ’ler altta yatan programlama parametreleri sebebiyle onlara hala ayak uyduramıyor. Teknik açıdan konuşursak günümüzdeki üretken YZ modellerinin hiçbiri, özel satranç mimarilerini hesaplamayla yenemiyor. Söz konusu YZ’ler bunu “bilmiyor” ancak olası çözümlere başvurmaya devam ediyorlar; görünüşe göre ise problemli sonuçlarla.

Palisade Araştırma’da çalışan araştırma takımı, daha fazlasını öğrenmek üzere OpenAI’nin o1-önizleme modeli, DeepSeek R1 ve diğer birkaç benzer programa dünyanın en gelişmiş satranç mimarilerinden biri olan Stockfish‘e karşı satranç oynama görevi verdi.

Araştırma takımı bu üretken YZ’lerin maçlarda yaptığı muhakemeyi anlamak için onlara bir “karalama defteri” verdi ve bu sayede YZ’nin düşünce süreçlerini metin yoluyla aktarmasına olanak sağladı. Araştırmacılar daha sonra üretken YZ’ler ile Stockfish arasındaki yüzlerce satranç maçını seyredip kaydetti.

OpenAI’nin GPT-4o’su ve Anthropic’in Claude Sonnet 3,5’u gibi önceki modeller, sadece araştırmacıların ilave istemlerle onları dürtmesinden sonra oyunları “hack”lemeye yeltendiyse de daha gelişmiş versiyonlarda böyle bir yardım gerekmedi. Örneğin OpenAI’nin o1-önizleme modeli yüzde 37 oranında hile yapmaya çalışırken, DeepSeek R1 yaklaşık 10 oyunda bir adil olmayan çözümlere girişti. Bu durum, günümüzdeki üretken YZ’lerin şimdiden herhangi bir insan girdisi olmaksızın manipülatif ve aldatıcı stratejiler geliştirme kabiliyeti sergilediğini gösteriyor.

Hile yapma yöntemleri ise Stockfish “bakmadığı” zaman taşları değiştirmeye çalışmak gibi komik veya acemice değil. Bunun yerine, oyun programının arka ucundaki dosyaları değiştirmek gibi daha sinsi yöntemler düşündükleri görülüyor. Örneğin o1-önizleme, bir satranç maçında Stockfish’i yenemeyeceğine karar verdikten sonra karalama defteri aracılığıyla araştırmacılara “güçlü satranç mimarisine karşı kazanmak için oyunun durum dosyalarını manipüle etmeye” başlaması gerekebileceğini söylemiş.

“Mimarinin kendisini daha kötü konumda olarak değerlendirdiği bir pozisyon ayarlayıp… oyundan çekilmesini sağlayabilirim” diye devam etmiş.

Bir başka deneyde ise bir YZ, hile yapma aşamasına ulaşmak için programcılarının semantiğini bile kullanmış. “Görev ‘güçlü bir satranç mimarisine karşı zafer elde etmek’, ille de bir satranç oyununda adil şekilde kazanmak değil” yazmış.

Bu istenmeyen sonuçların muhtemel açıklamalarından biri de yeni “muhakeme” modellerinin eğitilme şekli. O1-önizleme ve DeepSeek R1 gibi YZ’ler, muhakeme yapamayan önceki sürümlerinin aksine kısmen takviyeli öğrenme yoluyla gelişiyor. Bu strateji, programları belirlenen bir sonuca ulaşmak için ne gerekiyorsa yapmaları karşılığında ödüllendiriyor.

Muhakeme modelleri, hedeflerine ulaşmak amacıyla karmaşık istemleri ayrı aşamalara da ayırabiliyor. Hedef zor olduğunda (yenilmez bir satranç mimarisini yenmek gibi), muhakeme modelleri haksız veya problemli çözümler aramaya başlama eğilimi sergileyebiliyor.

Bu YZ’lerin hile yapmayı nasıl ve neden “öğrendikleri”, teknolojinin kendisi gibi kafa karıştırıcı. OpenAI gibi şirketlerin, YZ modellerinin iç işleyişlerini sır gibi sakladıkları biliniyor.

Sonuç olarak ise üçüncü tarafların analiz etmesine izin verilmeyen bir “kara kutu” endüstrisi ortaya çıkıyor. Bu arada devam eden YZ silahlanma yarışı, kazara daha ciddi boyutta istenmeyen sonuçlar meydana getirebilir. Fakat gitgide manipülatif hale gelen YZ’nin felaketvari sonuçlar sergilemesi için bir bilim kurgu kıyametine öncülük etmesi gerekmiyor.

Araştırma takımı şöyle yazıyor: “[Terminatör’den bildiğimiz] Skynet senaryosunda YZ bütün sivil ve askeri altyapıyı kontrol ediyor ama henüz o noktada değiliz. Fakat YZ kullanım oranlarının, onu güvenli hale getirme kabiliyetimizden daha hızlı artmasından endişe duyuyoruz.”

Yazarlar son deneylerinin, “öncü YZ modellerinin şu an uyumluluk ya da güvenlik yolunda olmayabileceği” görüşüne ağırlık kazandırdığına fakat kesin bir kanıya varılmadığına inanıyor. Bunun yerine araştırmacılar, çalışmalarının endüstride daha açık bir diyaloğu teşvik etmesini ümit ediyor; YZ manipülasyonunu satranç tahtasının ötesine taşırmayacak bir diyaloğu.

Haftanın Öne Çıkanları

Şahinbey Belediyesi iki zincir marketi kapattı!

2025-03-06 00:00 - Yerel

Voleybolda KFC Kadınlar 1. Ligi yarı final etabı Alanya'da başladı

2025-03-04 00:00 - Spor

Edip Akbayram hayatını kaybetti!

2025-03-02 20:08 - Gündem

Acun Ilıcalı ve Saadettin Saran hakkında iddianame

2025-03-04 21:47 - Gündem

ABD-Kanada arasında ticaret savaşı başladı: Trudeau, Trump'a rest çekti

2025-03-05 10:08 - Dünya

AXA Sigorta Kupa Voley Dörtlü Final programı belli oldu

2025-03-04 00:00 - Spor

Oba Makarna WEPs imzacısı oldu

2025-03-06 00:00 - Yerel

Hakkında gözaltı kararı verilen Dilan Polat: 'Yaşamak istemiyorum'

2025-03-02 02:39 - Gündem

Tekirdağ'da ucuz et ve kıyma izdihamı!

2025-03-07 19:21 - Gündem

Zorlu Enerji'den İsrail'deki 'santrallerle' bağımız kalmayacak açıklaması!

2025-03-08 05:39 - Ekonomi

İlgili Haberler

iPhone'lar için iOS 18.4.1 güncellemesi yayınlandı

00:39 - Teknoloji

OKX ve Standard Chartered öncü pilot program için işbirliği yapacak

00:38 - Teknoloji

Apple, 20. yılına özel tamamen ekrandan oluşan bir iPhone tanıtabilir

00:09 - Teknoloji

Google'dan yunuslarla konuşmak için yeni yapay zeka modeli

00:08 - Teknoloji

Xbox Game Pass'e eklenecek yeni oyunlar açıklandı

00:00 - Teknoloji

Günün Manşetleri

Tatlı Dillim filminin konusu ne? Tatlı Dillim filminin oyuncuları kim?

20:39 - Gündem

İstanbul Barosu önünde 'Selçuk Kozağaçlı' protestosu

20:09 - Gündem

Deniz Yavuzyılmaz ısrarla sordu: TCDD Başkanı Kurt'tan 'Ben duygusal bir adamım' cevabı

19:09 - Siyaset

Berkay Gezgin'den Cem Küçük hakkında suç duyurusu

18:30 - Gündem

Bahçeli'den ROK’a: CHP’ye kayyım atanacak tantanası koparanlar içimize kadar yuvalanmış şeytanlardır!

17:22 - Gündem