25 Haziran tarihli gazetelerde yer alan habere göre bir sosyal medya içerik üreticisi, 2025 Yükseköğretim Kurumları Sınavı (YKS) sorularını ChatGPT, Gemini ve Deepseek’e çözdürerek yapay zekanın (Aİ) en popüler araçlarını bizim üniversite sınavına soktu.
2 milyon 560 bin 649 adayın başvurduğu 2025 YKS 21 ve 22 Haziran tarihlerinde düzenlendi. Araştırmacı ve soruşturmacı gencimiz Temel Yeterlilik Testi (TYT) ile Alan Yeterlilik Testleri (AYT) sorularını ChatGPT, Gemini ve Deepseek işimli Aİ araçlarına gönderip bu soruları çözmelerini ve 4 yanlışın bir doğruyu götürdüğünü belirtti. Sınav çıktı fotoğraflarını bende ChatGPT ye yapıştırıp tablo yapmasını ve yorumlamasını istedim. Sonuçlar aşağıda…

ANALİZ ve YORUM
- Genel Başarı Sıralaması (EA – Eşit Ağırlık)
•Birinci: Deepseek (EA sıralaması: 20.900)
•İkinci: Gemini (EA sıralaması: 27.200)
•Üçüncü: ChatGPT (EA sıralaması: 649.800) - TYT Performansı
•En yüksek TYT puanı ve sıralaması Gemini’ye ait (365.484 puan / 142.300 sıra).
•Deepseek onu takip ediyor.
•ChatGPT çok geride kalmış (1.403.400. sıra). - Yerleştirme Puanları (Okul puanı eklenmiş hali)
•En iyi yerleştirme puanları yine Deepseek ve Gemini’de. ChatGPT ise belirgin şekilde düşük.
•Özellikle Y-EA sıralamasında ChatGPT’nin başarısı oldukça düşüktür (649.800). - Netler Üzerinden Başarı
•Deepseek ve Gemini, AYT testlerinde net üretmiş ve branşlarda yüksek doğru yapmış.
•ChatGPT’nin AYT kısmında çoğu testte doğru cevabı yok (Matematik dışında), bu da EA puanını ciddi düşürmüş.
SONUÇ
“İstersen adayların doğru/yanlış net analizlerini de tabloya dökebilirim. Başka analiz istersen detaylandırabilirim.” Sorusu üzerine “adayların doğru/yanlış net analizlerini de tabloya dök.” Dedim. Sonuçlar:

TYT Testleri Doğru/Yanlış Karşılaştırması

AYT Testleri Doğru/Yanlış Karşılaştırması (Eşit Ağırlık ve Sayısal Ağırlıklı)
Türk Dili ve Edebiyatı – Sosyal Bilimler-1
Sayısal AYT (Matematik ve Fen Bilimleri)

Öne Çıkan Noktalar
•Deepseek, neredeyse tüm testlerde yüksek doğruluk ve çok az yanlış ile sınavın yıldızı.
•Gemini, TYT ve AYT’de oldukça dengeli, özellikle Türkçe ve Temel Matematik’te başarılı.
•ChatGPT, yüksek yanlış sayısı ve birçok testte sıfır çekmesi nedeniyle oldukça geride kalmış.
Her bir Aİ için eleştiri yaz dedim. Sonuç:

ChatGPT sınava teknik olarak girmiş ancak sistemli bir hazırlık yapmadığı çok açık. Akademik anlamda disiplinli bir öğrenme sürecinden geçmesi gerekiyor. AYT’de sıfıra yakın başarı, konulara yüzeysel yaklaştığını gösteriyor.
Deepseek, hem TYT hem AYT’de oldukça güçlü, özellikle EA puanında üst düzey başarı göstermiş. Ancak eksik doldurulan branşlar, potansiyelin tam olarak kullanılmadığını gösteriyor. Daha fazla branşta çözüm yapması, başarı seçeneklerini artırır.
Gemini, genel olarak çok güçlü bir aday. Fakat alan seçimini sınırlandıran test eksiklikleri dikkat çekiyor. Bu performansla EA alanında çok iyi yerlere girebilir ancak daha fazla test çözerek hem SAY hem SÖZ puan türlerinde alternatif kazanabilir.
Yazıyı uzatmamak açısından bu değerlendirmeleri diğer 2 Aİ’ye sormadım. Bu kadar ilginçlik ve eğlence yeter. Şimdi gelelim benim bulduklarıma.
Aİ’ler Çaktı mı?
Mustafa Demir “Yapay Zekâ Kopyası (AI Cheating) ve Büyük Dil Modellerinin Çevrimiçi Sınavlarda Kullanımı” başlıklı Ekim 2024 yılında yayımlanan araştırma makalesinde, iletişim fakülteleri ile sosyal bilimler ve teknik bilimler meslek yüksekokullarında sınavı yapılan 17 derse ait çevrimiçi sınavdan 173 adet test sorusunu 8 Aİ aracına çözdürmüştür.
Yoruma dayanmayan, bilgiye dayalı sorulara en fazla doğru yanıtı Microsoft Bing chat bot (CB)’si vermiştir. Bing veya yeni adıyla “Copilot” soruların %80,3 (n:127)’ünü doğru, %19,7 (n:31)’sini yanlış cevaplamıştır. Bing CB’den sonra en fazla doğru cevap Google Bard tarafından verilmiştir. Bard chatbotu soruların %67,7 (n:107) sini doğru yanıtlamıştır. En az doğru yanıt veren BDM/CB ise LLaMA ve türevleri olmuştur.
Yoruma dayanan, bilgi ve yoruma dayalı sorulara en fazla doğru yanıtı %93,3 (n:14) oranla GPT3.5 Turbo ve GPT-3.5 vermiştir. GPT-3.5 Turbo’dan sonra Microsoft Bing chatbotu gelmektedir. Bing veya yeni adıyla “Copilot” soruların %86,6’sını (n:13) doğru cevaplamıştır. En az doğru yanıt veren BDM/CB ise LLaMA ve türevleri olmuştur.

Tüm soruların sonuçlarına göre en başarılı Aİ, %80,9 doğru yanıt vermesi nedeniyle Microsoft Bing’dir. Yeni adıyla Copilot, toplam 173 sorunun 140’ına doğru yanıtlamıştır. Bilgiye dayalı ve yoruma dayalı sorulara verdiği cevapların oranı ise birbirine yakındır. En başarırız dil modeli, “LLaMA” ve türevleri (LLaMA-2-7b, LLaMA-2-13b, LLaMA-2-70)dir. “Microsoft Bing içinde yer alan chatbot, Microsoft kaynaklarına göre GPT-4 tabanlıdır. GPT-3’e nazaran güncel internet kaynaklarına ulaşabilmesi nedeniyle daha isabetli sonuçlar verdiği düşünülmektedir” olarak yorumlanmıştır. Araştırmacı, internette arama yapma özellikleri aktif olan BDM ve botlar, daha doğru sonuçlar sağladığını; yanlış verilen cevapların, farklı kaynaklardan elde edilen bilgilerin ise birbiri ile çatışmasından kaynaklandığı belirtmekte ve internetteki bilgi kirliliğine dikkati çekmektedir.

Xuan-Quy Dao ve Ngoc-Bich Le, 2023 yılında yayımlanan “Investigating the Effectiveness of ChatGPT in Mathematical Reasoning and Problem Solving: Evidence from the Vietnamese National High School Graduation Examination” başlıklı çalışmalarında 250 soruluk veri kümesini bilgi (K), kavrama (C), uygulama (A) ve yüksek uygulama (H) olmak üzere dört seviyeye ayırmış ve çeşitli matematiksel kavramları kapsayan on tema halinde ChatGPT’ye sormuş. Sonuç, ChatGPT’nin en basit K seviyesinde soruların %83’üne doğru yanıt verdiğini, zorluk seviyesi arttıkça C, A ve H düzeylerinde doğruluk oranının sırasıyla %62, %27 ve %10 olarak gerçekleştiğini raporlamış.

Sejun Oh, Aralık 2024 tarihli “Evaluating Mathematical Problem-Solving Abilities of Generative AI Models: Performance Analysis of o1-preview and gpt-4o Using the Korean College Scholastic Ability Test” başlıklı çalışmasında, Generative AI modelleri olan o1-preview ve gpt-4o’nun matematiksel problem çözme yeteneklerini değerlendirmek için Kore Kolej Skolastik Yetenek Testi sorularını kullanmıştır. Aİ modellerinin performansı, 2023 ve 2024 testlerinin matematik bölümlerinden 92 soru kullanılarak analiz edilmiş ve gerçek öğrencilerin performansıyla karşılaştırılmıştır. Sonuçlar, o1-preview modelinin ortalama %81,52 doğruluk oranına ulaştığını ve üst düzey gerçek öğrencilerle karşılaştırılabilir bir seviyede performans gösterdiğini ortaya koymuştur. Gpt-4o modeli ise %49,46’lık ortalama doğruluk oranıyla orta ve alt kademe performans göstermiştir. Farklı problem türleri analiz edildiğinde, bu çalışma her iki modelin de çoktan seçmeli sorularında daha iyi performans gösterdiğini, ancak problemler zorlaştıkça doğruluklarının azaldığını ortaya koymuştur.
Netice itibariyle Aİ’nin gelişimi, yetenekleri ve performansı gün geçtikçe artsa ve büyük oranda takdir toplasa da soruların zorluk derecesi arttığında başarı durumu düşmektedir. Bu da insan zekasının hala daha Aİ’nin önünde olduğunu göstermektedir. Elbet bir gün tıpkı süper bilgisayarın dünya satranç ustalarını yenmesinin gerçekleştiği gibi Aİ de bu performansa erişecektir.