Yapay Zekanınn (AI) Üniversite Sınav Deneyimi

Tarih

25 Haziran tarihli gazetelerde yer alan habere göre bir sosyal medya içerik üreticisi, 2025 Yükseköğretim Kurumları Sınavı (YKS) sorularını ChatGPT, Gemini ve Deepseek’e çözdürerek yapay zekanın (Aİ) en popüler araçlarını bizim üniversite sınavına soktu.
2 milyon 560 bin 649 adayın başvurduğu 2025 YKS 21 ve 22 Haziran tarihlerinde düzenlendi. Araştırmacı ve soruşturmacı gencimiz Temel Yeterlilik Testi (TYT) ile Alan Yeterlilik Testleri (AYT) sorularını ChatGPT, Gemini ve Deepseek işimli Aİ araçlarına gönderip bu soruları çözmelerini ve 4 yanlışın bir doğruyu götürdüğünü belirtti. Sınav çıktı fotoğraflarını bende ChatGPT ye yapıştırıp tablo yapmasını ve yorumlamasını istedim. Sonuçlar aşağıda…

ANALİZ ve YORUM

  1. Genel Başarı Sıralaması (EA – Eşit Ağırlık)
    •Birinci: Deepseek (EA sıralaması: 20.900)
    •İkinci: Gemini (EA sıralaması: 27.200)
    •Üçüncü: ChatGPT (EA sıralaması: 649.800)
  2. TYT Performansı
    •En yüksek TYT puanı ve sıralaması Gemini’ye ait (365.484 puan / 142.300 sıra).
    •Deepseek onu takip ediyor.
    •ChatGPT çok geride kalmış (1.403.400. sıra).
  3. Yerleştirme Puanları (Okul puanı eklenmiş hali)
    •En iyi yerleştirme puanları yine Deepseek ve Gemini’de. ChatGPT ise belirgin şekilde düşük.
    •Özellikle Y-EA sıralamasında ChatGPT’nin başarısı oldukça düşüktür (649.800).
  4. Netler Üzerinden Başarı
    •Deepseek ve Gemini, AYT testlerinde net üretmiş ve branşlarda yüksek doğru yapmış.
    •ChatGPT’nin AYT kısmında çoğu testte doğru cevabı yok (Matematik dışında), bu da EA puanını ciddi düşürmüş.
    SONUÇ
    “İstersen adayların doğru/yanlış net analizlerini de tabloya dökebilirim. Başka analiz istersen detaylandırabilirim.” Sorusu üzerine “adayların doğru/yanlış net analizlerini de tabloya dök.” Dedim. Sonuçlar:

TYT Testleri Doğru/Yanlış Karşılaştırması


AYT Testleri Doğru/Yanlış Karşılaştırması (Eşit Ağırlık ve Sayısal Ağırlıklı)
Türk Dili ve Edebiyatı – Sosyal Bilimler-1
Sayısal AYT (Matematik ve Fen Bilimleri)


Öne Çıkan Noktalar
•Deepseek, neredeyse tüm testlerde yüksek doğruluk ve çok az yanlış ile sınavın yıldızı.
•Gemini, TYT ve AYT’de oldukça dengeli, özellikle Türkçe ve Temel Matematik’te başarılı.
•ChatGPT, yüksek yanlış sayısı ve birçok testte sıfır çekmesi nedeniyle oldukça geride kalmış.
Her bir Aİ için eleştiri yaz dedim. Sonuç:


ChatGPT sınava teknik olarak girmiş ancak sistemli bir hazırlık yapmadığı çok açık. Akademik anlamda disiplinli bir öğrenme sürecinden geçmesi gerekiyor. AYT’de sıfıra yakın başarı, konulara yüzeysel yaklaştığını gösteriyor.
Deepseek, hem TYT hem AYT’de oldukça güçlü, özellikle EA puanında üst düzey başarı göstermiş. Ancak eksik doldurulan branşlar, potansiyelin tam olarak kullanılmadığını gösteriyor. Daha fazla branşta çözüm yapması, başarı seçeneklerini artırır.
Gemini, genel olarak çok güçlü bir aday. Fakat alan seçimini sınırlandıran test eksiklikleri dikkat çekiyor. Bu performansla EA alanında çok iyi yerlere girebilir ancak daha fazla test çözerek hem SAY hem SÖZ puan türlerinde alternatif kazanabilir.
Yazıyı uzatmamak açısından bu değerlendirmeleri diğer 2 Aİ’ye sormadım. Bu kadar ilginçlik ve eğlence yeter. Şimdi gelelim benim bulduklarıma.
Aİ’ler Çaktı mı?
Mustafa Demir “Yapay Zekâ Kopyası (AI Cheating) ve Büyük Dil Modellerinin Çevrimiçi Sınavlarda Kullanımı” başlıklı Ekim 2024 yılında yayımlanan araştırma makalesinde, iletişim fakülteleri ile sosyal bilimler ve teknik bilimler meslek yüksekokullarında sınavı yapılan 17 derse ait çevrimiçi sınavdan 173 adet test sorusunu 8 Aİ aracına çözdürmüştür.
Yoruma dayanmayan, bilgiye dayalı sorulara en fazla doğru yanıtı Microsoft Bing chat bot (CB)’si vermiştir. Bing veya yeni adıyla “Copilot” soruların %80,3 (n:127)’ünü doğru, %19,7 (n:31)’sini yanlış cevaplamıştır. Bing CB’den sonra en fazla doğru cevap Google Bard tarafından verilmiştir. Bard chatbotu soruların %67,7 (n:107) sini doğru yanıtlamıştır. En az doğru yanıt veren BDM/CB ise LLaMA ve türevleri olmuştur.
Yoruma dayanan, bilgi ve yoruma dayalı sorulara en fazla doğru yanıtı %93,3 (n:14) oranla GPT3.5 Turbo ve GPT-3.5 vermiştir. GPT-3.5 Turbo’dan sonra Microsoft Bing chatbotu gelmektedir. Bing veya yeni adıyla “Copilot” soruların %86,6’sını (n:13) doğru cevaplamıştır. En az doğru yanıt veren BDM/CB ise LLaMA ve türevleri olmuştur.


Tüm soruların sonuçlarına göre en başarılı Aİ, %80,9 doğru yanıt vermesi nedeniyle Microsoft Bing’dir. Yeni adıyla Copilot, toplam 173 sorunun 140’ına doğru yanıtlamıştır. Bilgiye dayalı ve yoruma dayalı sorulara verdiği cevapların oranı ise birbirine yakındır. En başarırız dil modeli, “LLaMA” ve türevleri (LLaMA-2-7b, LLaMA-2-13b, LLaMA-2-70)dir. “Microsoft Bing içinde yer alan chatbot, Microsoft kaynaklarına göre GPT-4 tabanlıdır. GPT-3’e nazaran güncel internet kaynaklarına ulaşabilmesi nedeniyle daha isabetli sonuçlar verdiği düşünülmektedir” olarak yorumlanmıştır. Araştırmacı, internette arama yapma özellikleri aktif olan BDM ve botlar, daha doğru sonuçlar sağladığını; yanlış verilen cevapların, farklı kaynaklardan elde edilen bilgilerin ise birbiri ile çatışmasından kaynaklandığı belirtmekte ve internetteki bilgi kirliliğine dikkati çekmektedir.


Xuan-Quy Dao ve Ngoc-Bich Le, 2023 yılında yayımlanan “Investigating the Effectiveness of ChatGPT in Mathematical Reasoning and Problem Solving: Evidence from the Vietnamese National High School Graduation Examination” başlıklı çalışmalarında 250 soruluk veri kümesini bilgi (K), kavrama (C), uygulama (A) ve yüksek uygulama (H) olmak üzere dört seviyeye ayırmış ve çeşitli matematiksel kavramları kapsayan on tema halinde ChatGPT’ye sormuş. Sonuç, ChatGPT’nin en basit K seviyesinde soruların %83’üne doğru yanıt verdiğini, zorluk seviyesi arttıkça C, A ve H düzeylerinde doğruluk oranının sırasıyla %62, %27 ve %10 olarak gerçekleştiğini raporlamış.


Sejun Oh, Aralık 2024 tarihli “Evaluating Mathematical Problem-Solving Abilities of Generative AI Models: Performance Analysis of o1-preview and gpt-4o Using the Korean College Scholastic Ability Test” başlıklı çalışmasında, Generative AI modelleri olan o1-preview ve gpt-4o’nun matematiksel problem çözme yeteneklerini değerlendirmek için Kore Kolej Skolastik Yetenek Testi sorularını kullanmıştır. Aİ modellerinin performansı, 2023 ve 2024 testlerinin matematik bölümlerinden 92 soru kullanılarak analiz edilmiş ve gerçek öğrencilerin performansıyla karşılaştırılmıştır. Sonuçlar, o1-preview modelinin ortalama %81,52 doğruluk oranına ulaştığını ve üst düzey gerçek öğrencilerle karşılaştırılabilir bir seviyede performans gösterdiğini ortaya koymuştur. Gpt-4o modeli ise %49,46’lık ortalama doğruluk oranıyla orta ve alt kademe performans göstermiştir. Farklı problem türleri analiz edildiğinde, bu çalışma her iki modelin de çoktan seçmeli sorularında daha iyi performans gösterdiğini, ancak problemler zorlaştıkça doğruluklarının azaldığını ortaya koymuştur.
Netice itibariyle Aİ’nin gelişimi, yetenekleri ve performansı gün geçtikçe artsa ve büyük oranda takdir toplasa da soruların zorluk derecesi arttığında başarı durumu düşmektedir. Bu da insan zekasının hala daha Aİ’nin önünde olduğunu göstermektedir. Elbet bir gün tıpkı süper bilgisayarın dünya satranç ustalarını yenmesinin gerçekleştiği gibi Aİ de bu performansa erişecektir.

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

Sosyal Medyada Paylaş

Popüler Yazılar

Bunları da sevebilirsiniz
Bunları da sevebilirsiniz

İş gücünü dönüştüren 4 Teknoloji ve 7 İş gücü sektörü

WEF’in Ekim 2025 tarihli “Jobs of Tomorrow” beyaz kâğıdı, işgücünü dönüştüren dört teknolojiyi, AI, robotlar ve otonom sistemler (fiziksel AI), enerji teknolojileri ile ağlar ve algılama, merkeze alıp dünyanın en büyük yedi iş grubuna (tarım, imalat, inşaat, işletme-yönetim, toptan/perakende, ulaştırma-lojistik, sağlık) etkilerini resmediyor: İşverenlerin %86’sı AI’ın 2030’a dek şirketlerini dönüştüreceğini öngörürken, gen AI tabanlı “AI ajanlarının” bağımsız görev yürütmesi üretkenlik vaat ediyor fakat gizlilik ve güvenilirlik risklerini büyütüyor; robotik kurulumları 2020’den beri yılda %5–7 artarken son iki yıldaki yaklaşık %40’lık maliyet düşüşü ve kurulumların %80’inin Çin, Japonya, ABD, Kore ve Almanya’da yoğunlaşması fiziksel otomasyonu hızlandırıyor; enerji tarafında işverenlerin %41’i dönüşüm bekliyor ve EV’ler ile veri merkezleri yeni talep dalgaları yaratıyor; ağ ve sensörlerdeki ilerleme (yüksek çözünürlüklü kameralar, LiDAR, dokunsal sensörler) diğer tüm teknolojilerin etkinliğini katlıyor, ancak Avrupa’daki %91’e karşı Afrika’daki %38 internet erişimi dijital uçurumu büyütme riski taşıyor. Bu tablo, tarımda dron operatörlerinden veri analistlerine uzanan yeni rolleri, imalatta AI destekli kalite güvencesi ve kök neden analitiğini, inşaatta BIM+AI ve yarı otomatik tuğla döşemeyi, işletme-yönetimde uzaktan çalışmanın ve Aİ’nin belirsiz denklemini, perakendede talep tahmini ve enerji depolama altyapısının teknik operatör ihtiyacını, lojistikte AI ajanları, depo robotları ve gerçek zamanlı platform optimizasyonunu, sağlıkta idari otomasyonla %70–90’a varan işlem süresi düşüşlerini ve tahmine dayalı analitiği bir arada gösteriyor; fakat aynı anda beceri-eğitim uyumsuzluğu, düşük-orta beceri işlerde kitlesel kayıp, insan özneliğinin algoritmik erozyonu ve enerji/ekoloji sınırları gibi kırılganlıkları büyütüyor. Sonuçta resim net: üretkenlik ve ölçeklenebilirlik teknolojiden gelir, ama geleceğin işinde değeri belirleyecek olan hâlâ insanın kendisi, yaratıcılık, etik yargı, empati ve uyum becerisi; yani makinenin kurduğu düzenin içinde anlamı kurabilme gücü.

Kapıdan Gidenler, Gönülden Gitmeyenler: İşten Çıkarmanın İnsani Yüzü

Özetleyici şöyle dedi: Bir iş görüşmesinde adayın “En son işten çıkarılan kişinin sebebi neydi ve bu sürece nasıl yaklaştınız?” sorusu, konunun özünü tek cümlede yakalamıştı: Bir şirketin karakteri, zor zamanlarda insanlarına nasıl davrandığıyla belli olur. İşten çıkarma genellikle bir maliyet önlemi gibi görülür, ama asıl maliyet içeride kalır; güven, bağlılık ve üretkenlik sessizce azalır. Araştırmalar, saygısız ve şeffaflıktan yoksun süreçlerin çalışan bağlılığını ve iş tatminini dramatik biçimde düşürdüğünü gösteriyor. Kalanlar, bir sonraki sıranın kendilerine gelip gelmeyeceğini düşünür; ortaya çıkan sadakat, çoğu kez yalnızca hayatta kalma içgüdüsüdür. Oysa bir çalışanı nasıl uğurladığınız, kalanlara verdiğiniz en kalıcı kültür dersidir. Saygıyla yönetilen bir ayrılık, ileride mezunlar ve “bumerang” çalışanlar olarak geri dönen gerçek bağlılık tohumlarını eker. Bu nedenle şeffaflık, teşekkür ve onurlu veda mektupları sadece nezaket değil, stratejik bir yatırımdır. Çünkü insanlar işten çıkarılma anında değil, o anın nasıl yönetildiğinde şirketlerine dair gerçek fikri edinirler. Bir fırtına geçtikten sonra kurumun geleceğini belirleyen, gidenlerin ardında kalan sessizlikte duyulan güvendir.

İş Hayatında Sessiz Felaketler

Sabahları aynı yüzler, aynı sessizlik; herkesin elinde telefon, yüzünde yorgun bir ciddiyet. Modern çağın görünmez marşı, verimlilik temposuyla atılan adımların arasında insanın sesi kayboluyor. Artık felaketler iflasla, krizle değil, içten içe yanan tükenmişlikle ölçülüyor. Dışarıdan parlak, içeriden boş insanlar birer birer sabah işe koşarken aslında kaçıyor, kendinden, sessizlikten, anlam arayışından. Kariyer bir umut olmaktan çıkıp bir yarışa, bir maskeye dönüşmüş; herkes güçlü görünmeye mecbur, herkes “iyiymiş gibi” yapıyor. Mobbing, görünmeyen rekabet, gülümseyen yorgunluk… Modern ofisler sessiz yangınlarla dolu. Bir mail, bir karar her şeyi yıkabiliyor, çünkü sistemde insanın adı yok. Ama yine de bir umut var: çünkü felaketin içinde bile insaf, anlayış, teşekkür hâlâ mümkün. Çalışmak, sadece üretmek değil; yaşamakla, anlamla, insanla bağ kurmak olmalı. Asıl felaket unutmaktır ,neden başladığımızı, neye inandığımızı unuttuğumuzda. Yorgun yüzlerin arasında hâlâ “Ben hâlâ kendim miyim?” diye soranlar var. O soru varsa, umut da var. Çünkü insan, çalışarak değil, anlamını koruyarak insan kalır.

Kamera, Işıklar, Motor?

Yapay zekanın yaygınlaşmasıyla birlikte, kullanım alanları veri analizinden sanata, yazıdan videoya kadar genişledi. DALL-E ve Imagen gibi ilk görüntü modelleri hatalarına rağmen bu devrimin öncüleriydi; ardından gelen Veo 3, sesli video üretebilen ilk model olarak çıtayı yükseltti. Aynı dönemde “AI Commissioner” filmiyle dünyanın ilk yapay zeka aktrisi Tilly Norwood sahneye çıktı, hatta bir menajerlik ajansına kaydoldu. Meta, Midjourney ortaklığıyla “Vibes” adını verdiği tamamen yapay zekalı bir video paylaşım alanı kurarken, OpenAI da Sora 2 modelini ve buna bağlı sosyal medya platformunu duyurdu; kullanıcılar artık yapay zekayla video üretip birbirlerinin içeriklerini yeniden kurgulayabiliyor. Google’ın Veo 3.1 sürümü ise daha doğal sesler, gelişmiş dudak senkronu ve kesintisiz sahne akışıyla dikkat çekti. Kusurları hâlâ gözle görülse de bu modeller artık insan benzeri karakterler yaratabiliyor, fiziksel tutarlılığı koruyabiliyor ve hikâye devamlılığını yakalayabiliyor. OpenAI destekli 30 milyon dolarlık “Critterz” filmi ve Amazon’un kişiye özel içerik üreten Showrunner projesi, sinema ve eğlencenin geleceğine işaret ediyor. Ancak tüm bu ilerlemenin merkezinde hâlâ insan var; çünkü yapay zekanın yaratıcılığı bile insanın üretiminden doğuyor. Bu nedenle teknolojinin gelişimi, sanatçıyı dışlamadan ve kötüye kullanıma açık bırakmadan sürdürülmek zorunda.