Anthropic’e Göre Yeni Claude Modeli Şimdiye Kadarki En “Dürüst” Model

Piyasaya çıkan en yeni yapay zekâ modeli, dikkat çekici derecede “dürüst” olduğu iddiasıyla tanıtılıyor.Anthropic kısa süre önce Claude yapay zekâ modellerinin büyük ölçekli serisinin yeni versiyonu olan Claude Opus 4.8’i yayınladı. Şirket, bu modelin şimdiye kadarki en “dürüst” Claude sürümü olduğunu öne sürüyor. Yeni modelle birlikte Anthropic, Claude için yeni özellikler de sunuyor. Bunlar arasında kullanıcıların, modelin belirli bir görev için ne kadar çaba harcayacağını kontrol edebilmesi de yer alıyor. Şirket ayrıca Claude’un daha büyük ve daha güçlü bir versiyonu olacak Claude Mythos’un yakında çıkacağını da duyuruyor.Yapay zekâ modellerinin halüsinasyon görebildiği ve aceleci sonuçlara varabildiği artık bilinen bir gerçek. Ancak Anthropic’e göre Opus 4.8’i erken aşamada test edenler, yeni modelin “çalışmasıyla ilgili belirsizlikleri belirtmeye daha yatkın, dayanağı olmayan iddialarda bulunmaya ise daha az eğilimli” olduğunu söylüyor. Anthropic, yeni modeli nasıl bu kadar doğru yanıtlar verebilir hâle getirdiğine ilişkin ise ayrıntı paylaşmadı.Anthropic’in kendi iç testlerine göre Opus 4.8, kodlama alanında en ileri seviyede performans gösteriyor. Yapay zekâ destekli kodlama ajanlarının performansını ölçen SWE-Bench Pro testinde Opus 4.8 yüzde 69,2 ile rekor bir skor elde etti. Önceki model Claude Opus 4.7’nin skoru yüzde 64,3, rakibi OpenAI’ın GPT-5.5 modelinin skoru ise yüzde 58,6 oldu.Model, bilgiye dayalı işlerde de kayda değer bir gelişim gösteriyor. OpenAI tarafından geliştirilen ve bir yapay zekâ ajanının ekonomik değer üretebilen işleri tamamlama becerisini ölçen GDPval testinde Opus 4.8, 1890 puan aldı. Bu, Opus 4.7’nin 1753 ve GPT-5.5’in 1769 puanına kıyasla önemli bir sıçrama anlamına geliyor. Şirket, Opus 4.8’e erken erişim sağlayan test kullanıcılarının modelle çalışmayı “her zamankinden daha fazla gerçek bir iş birliği hissi verdiği” şeklinde tanımladığını söylüyor.Hukuk alanında yapay zekâ çözümleri geliştiren Harvey’nin uygulamalı araştırmalar başkanı Niko Grupen, Opus 4.8’in şirketin iç hukuk ajanı testinde bugüne kadar kaydedilen en yüksek skora ulaştığını belirtiyor. Grupen’e göre Opus 4.8, “nitelikli hukuk işleri” söz konusu olduğunda, “müşterilerimizin gerçek avukat işlerinin ne kadarını güvenle devredebileceğini doğrudan etkileyen türden bir doğruluk artışı” sağlıyor. Hebbia’nın teknoloji direktörü Aabhas Sharma ise modelin finansal dokümanlar hazırlama konusunda önceki versiyona göre belirgin biçimde daha iyi olduğunu ve “atıf doğruluğunda gözle görülür bir iyileşme” sunduğunu söylüyor.Buna ek olarak Anthropic, Claude’un belirli görevler için ne kadar çaba harcayacağını kullanıcıların kontrol edebileceği yeni bir özelliği de kullanıma sunuyor. Claude’un web sitesi, uygulaması ya da Claude Cowork üzerinden çalışan kullanıcılar, açılır menüden istedikleri çaba düzeyini seçebilecek. Kullanıcı daha yüksek bir çaba düzeyi seçtiğinde Claude daha yavaş çalışacak ve daha fazla token kullanacak. Daha düşük çaba düzeyi tercih edildiğinde ise Claude daha hızlı yanıt verecek ve daha az token tüketecek. Bu da kullanıcıların kullanım sınırlarını daha rahat yönetmesine ve aboneliklerinden daha fazla verim almasına yardımcı olabilecek.Şirket ayrıca Claude Code için “dinamik iş akışları” adını verdiği yeni bir özellik de sunuyor. Son derece karmaşık işler için tasarlanan bu özellik etkinleştirildiğinde, Anthropic’e göre “Claude işi planlayabiliyor ve ardından tek bir oturumda yüzlerce paralel alt ajanı çalıştırabiliyor.” Şirkete göre bu yeni özellikle birlikte “Claude Code, Opus 4.8 ile beraber, yüz binlerce satır kodu kapsayan kod tabanı ölçeğindeki geçiş süreçlerini başlangıçtan birleştirme aşamasına kadar yürütebiliyor.”Anthropic son aylarda birkaç Opus modeli yayınladı ancak orta ölçekli Claude Sonnet modelinin yeni bir versiyonunu şubat ayından bu yana sunmadı. Şirket, “Opus ile benzer becerilerin çoğunu daha düşük maliyetle sağlayacak modeller geliştirmek ve yayınlamak” için çalıştığını söylüyor.Buna ek olarak Anthropic, şu anda yalnızca küçük bir siber güvenlik savunucusu grubunun erişimine açık olan, son derece büyük ölçekli Claude Mythos modelini genel kullanıma sunmayı planladığını belirtiyor. Şirket, “bu yetenek seviyesindeki modellerin genel kullanıma açılmadan önce daha güçlü siber güvenlik önlemleri gerektireceğini” ifade ediyor. Ancak bu önlemleri geliştirme konusunda “hızlı ilerleme kaydettiklerini ve Mythos sınıfı modelleri önümüzdeki haftalarda tüm müşterilere sunabileceklerini” öngörüyor.Orijinal Yayın Tarihi: 28 Mayıs Köşe yazarları tarafından burada paylaşılan görüşler, incturkiye.com’a değil, yazara aittir.Çok daha fazlası için Inc. Türkiye bültenlerine kaydolun.