1. Agentic Kodlama
Kod tabanının tamamına hâkim olarak kod yazma anlamına gelen agentic kodlamada Sonnet 5, Sonnet 4.6 ile Opus 4.8'in tam ortasında yer alıyor. %63.2 başarı oranıyla birçok firmanın dil modelini geride bırakıyor; yine de Opus 4.8'in (%69.2) yaklaşık 6 puan gerisinde kalıyor.
En büyük sıçrama ise terminal kontrolü ve terminal ortamında çalışma tarafında. Önceki model Sonnet 4.6 burada %67 başarı gösterirken, Sonnet 5 Opus 4.8'in yalnızca ~2 puan gerisinde kalıyor ve %80 civarı kararlılık sunuyor.
2. Multidisciplinary Reasoning
Bu başlıkta doktora seviyesinde problem çözme test ediliyor ve bir diğer sıçrama burada karşımıza çıkıyor. Modeller araçlarını kullanmazken Opus 4.8 %50 ile ~5 puanlık avantaj sağlıyor; ancak araçlar devreye girdiğinde Sonnet 5 Opus'u yakalıyor ve %57'ye ulaşıyor.
3. Computer Use
Modelin tıpkı bizim gibi bilgisayar kullanma yeteneğinde ise Opus 4.8 ile arasında pek fark yok. %81.2 puan alan Sonnet 5 bu konuda birçok modeli geride bırakıyor.
Fiyatlandırma
Tanıtım fiyatı olarak 31 Ağustos'a kadar 1M token başına $2 input / $10 output, sonrasında $3 / $15'e çıkıyor. Bu kapasite için oldukça uygun fiyatlı bir model.
Peki siz bu model hakkında ne düşünüyorsunuz?