Claude Sonet 4.5 er lansert

Hevder det skal være den beste kodemodellen i verden. Men ikke alle er enig.

Claude 4.5 ble lansert i går, selskapet bak hevder det er den beste språkmodellen for utviklerer. Men ikke alle er enige. Slik som YouTube-utvikler Theo.
📸 Anthropic.com / YouTube

– Claude Sonet 4.5 er den beste kode-modellen i verden.

Det skriver Anthropic om deres nye språkmodell, som ble sluppet i går.

Modellen er en konkurrent til GPT 5.0 fra Open AI, som ble gjort tilgjengelig i august, og som også retter seg mot utviklere.

Nå slippes altså det som Anthropic mener blir GPT sin argeste konkurrent fremover, sammen med en haug verktøy som lar deg ta i bruk modellen på nye måter.

Men til tross for Anthropic sine bombastiske utsagn er det ikke alle som er enig i at det finnes en ny konge på haugen.

Hevder den er bedre

– Claude Sonnett 4.5 er «state-of-the-art» på SWE målingene, sier Anthropic, og viser til swbench.com sine offisielle målinger av hvor gode AI-modeller er til programvareutvikling.

Fra Anthropic sine egne nettsider. Grafien viser nøyaktighet for språkmodeller på SWE-bench sine offisielle målinger.
📸Anthropic.com

Og ganske riktig; Claude 4.5 er på topp om man besøker siden.

På Anthropics egen graf ser man at deres nye modell nærmer seg 82 prosent nøyaktighet, mens ChatGPT 5.0 bare når opp til 79.4 prosent.

Anthropic sier at modellen også er forbedret på flere andre felt slik som mattematik, flerspråkelighet og visuelll tenking.

Nye verktøy

Sammen med modellen annonserer Anthropic også at de slipper noe de kaller Claude Agent SDK. Det er en sammenstilling av spesiallagde agenter du skal kunne bruke for å bygge mere skreddersydde opplevelser.

Feltene inkluderer:

Code Security Agent
Code Review Agent
Contract Review Agent
Meeting Summary Agent
Financial Reporting Agent
Email Automation Agent
Invoice Processing Agent

Hemmelighetene bak Lovable, Cursor, Windsurf

GitHub-repoet «System Prompts and Models of AI Tools» avslører hemmelighetene.

Ikke enig

Om du spør utviklerne som har fått tilgang til Claude 4.5 allerede, er det ikke nødvendigvis gitt at det er en ny konge på haugen.

YouTube-utvikler Theo går i sin video om Claude grundig gjennom verktøyene og gjør en benchmark. Konklusjonen hans er at GPT 5.0 fortsatt er den beste modellen hvis du vil ha det beste resultatet.

Han sier dog at han tror Claude 4.5 er den beste kode-assistenten i det daglige. Før han trekker frem at han skulle ønske UI-et var bedre, at det kostet mindre og at verktøyene de utviklet var open source.

Bedre på Node.js og Python

På Hacker News, hvor annonseringen for tiden trender helt på toppen av lista, er også tilbakemeldingene blandet.

En bruker ved navn «simonw» sier han har hatt «tidlig-tilgang» i en ukes tid og hevder modellen er bedre enn ChatGPT5, i hvert fall på noen kodespråk.

– Der den fungerer absolutt best er hvis du går på claude.ai og tester deres nye tolker for Python og Node.JS. Prøv denne prompten og ser hva som skjer, sier han:

Checkout https://github.com/simonw/llm and run the tests with

pip install -e ‘.[test]’
pytest

Flere brukere er derimot uenig med simonw, og sier de fikk mye problemer med hans forslag.

Brukeren «lagooar» sier han har testet modellen på en stor kodebase med rundt 200.000 linjer med kode. Han brukte prompten:

«implement a fuzzy search for conversations and reports either when selecting «Go to Conversation» or «Go to Report» and typing the title or when the user types in the title in the main input field, and none of the standard elements match, a search starts with a 2s delay».

Og sier at selv om Claude var skikkelig rask, og fikset jobben på under tre minutter, mot ChatGPT5 som brukte rundt 20, var kodekvalitet så dårlig at han fortsatt ville valgt ChatGPT.

Det er altså ikke like stor enighet som Anthropic selv hevder, om hvem som skal ta den foreløpige tronen som kongen av AI-modeller.

Skremt av AI-hype: «Går kaldt nedover ryggen min»

– Jeg savner diskusjoner blant utviklere om hva vi nå står ovenfor, skriver Arja Sivapiragasam.

Claude Sonet 4.5 er lansert

Tags: