Viral BridgeBench-innlegg hevder at Claude Opus 4.6 ble "nerfed", kritikere kaller det dårlig vitenskap

Viral BridgeBench-innlegg hevder at Claude Opus 4.6 ble “nerfed”, kritikere kaller det dårlig vitenskap

Skrevet og redigert av

Publisert:13. april 2026, 13:13 UTC

Et viralt X-innlegg hevdet at Claude Opus 4.6-hallusinasjoner økte med 98 %.
Kritikere fant at sammenligningen brukte ulike teststørrelser, ikke like benchmarks.
Sammenlignende analyse viser minimale endringer, innenfor normal AI-variabilitet.

BridgeMind AI hevdet at Claude Opus 4.6 fra Anthropic i det skjulte ble forringet etter en ny måling av hallusinasjoner. Det virale innlegget har siden fått kraftig kritikk for feil metodikk.

Påstanden utløste en stor debatt om hvorvidt AI-selskaper i det stille nedgraderer betalte modeller for å redusere kostnader.

BridgeMind spår en økning på 98 % i hallusinasjoner

BridgeMind, teamet bak BridgeBench-kodebenchmarken, publiserte at Claude Opus 4.6 hadde falt fra andre til tiende plass på deres hallusinasjon-ledertavle. Nøyaktigheten skal ha falt fra 83,3 % til 68,3 %.

“CLAUDE OPUS 4.6 ER NERFET. BridgeBench har nettopp bevist det. Forrige uke var Claude Opus 4.6 rangert som nummer 2 på hallusinasjonsbenchmarken med en nøyaktighet på 83,3 %. I dag ble Claude Opus 4.6 testet på nytt og falt til 10. plass på ledertavlen med en nøyaktighet på kun 68,3 %,” skrev de.

Innlegget presenterte dette som “bevis” på redusert resonneringsevne. En nærmere gjennomgang av de underliggende dataene forteller imidlertid en annen historie.

Kritikere mener sammenligningen er grunnleggende feil

Ifølge informatiker Paul Calcraft er påstanden “utrolig dårlig vitenskap” og påpeker kritiske problemer ved metoden.

“Utrolig dårlig vitenskap. Dere testet Opus på 30 oppgaver i dag, tidligere poengsum var kun på *6* oppgaver. Resultatet for 6 oppgaver som er felles: 85,4 % i dag vs. 87,6 % sist. Endringen skyldes hovedsakelig en *eneste* feilfremstilling uten gjentakelse – lett statistisk støy,” kommenterte Calcraft.

Den opprinnelige høye poengsummen kom fra kun seks oppgaver. Den nye retesten utvidet benchmarken til 30 oppgaver.

På de seks overlappende oppgavene var prestasjonen nesten identisk, en nedgang kun fra 87,6 % til 85,4 %.

Despicable clout chasing. They tested Opus today on 30 tasks, previous Opus 4.6 score was on just *6* tasks. DIFFERENT BENCHMARK

6 tasks in common results: 85.4% score today vs. 87.6% prev. Swing is mostly from a *single* fabrication without repeats – easily statistical noise https://t.co/wmFfAfNmEW pic.twitter.com/opUxoVevpP
— Paul Calcraft (@paul_cal) April 12, 2026

Den lille endringen skyldes for det meste én ekstra feilfremstilling i én oppgave. Uten gjentatte målinger faller dette godt innenfor normal statistisk variasjon for AI-modeller.

Store språkmodeller er ikke deterministiske, og ett dårlig output på et lite utvalg kan flytte resultatene betydelig.

Større frustrasjon gir næring til historien

Likevel traff innlegget en nerve. Siden lanseringen i februar 2026 har Claude Opus 4.6 fått vedvarende klager om opplevd kvalitetsfall.

Utviklere rapporterer om kortere svar, svakere instruksjonsoppfølging og redusert dybde i resonneringen spesielt i perioder med høyt trykk.

Noe av dette skyldes bevisste endringer i produktet. Anthropic innførte adaptive tenkekontroller som lar modellen selv justere hvor mye den skal tenke. Standardinnstillingen for innsatsnivå ble senere satt til middels, med vekt på effektivitet over maksimal dybde.

New on the API: we're giving developers better control over model effort and more flexibility for long-running agents.

Adaptive thinking lets Claude calibrate its reasoning depth to each task, and context compaction keeps long-running tasks from hitting limits.
— Claude (@claudeai) February 5, 2026

En uavhengig analyse av over 6800 Claude Code-økter viste at resonneringsdybden falt med omtrent 67 % i løpet av februar.

Modellens andel fil-lesing før koderedigering falt fra 6,6 til 2,0. Dette antyder at den forsøkte å rette kode den knapt hadde lest.

Hva dette betyr for AI-brukere

Dette speiler en voksende spenning i AI-bransjen. Selskaper optimaliserer modellene sine for kostnad og skalerbarhet etter lansering, mens tunge brukere forventer jevn topp ytelse. Avstanden mellom disse prioriteringene svekker tilliten.

Ut fra tilgjengelige bevis viser ikke BridgeBench-dataene en bevisst nedgradering. Benchmark-sammenligningen var ikke mellom like prøver, og de overlappende resultatene var nesten identiske.

Frustrasjonen bak påstandene er likevel ikke helt grunnløs. Adaptive beregningskontroller og justeringer av tjenesten har endret hvordan Claude Opus 4.6 faktisk oppfører seg. For utviklere som er avhengig av konsistent output, har det betydning.

Anthropic har per 13. april ikke kommet med en offentlig uttalelse om de spesifikke påstandene fra BridgeBench.