BridgeMind AI hevdet at Claude Opus 4.6 fra Anthropic i det skjulte ble forringet etter en ny måling av hallusinasjoner. Det virale innlegget har siden fått kraftig kritikk for feil metodikk.
Påstanden utløste en stor debatt om hvorvidt AI-selskaper i det stille nedgraderer betalte modeller for å redusere kostnader.
BridgeMind spår en økning på 98 % i hallusinasjoner
BridgeMind, teamet bak BridgeBench-kodebenchmarken, publiserte at Claude Opus 4.6 hadde falt fra andre til tiende plass på deres hallusinasjon-ledertavle. Nøyaktigheten skal ha falt fra 83,3 % til 68,3 %.
“CLAUDE OPUS 4.6 ER NERFET. BridgeBench har nettopp bevist det. Forrige uke var Claude Opus 4.6 rangert som nummer 2 på hallusinasjonsbenchmarken med en nøyaktighet på 83,3 %. I dag ble Claude Opus 4.6 testet på nytt og falt til 10. plass på ledertavlen med en nøyaktighet på kun 68,3 %,” skrev de.
Innlegget presenterte dette som “bevis” på redusert resonneringsevne. En nærmere gjennomgang av de underliggende dataene forteller imidlertid en annen historie.
Kritikere mener sammenligningen er grunnleggende feil
Ifølge informatiker Paul Calcraft er påstanden “utrolig dårlig vitenskap” og påpeker kritiske problemer ved metoden.
“Utrolig dårlig vitenskap. Dere testet Opus på 30 oppgaver i dag, tidligere poengsum var kun på *6* oppgaver. Resultatet for 6 oppgaver som er felles: 85,4 % i dag vs. 87,6 % sist. Endringen skyldes hovedsakelig en *eneste* feilfremstilling uten gjentakelse – lett statistisk støy,” kommenterte Calcraft.
Den opprinnelige høye poengsummen kom fra kun seks oppgaver. Den nye retesten utvidet benchmarken til 30 oppgaver.
På de seks overlappende oppgavene var prestasjonen nesten identisk, en nedgang kun fra 87,6 % til 85,4 %.
Den lille endringen skyldes for det meste én ekstra feilfremstilling i én oppgave. Uten gjentatte målinger faller dette godt innenfor normal statistisk variasjon for AI-modeller.
Store språkmodeller er ikke deterministiske, og ett dårlig output på et lite utvalg kan flytte resultatene betydelig.
Større frustrasjon gir næring til historien
Likevel traff innlegget en nerve. Siden lanseringen i februar 2026 har Claude Opus 4.6 fått vedvarende klager om opplevd kvalitetsfall.
Utviklere rapporterer om kortere svar, svakere instruksjonsoppfølging og redusert dybde i resonneringen spesielt i perioder med høyt trykk.
Noe av dette skyldes bevisste endringer i produktet. Anthropic innførte adaptive tenkekontroller som lar modellen selv justere hvor mye den skal tenke. Standardinnstillingen for innsatsnivå ble senere satt til middels, med vekt på effektivitet over maksimal dybde.
En uavhengig analyse av over 6800 Claude Code-økter viste at resonneringsdybden falt med omtrent 67 % i løpet av februar.
Modellens andel fil-lesing før koderedigering falt fra 6,6 til 2,0. Dette antyder at den forsøkte å rette kode den knapt hadde lest.
Hva dette betyr for AI-brukere
Dette speiler en voksende spenning i AI-bransjen. Selskaper optimaliserer modellene sine for kostnad og skalerbarhet etter lansering, mens tunge brukere forventer jevn topp ytelse. Avstanden mellom disse prioriteringene svekker tilliten.
Ut fra tilgjengelige bevis viser ikke BridgeBench-dataene en bevisst nedgradering. Benchmark-sammenligningen var ikke mellom like prøver, og de overlappende resultatene var nesten identiske.
Frustrasjonen bak påstandene er likevel ikke helt grunnløs. Adaptive beregningskontroller og justeringer av tjenesten har endret hvordan Claude Opus 4.6 faktisk oppfører seg. For utviklere som er avhengig av konsistent output, har det betydning.
Anthropic har per 13. april ikke kommet med en offentlig uttalelse om de spesifikke påstandene fra BridgeBench.





