Grok 4.20-anmeldelse: xAIs Multi-Agent-modell (2026)

Q: Hva er API-modellidentifikatoren for Grok 4.20?

Den primære modell-ID-en er grok-4.20. Varianter inkluderer grok-4.20-non-reasoning for raskere svar uten chain-of-thought, og grok-4.20-multi-agent for eksplisitt multi-agent-orkestrering. API-ens base-URL er https://api.x.ai/v1.

TL;DR

Grok 4.20	GPT-5.4	Claude Opus 4.6
Koding (SWE-bench Verified)	~72 %	57,7 % (Pro)	80,8 %
Vitenskap (GPQA Diamond)	83–88 %	92,8 %	91,3 %
Resonnering (ARC-AGI-2)	15,9 %	—	68,8 %
Ærlighet (Omniscience)	78 %	—	—
Datamaskinstyring (OSWorld)	—	75 %	72,5 %
Kontekstvindu	2M	400K	1M
Pris for input	$2/M	$2,50/M	$15/M
Pris for output	$6/M	$15/M	$75/M
Arkitektur	4-agenters MoE (~3 billioner)	Dense (ikke oppgitt)	Dense (ikke oppgitt)

Rask avgjørelse:

Billigste frontier-modell med massiv kontekst → Grok 4.20
Beste koding + agentsikkerhet → Claude Opus 4.6
Beste datamaskinstyring + automatisering → GPT-5.4
Laveste hallusinasjonsrate → Grok 4.20

Hva er Grok 4.20?

Grok 4.20 er xAIs flaggskipmodell, lansert i offentlig beta 17. februar 2026 og ble generelt tilgjengelig i mars 2026. Den er bygget på en Mixture-of-Experts (MoE)-ryggrad med omtrent 3 billioner parametere — samme skala som Grok 3 og Grok 4.1 — men med en fundamentalt ny multi-agent-arkitektur lagt på toppen.

Hovedfunksjonen: Hver tilstrekkelig kompleks forespørsel rutes gjennom fire spesialiserte AI-agenter som debatterer, faktasjekker og kryssverifiserer hverandre før de leverer et endelig svar. Dette er ikke et rammeverk du orkestrerer selv. Det kjører nativt i modellen på alle kvalifiserte forespørsler.

Resultatet er en 65 % reduksjon i hallusinasjoner sammenlignet med Grok 4.1, som har falt fra omtrent 12 % til 4,2 %.

Hvordan fungerer 4-agent-arkitekturen?

Grok 4.20 sitt multi-agent-system består av fire agenter som kjører på den delte MoE-ryggraden:

Agent	Rolle	Spesialitet
Grok (Captain)	Koordinator	Oppgavenetbrytning, konfliktløsning, endelig syntese
Harper	Forskning	Sanntids nettsøk, datainnhenting fra X Firehose, faktaforankring
Benjamin	Logikk	Matematisk resonnering, kodeverifisering, logisk konsistens
Lucas	Kreativ	Divergent tenkning, bias-deteksjon, identifisering av manglende perspektiver

Den interne flyten

Nedbrytning. Grok/Captain analyserer ledeteksten (prompten), bryter den ned i deloppgaver og ruter dem samtidig til alle tre spesialistene.
Parallell analyse. Alle fire agenter mottar den fulle konteksten pluss sitt spesialiserte fokus, og genererer innledende analyser parallelt — ikke sekvensielt.
Intern debatt. Agentene deltar i strukturerte runder med fagfellevurdering. Harper markerer faktapåstander og forankrer dem i sanntidsdata. Benjamin sjekker logisk konsistens og beregninger. Lucas oppdager biaser og overdrevent rigide løsninger.
Syntese. Grok/Captain løser uenigheter, fletter innsikt og leverer det endelige resultatet.

Denne interne loopen for fagfellevurdering er det som driver den rekordlave hallusinasjonsraten. Når én agent dikter opp en påstand, fanger de andre det opp før det når deg.

Benchmarks: Der Grok 4.20 vinner og taper

Ærlighet: Bransjeledende

Grok 4.20 oppnådde en 78 % ikke-hallusinasjonsrate på Artificial Analysis Omniscience-testen — den høyeste av alle testede modeller. Når den ikke vet svaret, sier den "Jeg vet ikke" 78 % av gangene i stedet for å dikte opp et svar.

For produksjonsapplikasjoner der pålitelighet betyr mer enn rå intelligens, er dette det viktigste tallet i tabellen.

Koding: Konkurransedyktig, men ikke ledende

På SWE-bench Verified (programvareutvikling i den virkelige verden) scorer Grok 4.20 omtrent 72–75 % avhengig av rammeverket som brukes. Det er solid, men bak Claude Opus 4.6 på 80,8 % og GPT-5.4 Pro på 57,7 % på den vanskeligere SWE-bench Pro-varianten.

For daglige kodeoppgaver er Grok 4.20 kapabel. For komplekse refaktoreringer av flere filer og feilsøking på systemnivå, leder Claude fortsatt.

Vitenskap og resonnering: Midt på treet

På GPQA Diamond (vitenskap på masternivå) scorer Grok 4.20 83–88 %. GPT-5.4 leder med 92,8 %, med Opus 4.6 på 91,3 %. På ARC-AGI-2 (ny abstrakt resonnering) scorer Grok 4.20 15,9 % — en forbedring over forgjengerne, men langt bak Opus 4.6 på 68,8 %.

Intelligensindeks: Avveiningen

Artificial Analysis rangerer Grok 4.20 som nummer 8 på sin Intelligence Index med en score på 48, bak Gemini 3.1 Pro og GPT-5.4 på 57. xAI ser ut til å ha optimalisert for pålitelighet over rå benchmark-dominans. Om den avveiningen er verdt det, avhenger helt av ditt bruksområde.

Prising: Budsjett-frontier-modellen?

Grok 4.20 sin standard API-prising:

Input	Output
Grok 4.20	$2,00/M tokens	$6,00/M tokens
Grok 4.20 Multi-Agent	$2,00/M tokens	$6,00/M tokens
GPT-5.4	$2,50/M tokens	$15,00/M tokens
Claude Opus 4.6	$15,00/M tokens	$75,00/M tokens
Claude Sonnet 4.6	$3,00/M tokens	$15,00/M tokens

Med $2/$6 per million tokens er Grok 4.20 den billigste frontier-modellen som er tilgjengelig. Den koster 7,5x mindre enn Opus 4.6 på input og 12,5x mindre på output. Selv sammenlignet med GPT-5.4 er den 20 % billigere på input og 60 % billigere på output.

Multi-agent-varianten leveres til samme pris, noe som betyr at systemet med debatt mellom 4 agenter ikke koster noe ekstra.

API-modellidentifikatorer

grok-4.20                    # Standard (resonnering aktivert som standard)
grok-4.20-non-reasoning      # Raskere, uten chain-of-thought
grok-4.20-multi-agent        # Eksplisitt 4-agent-orkestrering

Base-URL: https://api.x.ai/v1

Kontroll av resonneringsbudsjett

Grok 4.20 støtter en thinking_budget-parameter som lar deg kontrollere resonneringsdybden per forespørsel. Du betaler kun for resonnerings-tokens du faktisk bruker:

python

import openai

client = openai.OpenAI(
    base_url="https://api.x.ai/v1",
    api_key="YOUR_XAI_API_KEY"
)

response = client.chat.completions.create(
    model="grok-4.20",
    messages=[{"role": "user", "content": "Explain the multi-agent architecture of Grok 4.20"}],
    extra_body={"thinking_budget": 4096}
)

2M Token kontekstvindu: Reell effekt

Grok 4.20 leveres med et kontekstvindu på 2 millioner tokens — det største blant nåværende frontier-modeller. Til referanse:

Modell	Kontekstvindu
Grok 4.20	2 000 000
Gemini 3.1 Pro	1 000 000
Claude Opus 4.6	1 000 000
GPT-5.4	400 000

Dette betyr mye for bruksområder som involverer store kodebaser, omfattende juridiske dokumenter, analyse av flere filer eller utvidede forskningsøkter. Du kan få plass til omtrent 50 000 linjer med kode i ett enkelt kontekstvindu.

Hvem bør bruke Grok 4.20?

Best for

Store API-arbeidsmengder på budsjett. Til $2/$6 er det betydelig billigere å kjøre tusenvis av forespørsler per dag enn med alternativene.
Applikasjoner som krever lav hallusinasjonsrate. Kundeorienterte chatbots, medisinsk informasjon, juridisk forskning — alle steder der et selvsikkert feil svar er verre enn "Jeg vet ikke."
Sanntids dataanalyse. Harpers live-tilgang til X og nettdata gjør Grok 4.20 sterk på markedsstemning, nyhetsovervåking og trendanalyse.
Oppgaver med lang kontekst. Kontekstvinduet på 2M håndterer hele kodebaser eller dokumentsamlinger i én enkelt gjennomgang.

Ikke ideell for

Toppnivå koding. Claude Opus 4.6 leder fortsatt på SWE-bench med en betydelig margin.
Kompleks abstrakt resonnering. Gapet i ARC-AGI-2 (15,9 % mot 68,8 %) er betydelig for oppgaver som krever ny problemløsning.
Datamaskinstyring og GUI-automatisering. GPT-5.4 leder med 75 % på OSWorld, og overgår til og med menneskelige eksperter.
Maksimal rå intelligens. Hvis du trenger de høyeste poengsummene på benchmarks for vitenskap og resonnering, ligger GPT-5.4 eller Gemini 3.1 Pro fortsatt foran.

Ofte stilte spørsmål

Hvor mange parametere har Grok 4.20?

Grok 4.20 er bygget på en Mixture-of-Experts-arkitektur med omtrent 3 billioner totale parametere. Ikke alle parametere er aktive per inferens — MoE-designet ruter hver token til en undergruppe av eksperter, noe som holder beregningskostnadene håndterbare til tross for det store totale antallet parametere.

Er Grok 4.20 bedre enn GPT-5.4?

Det kommer an på hva du trenger. Grok 4.20 vinner på pris ($2/$6 mot $2,50/$15), kontekstvindu (2M mot 400K) og ærlighet (78 % ikke-hallusinasjonsrate). GPT-5.4 vinner på vitenskapelige benchmarks (GPQA 92,8 % mot 83–88 %), datamaskinstyring (OSWorld 75 %) og rå intelligensindeks-score. For budsjettbevisste produksjonsmiljøer som prioriterer pålitelighet, er Grok 4.20 et sterkt valg.

Er Grok 4.20 bedre enn Claude Opus 4.6?

Claude Opus 4.6 utkonkurrerer Grok 4.20 betydelig på koding (80,8 % mot ~72 % SWE-bench), abstrakt resonnering (68,8 % mot 15,9 % ARC-AGI-2) og vitenskap (91,3 % mot 83–88 % GPQA). Grok 4.20 er imidlertid dramatisk billigere ($2/$6 mot $15/$75) og har dobbelt så stort kontekstvindu (2M mot 1M). Hvis du trenger høyest mulig kvalitet på komplekse oppgaver, vinner Opus. Hvis du trenger en kapabel frontier-modell til en brøkdel av prisen, er Grok 4.20 overbevisende.

Hva er multi-agent-systemet, og må jeg betale ekstra for det?

Multi-agent-systemet ruter forespørsler gjennom fire spesialiserte agenter (Grok, Harper, Benjamin, Lucas) som debatterer og kryssverifiserer før de svarer. Det er bygget inn i modellen nativt — du betaler ikke ekstra for det. Standard- og multi-agent-variantene har identisk prising på $2/$6 per million tokens.

Hva er API-modellidentifikatoren for Grok 4.20?

Den primære modell-ID-en er grok-4.20. Varianter inkluderer grok-4.20-non-reasoning for raskere svar uten chain-of-thought, og grok-4.20-multi-agent for eksplisitt multi-agent-orkestrering. API-ens base-URL er https://api.x.ai/v1.

Når ble Grok 4.20 utgitt?

Grok 4.20 gikk inn i offentlig beta 17. februar 2026, med en Beta 2-oppdatering 3. mars 2026 (modellversjon 0309). Generell tilgjengelighet fulgte i mars 2026.

Konklusjonen

Grok 4.20 er ikke den smarteste modellen tilgjengelig — den tittelen tilhører GPT-5.4 og Claude Opus 4.6 avhengig av benchmark. Det den tilbyr, er en unik kombinasjon: frontier-kapasitet, bransjeledende ærlighet, det største kontekstvinduet og den laveste prisen blant toppmodellene. 4-agent-arkitekturen er genuint nyskapende og leverer målbare forbedringer i faktisk nøyaktighet.

For utviklere som bygger produksjonsapplikasjoner der kostnad, pålitelighet og kontekstlengde betyr mer enn å sprenge taket på resonnerings-benchmarks, fortjener Grok 4.20 seriøs vurdering.

Hos Y Build integrerer vi flere frontier-modeller — inkludert Grok 4.20, Claude og GPT — slik at du kan rute hver oppgave til den modellen som passer best. Enten du trenger Grok 4.20 sin budsjettvennlige ærlighet for kundeorienterte funksjoner eller Opus 4.6 sin presisjon i koding for utviklingsarbeidsflyter, avhenger det rette verktøyet av jobben som skal gjøres.