En modell gissar vad som kommer härnäst
Det låter enkelt, men det är precis det som händer. En språkmodell har läst miljarder meningar och lärt sig vilka ord som brukar följa på vilka. Frågar du den något, beräknar den vilket svar som är mest sannolikt — för token.
Skillnaden mellan modeller handlar om hur länge de tränat, hur mycket data de sett och hur kraftfull hårdvara de körs på. Det avgör om svaret håller, hur snabbt det kommer och vad det kostar.
Kraftfull men dyr. Välj för komplexa resonemang och svåra problem.
Bra kvalitet till rimligt pris. Vanligast i agentsystem.
Billig och snabb. Bäst för enkla uppgifter i höga volymer.
Flaggorna på leverantörskorten visar var data lagras. Vad det faktiskt innebär för dig, GDPR, EU mot USA mot Kina — finns samlat på en egen sida. Gå till Datasuveränitet →
Den som startade det hela. Bredast stöd i tredjepartsverktyg och integrationer. Välj GPT-4o för generella uppgifter med bäst ekosystem runtomkring.
Bäst för långa, komplexa uppdrag och agenter som behöver följa noggranna instruktioner. Claude läser och minns enorma dokument i ett enda anrop.
Stark på att hantera bilder, dokument och video i samma anrop. Flash är snabb och billig för höga volymer. Inbyggd i Google Workspace.
Franskt bolag, servrar i EU. Data lämnar aldrig EES, ingen tredjelandsöverföring. Codestral är specialiserad på kod. Rätt val för EU-verksamheter med känslig data.
Kinesisk open source-modell. R1 är stark på resonemang till ett bråk av priset. Data lagras i Kina — använd lokal version om dataintegritet är kritisk.
Lokala modeller komprimeras i olika nivåer för att passa din hårdvara. är 4-bitars precision: minsta filstorlek, passar de flesta GPU:er men med marginellt lägre kvalitet. är 8-bitars precision: dubbelt så stor fil och nära full kvalitet. F16 är full precision: störst och bäst, men kräver mycket . Börja med eller beroende på hur mycket du har.
Kör språkmodeller lokalt på din GPU. Gratis per anrop, privat, fungerar utan internet. Standard för agenter du kör själv. Stödjer Q4, Q8 och F16.
En embedding-modell genererar ingen text. Den gör bara en sak: tar text in och spottar ut en av tal — en koordinat i ett matematiskt rum där liknande meningar hamnar nära varandra.
"agentminne" och "agent memory" hamnar på nästan samma koordinat. Det är semantisk sökning — och det är grunden för -system där en agent hämtar relevant kontext ur ett kunskapsförråd innan den svarar.
Anledningen till att vi nämner det här: när du väljer lokal modell via Ollama väljer du samtidigt implicit om du har semantisk sökning eller inte. Utan en embedding-modell i kedjan faller din agent tillbaka på nyckelordsträffar — med märkbart sämre precision. Hela -arkitekturen →
multilingual-e5-large
1024-dim · 100+ språk · Lokal560 M parametrar, ~2.3 GB. Kör lokalt via fastembed. Svenska fungerar nativt — fråga på svenska, hitta engelska bitar och tvärtom. Standard för seriösa RAG-pipelines.
all-MiniLM-L6-v2
384-dim · Engelska · SnabbLiten och snabb. Bra för engelska texter med låga latenskrav. Fungerar dåligt på svenska och missar korslingvistiska träffar. Välj bara om du har strikta hastighetskrav och enbart engelsk data.
text-embedding-3-large
OpenAI API · 3 072-dimHög kvalitet men kräver API-anrop per embedding — kostar pengar och skickar data till USA. Motiverat om du redan är i OpenAI-ekosystemet och inte kör lokalt.
En vanlig modell svarar direkt — som att googla. En sitter ner och tänker igenom problemet, skriver interna anteckningar, kontrollerar sina egna svar och vrider på frågan från flera håll innan den svarar. Du ser bara slutsvaret, men bakom det finns ett resonemang som kan ta sekunder eller minuter.
Välj resonemang när problemet är svårt och svaret verkligen måste vara rätt — matematik, logik, komplexa analyser. Välj vanlig modell när snabbhet och kostnad spelar roll.
o3 / o4-mini
OpenAI:s resonemangsmodeller. o3 är kraftfull och dyr, o4-mini är snabb och billig. Välj o4-mini för vardagsbruk.
DeepSeek R1
Kinesisk open source-resonemangsmodell som matchar o1 i jämförelsetester. Kan köras lokalt via Ollama om du har tillräckligt med VRAM.
Modeller läser inte ord, de läser tokens — bitar av text som ungefär motsvarar tre till fyra tecken. "Agentakademin" är tre tokens. En A4-sida text är ungefär 600 tokens.
Varje token kräver beräkning på kraftfulla grafikprocessorer som drar mycket el. Ju kraftfullare modell, desto mer beräkning per token — och desto högre kostnad. Du betalar egentligen för ström och processorkraft, per textbit.
Claude Sonnet 4 kostar ~3 USD/1 miljon input-tokens och ~15 USD/1 miljon output-tokens. Med en dollarkurs på ~10 kr: 1 miljon input ≈ 30 kr, 1 miljon output ≈ 150 kr.
En realistisk agentkörning: 10 000 input-tokens + 2 000 output-tokens = 0,30 kr + 0,30 kr = ~0,60 kr per körning. Kör du 1 000 gånger i månaden = ~600 kr/mån.
1 000 agentkörningar per månad kostar ungefär lika mycket som en kopp kaffe per dag.
AI-marknaden rör sig snabbt. Priser förändras ofta och kan ha ändrats sedan detta skrevs. Kontrollera alltid aktuellt pris hos respektive leverantör.
Prompt caching
90% rabattSkickar du samma prompt varje gång? Cachade tokens kostar bara en tiondel. Anthropic och OpenAI stöder prompt-cache via API.
Snabb-modeller
~10% av toppklassprisetClaude Haiku och Gemini Flash kostar en bråkdel jämfört med toppmodellerna. Räcker utmärkt för klassificering, sammanfattning och enkla beslut.
Kortare kontext
Enkel åtgärdSkicka inte hela konversationshistoriken vid varje anrop. Skicka bara det som är relevant för nästa steg — det är den snabbaste kostnadsoptimeringen.