AI & AgenterSpråkmodeller

En modell gissar vad som kommer härnäst

Det låter enkelt, men det är precis det som händer. En språkmodell har läst miljarder meningar och lärt sig vilka ord som brukar följa på vilka. Frågar du den något, beräknar den vilket svar som är mest sannolikt — för token.

Skillnaden mellan modeller handlar om hur länge de tränat, hur mycket data de sett och hur kraftfull hårdvara de körs på. Det avgör om svaret håller, hur snabbt det kommer och vad det kostar.

Skillnader på modeller
Toppklass

Kraftfull men dyr. Välj för komplexa resonemang och svåra problem.

GPT-4o, Claude Opus, Gemini Ultra
Balanserad

Bra kvalitet till rimligt pris. Vanligast i agentsystem.

Claude Sonnet, GPT-4o mini, Gemini Pro
Snabb

Billig och snabb. Bäst för enkla uppgifter i höga volymer.

Claude Haiku, Gemini Flash, GPT-3.5
VAR tar din data vägen?

Flaggorna på leverantörskorten visar var data lagras. Vad det faktiskt innebär för dig, GDPR, EU mot USA mot Kina — finns samlat på en egen sida. Gå till Datasuveränitet →

OpenAI

🇺🇸 Lagring i USA · GPT

Den som startade det hela. Bredast stöd i tredjepartsverktyg och integrationer. Välj GPT-4o för generella uppgifter med bäst ekosystem runtomkring.

Anthropic

🇺🇸 Lagring i USA · Claude

Bäst för långa, komplexa uppdrag och agenter som behöver följa noggranna instruktioner. Claude läser och minns enorma dokument i ett enda anrop.

Google

🇺🇸 Lagring i USA · Gemini

Stark på att hantera bilder, dokument och video i samma anrop. Flash är snabb och billig för höga volymer. Inbyggd i Google Workspace.

MistralEU-valet

🇪🇺 Lagring i EU · Mistral

Franskt bolag, servrar i EU. Data lämnar aldrig EES, ingen tredjelandsöverföring. Codestral är specialiserad på kod. Rätt val för EU-verksamheter med känslig data.

DeepSeek

🇨🇳 Lagring i Kina · DeepSeek · Resonemang

Kinesisk open source-modell. R1 är stark på resonemang till ett bråk av priset. Data lagras i Kina — använd lokal version om dataintegritet är kritisk.

OpenRouter

Aggregator · 200+ modeller

Ett API för alla modeller. Byt mellan Claude, GPT och Gemini utan kodändringar. Datalagring beror på vald modell — kontrollera per leverantör.

Kvantisering — vad är Q4 och Q8?

Lokala modeller komprimeras i olika nivåer för att passa din hårdvara. är 4-bitars precision: minsta filstorlek, passar de flesta GPU:er men med marginellt lägre kvalitet. är 8-bitars precision: dubbelt så stor fil och nära full kvalitet. F16 är full precision: störst och bäst, men kräver mycket . Börja med eller beroende på hur mycket du har.

Ollama

Open Source · Egen drift · Privat

Kör språkmodeller lokalt på din GPU. Gratis per anrop, privat, fungerar utan internet. Standard för agenter du kör själv. Stödjer Q4, Q8 och F16.

LM Studio

Gratis · Egen drift · Privat

Grafiskt gränssnitt för lokala modeller. Enkelt att ladda ner och testa modeller utan terminal. Välj kvantiseringsnivå direkt i gränssnittet.

Tekniskt sett inte en språkmodell — men vi måste nämna den

En embedding-modell genererar ingen text. Den gör bara en sak: tar text in och spottar ut en av tal — en koordinat i ett matematiskt rum där liknande meningar hamnar nära varandra.

"agentminne" och "agent memory" hamnar på nästan samma koordinat. Det är semantisk sökning — och det är grunden för -system där en agent hämtar relevant kontext ur ett kunskapsförråd innan den svarar.

Anledningen till att vi nämner det här: när du väljer lokal modell via Ollama väljer du samtidigt implicit om du har semantisk sökning eller inte. Utan en embedding-modell i kedjan faller din agent tillbaka på nyckelordsträffar — med märkbart sämre precision. Hela -arkitekturen →

multilingual-e5-large

1024-dim · 100+ språk · Lokal

560 M parametrar, ~2.3 GB. Kör lokalt via fastembed. Svenska fungerar nativt — fråga på svenska, hitta engelska bitar och tvärtom. Standard för seriösa RAG-pipelines.

all-MiniLM-L6-v2

384-dim · Engelska · Snabb

Liten och snabb. Bra för engelska texter med låga latenskrav. Fungerar dåligt på svenska och missar korslingvistiska träffar. Välj bara om du har strikta hastighetskrav och enbart engelsk data.

text-embedding-3-large

OpenAI API · 3 072-dim

Hög kvalitet men kräver API-anrop per embedding — kostar pengar och skickar data till USA. Motiverat om du redan är i OpenAI-ekosystemet och inte kör lokalt.

Vad är en resonemangsmodell?

En vanlig modell svarar direkt — som att googla. En sitter ner och tänker igenom problemet, skriver interna anteckningar, kontrollerar sina egna svar och vrider på frågan från flera håll innan den svarar. Du ser bara slutsvaret, men bakom det finns ett resonemang som kan ta sekunder eller minuter.

Välj resonemang när problemet är svårt och svaret verkligen måste vara rätt — matematik, logik, komplexa analyser. Välj vanlig modell när snabbhet och kostnad spelar roll.

o3 / o4-mini

🇺🇸 Lagring i USA

OpenAI:s resonemangsmodeller. o3 är kraftfull och dyr, o4-mini är snabb och billig. Välj o4-mini för vardagsbruk.

DeepSeek R1

Open Source · 🇨🇳 Lagring i Kina

Kinesisk open source-resonemangsmodell som matchar o1 i jämförelsetester. Kan köras lokalt via Ollama om du har tillräckligt med VRAM.

Claude: Utökat tänkande

🇺🇸 Lagring i USA

Anthropics Sonnet- och Opus-modeller med utökat tänkande aktiverat. Du kan se hur modellen resonerar steg för steg direkt i API-svaret.

Vad är ett token, och varför kostar det pengar?

Modeller läser inte ord, de läser tokens — bitar av text som ungefär motsvarar tre till fyra tecken. "Agentakademin" är tre tokens. En A4-sida text är ungefär 600 tokens.

Varje token kräver beräkning på kraftfulla grafikprocessorer som drar mycket el. Ju kraftfullare modell, desto mer beräkning per token — och desto högre kostnad. Du betalar egentligen för ström och processorkraft, per textbit.

Räkneexempel

Claude Sonnet 4 kostar ~3 USD/1 miljon input-tokens och ~15 USD/1 miljon output-tokens. Med en dollarkurs på ~10 kr: 1 miljon input ≈ 30 kr, 1 miljon output ≈ 150 kr.

En realistisk agentkörning: 10 000 input-tokens + 2 000 output-tokens = 0,30 kr + 0,30 kr = ~0,60 kr per körning. Kör du 1 000 gånger i månaden = ~600 kr/mån.

1 000 agentkörningar per månad kostar ungefär lika mycket som en kopp kaffe per dag.

AI-marknaden rör sig snabbt. Priser förändras ofta och kan ha ändrats sedan detta skrevs. Kontrollera alltid aktuellt pris hos respektive leverantör.

Prompt caching

90% rabatt

Skickar du samma prompt varje gång? Cachade tokens kostar bara en tiondel. Anthropic och OpenAI stöder prompt-cache via API.

Snabb-modeller

~10% av toppklasspriset

Claude Haiku och Gemini Flash kostar en bråkdel jämfört med toppmodellerna. Räcker utmärkt för klassificering, sammanfattning och enkla beslut.

Kortare kontext

Enkel åtgärd

Skicka inte hela konversationshistoriken vid varje anrop. Skicka bara det som är relevant för nästa steg — det är den snabbaste kostnadsoptimeringen.

Tips

Dyrast är inte alltid bäst. Börja med en balanserad modell och uppgradera bara när du ser exakt var den fallerar.