Våra språkmodeller

Modellerna har kryptiska namn som kräver en förklaring. Se exempelvis modellen Meta-Llama-3.3-70B-Instruct-AWQ. Först kommer namnet på företaget, Meta i detta fall (ägarna till Facebook). Andra företag eller organisationer som skapat modeller är Qwen med kopplingar till kinesiska Alibaba, likaledes kinesiska DeepSeek, gpt-sw3 från AI Sweden samt pixtral och mixtral från franska Mistral AI.

Därefter kommer en beskrivning av modellens typ där Coder och Math anger specialiseringen (programmering och matematik). Llama är en familj av språkmodeller från företaget Meta. R1 är en resonerande modell. Ordet Instruct syftar på att modellen är utformad för att ta emot och följa instruktioner eller specifika anvisningar för att generera svar eller text till skillnad mot (tidigare) modeller som bara fortsätter på en ordföljd. GPT är en välkänd förkortning som står för ”Generative Pre-trained Transformer”.

Modellerna är uppbyggda av kopplingar mellan noder. Varje koppling har ett värde som anger dess styrka. Detta kallas för en parameter. Ju större modell desto fler parametrar vilket anges i modellens namn. Modellerna kan vara ”open weight”, vilket innebär att parametervärdena är kända. Exempelmodellen ovan har beteckningen 70B vilket tolkas som 70 miljarder (billions) parametrar.

Nedan följer en kort beskrivning av varje modell.

Meta-Llama-3.3-70B-Instruct-AWQVår mest använda modell. Den är generell men även duktig på kod och matematik. Den kan förvånansvärt många språk.
Qwen2.5-Coder-32B-Instruct-AWQEn modell som är väldigt duktig på kod.
Qwen2.5-Math-7B-Instruct-AWQSpecialiserad på matematik men kanske inte stor/bra nog.
deepseek-r1-distill-llama-8b-awqEn resonerande modell som är duktig för sin storlek. Du bör inte ändra temperaturen och den fungerar inte med systemprompter så den är olämplig att bygga agenter kring.
gpt-sw3-20b-instruct-4bit-gptqDenna modell har tränats på svenskt material av AI Sweden.
gpt-sw3-356m-instructMycket liten variant av gpt-sw3. Gör lätt fel.
gpt-sw3-6.7b-v2-instruct-4bit-gptqHalvliten variant av gpt-sw3.
meta-Llama-3.2-1B-InstructLiten Llama-modell för tester.
meta-Llama-3.2-3B-InstructGanska liten Llama-modell för tester.
pixtral-12B-2409En modell som kan hantera bilder. Tjänsten är under utveckling men kan användas via API.
qwen2.5-0.5B-InstructLiten Qwen-modell för tester.