Modellerna har kryptiska namn som kräver en förklaring. Se exempelvis modellen Meta-Llama-3.3-70B-Instruct-AWQ. Först kommer namnet på företaget, Meta i detta fall (ägarna till Facebook). Andra företag eller organisationer som skapat modeller är Qwen med kopplingar till kinesiska Alibaba, likaledes kinesiska DeepSeek, gpt-sw3 från AI Sweden samt pixtral och mixtral från franska Mistral AI.
Därefter kommer en beskrivning av modellens typ där Coder och Math anger specialiseringen (programmering och matematik). Llama är en familj av språkmodeller från företaget Meta. R1 är en resonerande modell. Ordet Instruct syftar på att modellen är utformad för att ta emot och följa instruktioner eller specifika anvisningar för att generera svar eller text till skillnad mot (tidigare) modeller som bara fortsätter på en ordföljd. GPT är en välkänd förkortning som står för ”Generative Pre-trained Transformer”.
Modellerna är uppbyggda av kopplingar mellan noder. Varje koppling har ett värde som anger dess styrka. Detta kallas för en parameter. Ju större modell desto fler parametrar vilket anges i modellens namn. Modellerna kan vara ”open weight”, vilket innebär att parametervärdena är kända. Exempelmodellen ovan har beteckningen 70B vilket tolkas som 70 miljarder (billions) parametrar.
Nedan följer en kort beskrivning av varje modell.
Meta-Llama-3.3-70B-Instruct-AWQ | Vår mest använda modell. Den är generell men även duktig på kod och matematik. Den kan förvånansvärt många språk. |
Qwen2.5-Coder-32B-Instruct-AWQ | En modell som är väldigt duktig på kod. |
Qwen2.5-Math-7B-Instruct-AWQ | Specialiserad på matematik men kanske inte stor/bra nog. |
deepseek-r1-distill-llama-8b-awq | En resonerande modell som är duktig för sin storlek. Du bör inte ändra temperaturen och den fungerar inte med systemprompter så den är olämplig att bygga agenter kring. |
gpt-sw3-20b-instruct-4bit-gptq | Denna modell har tränats på svenskt material av AI Sweden. |
gpt-sw3-356m-instruct | Mycket liten variant av gpt-sw3. Gör lätt fel. |
gpt-sw3-6.7b-v2-instruct-4bit-gptq | Halvliten variant av gpt-sw3. |
meta-Llama-3.2-1B-Instruct | Liten Llama-modell för tester. |
meta-Llama-3.2-3B-Instruct | Ganska liten Llama-modell för tester. |
pixtral-12B-2409 | En modell som kan hantera bilder. Tjänsten är under utveckling men kan användas via API. |
qwen2.5-0.5B-Instruct | Liten Qwen-modell för tester. |