Osad mudelid, mis töötavad sul palja llama.cpp + ROCm/Vulkaniga võivad Ollama + ROCm + iGPU (gfx1151) peal ROCm‑backendiga „ROCm0 buffer“ vea anda, sest Ollama kasutab teisi mäluheuristikaid ja piiranguid kui sinu käsitsi kompileeritud llama.cpp.
Lae alla suurem mudel Kuida kombineerida GGUF-i URL-i:
Ühenda kõik see info nagu allpool koodis
mkdir -p /models/alia-40b
cd /models/alia-40b
wget https://huggingface.co/BSC-LT/ALIA-40b-instruct-2512-GGUF/resolve/main/ALIA-40b-instruct-2512-Q8_0.gguf \
-O ALIA-40b-instruct-2512-Q8_0.gguf
# Loo Modelfile
cat > Modelfile << 'EOF'
FROM ./ALIA-40b-instruct-2512-Q8_0.gguf
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER top_k 40
PARAMETER repeat_penalty 1.1
PARAMETER num_gpu 18
TEMPLATE """You are a helpful multilingual assistant. Always answer in Estonian unless the user explicitly asks for another language.
{{ .Prompt }}"""
EOF
# Docker'i konteineri
docker exec -it ollama bash
cd /models/alia-40b
ollama create ALIA-40b-instruct-est-2512-Q8_0 -f /models/Modelfiles/Modelfile
ollama list
ollama run ALIA-40b-instruct-est-2512-Q8_0