Ollama

Kuidas lisada mudeleid ollama jaoks.

Osad mudelid, mis töötavad sul palja llama.cpp + ROCm/Vulkaniga võivad Ollama + ROCm + iGPU (gfx1151) peal ROCm‑backendiga „ROCm0 buffer“ vea anda, sest Ollama kasutab teisi mäluheuristikaid ja piiranguid kui sinu käsitsi kompileeritud llama.cpp.

Kuidas kasutada suuremaid mudeleid?

Lae alla suurem mudel Kuida kombineerida GGUF-i URL-i:

Otsi https://huggingface.co pealt sobiv mudel
Otsi valik "Use this model" -> llama-cpp-python
Võta sealt: 3.1 repo_id="BSC-LT/ALIA-40b-instruct-2512-GGUF" 3.2 filename="ALIA-40b-instruct-2512-Q8_0.gguf"

Ühenda kõik see info nagu allpool koodis

mkdir -p /models/alia-40b
cd /models/alia-40b

wget https://huggingface.co/BSC-LT/ALIA-40b-instruct-2512-GGUF/resolve/main/ALIA-40b-instruct-2512-Q8_0.gguf \
-O ALIA-40b-instruct-2512-Q8_0.gguf

# Loo Modelfile
cat > Modelfile << 'EOF'
FROM ./ALIA-40b-instruct-2512-Q8_0.gguf

PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER top_k 40
PARAMETER repeat_penalty 1.1
PARAMETER num_gpu 18

TEMPLATE """You are a helpful multilingual assistant. Always answer in Estonian unless the user explicitly asks for another language.

{{ .Prompt }}"""
EOF
# Docker'i konteineri
docker exec -it ollama bash

cd /models/alia-40b
ollama create ALIA-40b-instruct-est-2512-Q8_0 -f /models/Modelfiles/Modelfile

ollama list
ollama run ALIA-40b-instruct-est-2512-Q8_0

README_ollama.md 1.4 KB Lịch sử Raw

Ollama

Kuidas lisada mudeleid ollama jaoks.

Kuidas kasutada suuremaid mudeleid?

README_ollama.md 1.4 KB

Lịch sử Raw