README_ollama.md 1.4 KB

Ollama

Kuidas lisada mudeleid ollama jaoks.

Osad mudelid, mis töötavad sul palja llama.cpp + ROCm/Vulkaniga võivad Ollama + ROCm + iGPU (gfx1151) peal ROCm‑backendiga „ROCm0 buffer“ vea anda, sest Ollama kasutab teisi mäluheuristikaid ja piiranguid kui sinu käsitsi kompileeritud llama.cpp.

Kuidas kasutada suuremaid mudeleid?

Lae alla suurem mudel Kuida kombineerida GGUF-i URL-i:

  1. Otsi https://huggingface.co pealt sobiv mudel
  2. Otsi valik "Use this model" -> llama-cpp-python
  3. Võta sealt: 3.1 repo_id="BSC-LT/ALIA-40b-instruct-2512-GGUF" 3.2 filename="ALIA-40b-instruct-2512-Q8_0.gguf"
  4. Ühenda kõik see info nagu allpool koodis

    mkdir -p /models/alia-40b
    cd /models/alia-40b
    
    wget https://huggingface.co/BSC-LT/ALIA-40b-instruct-2512-GGUF/resolve/main/ALIA-40b-instruct-2512-Q8_0.gguf \
    -O ALIA-40b-instruct-2512-Q8_0.gguf
    
    # Loo Modelfile
    cat > Modelfile << 'EOF'
    FROM ./ALIA-40b-instruct-2512-Q8_0.gguf
    
    PARAMETER temperature 0.7
    PARAMETER top_p 0.9
    PARAMETER top_k 40
    PARAMETER repeat_penalty 1.1
    PARAMETER num_gpu 18
    
    TEMPLATE """You are a helpful multilingual assistant. Always answer in Estonian unless the user explicitly asks for another language.
    
    {{ .Prompt }}"""
    EOF
    # Docker'i konteineri
    docker exec -it ollama bash
    
    cd /models/alia-40b
    ollama create ALIA-40b-instruct-est-2512-Q8_0 -f /models/Modelfiles/Modelfile
    
    ollama list
    ollama run ALIA-40b-instruct-est-2512-Q8_0