Gemma 4 na DigitalOcean GPU Droplet
Návod na spuštění Gemma 4 přes Ollama na DigitalOcean GPU Droplet. Ověřeno na Debian 13 (Trixie) s RTX 4000 Ada (20 GB VRAM), duben 2026.
Modely
Section titled “Modely”| Model | Architektura | Kontext | Modality | Min. VRAM (Q4) |
|---|---|---|---|---|
gemma4:e2b | Dense, 2.3B | 128K | Text, obraz, audio | ~3.2 GB |
gemma4:e4b (= latest) | Dense, 4.5B | 128K | Text, obraz, audio | ~5 GB |
gemma4:26b | MoE, 3.8B aktivní / 128 expertů | 256K | Text, obraz | ~15.6 GB |
gemma4:31b | Dense, 30.7B | 256K | Text, obraz | ~17.4 GB |
GPU Droplet
Section titled “GPU Droplet”DigitalOcean GPU Droplets — RTX 4000 Ada, 1× GPU, 20 GB VRAM, 8 vCPU, 32 GB RAM.
Instalace
Section titled “Instalace”DigitalOcean GPU Droplet s Debian 13 nemá předinstalované NVIDIA ovladače ani CUDA. Bez nvidia-cuda-toolkit Ollama GPU nevidí a model poběží na CPU.
# Non-free repo (nutné pro NVIDIA na Debianu)echo "deb http://deb.debian.org/debian trixie main contrib non-free non-free-firmware" \ > /etc/apt/sources.list.d/nvidia.listapt-get update
# Ovladače + CUDAapt-get install -y linux-headers-amd64 nvidia-driver firmware-misc-nonfree nvidia-cuda-toolkit
# Načtení kernel modulumodprobe nvidia
# Ollamacurl -fsSL https://ollama.com/install.sh | sh
# Stažení modelu a spuštěníollama pull gemma4:26bollama run gemma4:26bVzdálený přístup k API
Section titled “Vzdálený přístup k API”Pokud chcete přistupovat k Ollama API vzdáleně:
mkdir -p /etc/systemd/system/ollama.service.dcat > /etc/systemd/system/ollama.service.d/override.conf <<EOF[Service]Environment="OLLAMA_HOST=0.0.0.0:11434"Environment="OLLAMA_ORIGINS=*"EOFsystemctl daemon-reload && systemctl restart ollamaParametry generování
Section titled “Parametry generování”Doporučené výchozí hodnoty pro Gemma 4:
/set parameter temperature 1.0/set parameter top_p 0.95/set parameter top_k 64/set parameter num_ctx 32768Přidejte --keepalive 30m při spouštění, aby model zůstal načtený v paměti a nedocházelo ke zdržení při každém dotazu:
ollama run gemma4:26b --keepalive 30mThinking mode
Section titled “Thinking mode”Gemma 4 podporuje „thinking mode” — model před odpovědí projde interním uvažováním. Aktivuje se přidáním <|think|> tokenu do systémového promptu nebo parametrem enable_thinking=True v chat template.
Ověření GPU
Section titled “Ověření GPU”ollama ps# Hledejte "100% GPU" ve sloupci PROCESSORSources
Section titled “Sources”- Gemma 4 + Ollama Local Setup — parametry, architektura modelů, best practices
- ollama.com/library/gemma4 — dostupné tagy a doporučené parametry