Ollama¶

Traduzione: Copia tutti i comandi Traduzione: Generare PDF < > Ollama è uno strumento per eseguire modelli di lingua di grandi dimensioni localmente sulla vostra macchina, fornendo privacy, controllo e l'accesso offline a modelli AI come Llama, Mistral e CodeLlama. ## Installazione e configurazione |Command|Description| |---------|-------------| |`curl -fsSL https://ollama.ai/install.sh \| sh`|Install Ollama on Linux/macOS| |`brew install ollama`|Install via Homebrew (macOS)| |`ollama --version`|Check installed version| |`ollama serve`|Start Ollama server| |`ollama ps`|List running models| |`ollama list`|List installed models| ## Gestione dei modelli |Command|Description| |---------|-------------| |`ollama pull llama3.1`|Download Llama 3.1 model| |`ollama pull mistral`|Download Mistral model| |`ollama pull codellama`|Download CodeLlama model| |`ollama pull gemma:7b`|Download specific model size| |`ollama show llama3.1`|Show model information| |`ollama rm mistral`|Remove model| ## Modelli popolari ### Modelli a scopo generale |Command|Description| |---------|-------------| |`ollama pull llama3.1:8b`|Llama 3.1 8B parameters| |`ollama pull llama3.1:70b`|Llama 3.1 70B parameters| |`ollama pull mistral:7b`|Mistral 7B model| |`ollama pull mixtral:8x7b`|Mixtral 8x7B mixture of experts| |`ollama pull gemma:7b`|Google Gemma 7B| |`ollama pull phi3:mini`|Microsoft Phi-3 Mini| ### Codice Specializzato Modelli |Command|Description| |---------|-------------| |`ollama pull codellama:7b`|CodeLlama 7B for coding| |`ollama pull codellama:13b`|CodeLlama 13B for coding| |`ollama pull codegemma:7b`|CodeGemma for code generation| |`ollama pull deepseek-coder:6.7b`|DeepSeek Coder model| |`ollama pull starcoder2:7b`|StarCoder2 for code| ### Modelli speciali |Command|Description| |---------|-------------| |`ollama pull llava:7b`|LLaVA multimodal model| |`ollama pull nomic-embed-text`|Text embedding model| |`ollama pull all-minilm`|Sentence embedding model| |`ollama pull mxbai-embed-large`|Large embedding model| ## Modelli in esecuzione |Command|Description| |---------|-------------| |`ollama run llama3.1`|Start interactive chat with Llama 3.1| |`ollama run mistral "Hello, how are you?"`|Single prompt to Mistral| |`ollama run codellama "Write a Python function"`|Code generation with CodeLlama| |`ollama run llava "Describe this image" --image photo.jpg`|Multimodal with image| ## Interfaccia di chat |Command|Description| |---------|-------------| |`ollama run llama3.1`|Start interactive chat| |`/bye`|Exit chat session| |`/clear`|Clear chat history| |`/save chat.txt`|Save chat to file| |`/load chat.txt`|Load chat from file| |`/multiline`|Enable multiline input| ## API Utilizzo ### API REST |Command|Description| |---------|-------------| |`curl http://localhost:11434/api/generate -d '{"model":"llama3.1","prompt":"Hello"}'`|Generate text via API| |`curl http://localhost:11434/api/chat -d '{"model":"llama3.1","messages":[{"role":"user","content":"Hello"}]}'`|Chat via API| |`curl http://localhost:11434/api/tags`|List models via API| |`curl http://localhost:11434/api/show -d '{"name":"llama3.1"}'`|Show model info via API| ### Risposte in streaming |Command|Description| |---------|-------------| |`curl http://localhost:11434/api/generate -d '{"model":"llama3.1","prompt":"Hello","stream":true}'`|Stream response| |`curl http://localhost:11434/api/chat -d '{"model":"llama3.1","messages":[{"role":"user","content":"Hello"}],"stream":true}'`|Stream chat| ## Configurazione del modello ### Temperatura e parametri |Command|Description| |---------|-------------| |`ollama run llama3.1 --temperature 0.7`|Set temperature| |`ollama run llama3.1 --top-p 0.9`|Set top-p sampling| |`ollama run llama3.1 --top-k 40`|Set top-k sampling| |`ollama run llama3.1 --repeat-penalty 1.1`|Set repeat penalty| |`ollama run llama3.1 --seed 42`|Set random seed| ### Contesto e Memoria |Command|Description| |---------|-------------| |`ollama run llama3.1 --ctx-size 4096`|Set context window size| |`ollama run llama3.1 --batch-size 512`|Set batch size| |`ollama run llama3.1 --threads 8`|Set number of threads| ## Modelli personalizzati ### Creazione di Modelfiles |Command|Description| |---------|-------------| |`ollama create mymodel -f Modelfile`|Create custom model| |`ollama create mymodel -f Modelfile --quantize q4_0`|Create with quantization| ### Esempi di Modelfile Traduzione: Traduzione: ## Esempi di integrazione ### Integrazione Python Traduzione: ### Integrazione JavaScript Traduzione: ### Integrazione di Bash Traduzione: ## Ottimizzazione delle prestazioni |Command|Description| |---------|-------------| |`ollama run llama3.1 --gpu-layers 32`|Use GPU acceleration| |`ollama run llama3.1 --memory-limit 8GB`|Set memory limit| |`ollama run llama3.1 --cpu-threads 8`|Set CPU threads| |`ollama run llama3.1 --batch-size 1024`|Optimize batch size| ## Variabili dell'ambiente |Variable|Description| |---------|-------------| |`OLLAMA_HOST`|Set server host (default: 127.0.0.1:11434)| |`OLLAMA_MODELS`|Set models directory| |`OLLAMA_NUM_PARALLEL`|Number of parallel requests| |`OLLAMA_MAX_LOADED_MODELS`|Max models in memory| |`OLLAMA_FLASH_ATTENTION`|Enable flash attention| |`OLLAMA_GPU_OVERHEAD`|GPU memory overhead| ## Uso del docker |Command|Description| |---------|-------------| |`docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama`|Run Ollama in Docker| |`docker exec -it ollama ollama run llama3.1`|Run model in container| |`docker exec -it ollama ollama pull mistral`|Pull model in container| ### Docker Compose Traduzione: ## Monitoraggio e debug |Command|Description| |---------|-------------| |`ollama logs`|View Ollama logs| |`ollama ps`|Show running models and memory usage| |`curl http://localhost:11434/api/version`|Check API version| |`curl http://localhost:11434/api/tags`|List available models| ## Quantificazione del modello |Command|Description| |---------|-------------| |`ollama create mymodel -f Modelfile --quantize q4_0`|4-bit quantization| |`ollama create mymodel -f Modelfile --quantize q5_0`|5-bit quantization| |`ollama create mymodel -f Modelfile --quantize q8_0`|8-bit quantization| |`ollama create mymodel -f Modelfile --quantize f16`|16-bit float| ## Modelli di Embedding |Command|Description| |---------|-------------| |`ollama pull nomic-embed-text`|Pull text embedding model| |`curl http://localhost:11434/api/embeddings -d '{"model":"nomic-embed-text","prompt":"Hello world"}'`|Generate embeddings| ## Risoluzione dei problemi |Command|Description| |---------|-------------| |`ollama --help`|Show help information| |`ollama serve --help`|Show server options| |`ps aux \| grep ollama`|Check if Ollama is running| |`lsof -i :11434`|Check port usage| |`ollama rm --all`|Remove all models| ## Migliori Pratiche - Scegliere la dimensione del modello in base alla RAM disponibile (7B ≈ 4GB, 13B ≈ 8GB, 70B ≈ 40GB) - Utilizzare l'accelerazione GPU quando disponibile per migliorare le prestazioni - Implementare una corretta gestione degli errori nelle integrazioni API - Monitorare l'utilizzo della memoria durante l'esecuzione di più modelli - Utilizzare modelli quantizzati per gli ambienti con le risorse - Cache frequentemente usato modelli localmente - Impostare dimensioni contestuali appropriate per il tuo caso di utilizzo - Utilizzare lo streaming per lunghe risposte per migliorare l'esperienza degli utenti - Limitare il tasso di implementazione per l'utilizzo delle API di produzione - Aggiornamenti regolari del modello per migliorare le prestazioni e le capacità ## Casi di uso comune ### Generazione di codice Traduzione: ### Analisi del testo Traduzione: ### Scrittura creativa Traduzione: ### Trattamento dei dati Traduzione: