Ollama
Traduzione: Copia tutti i comandi
Traduzione: Generare PDF
< >
Ollama è uno strumento per eseguire modelli di lingua di grandi dimensioni localmente sulla vostra macchina, fornendo privacy, controllo e l'accesso offline a modelli AI come Llama, Mistral e CodeLlama.
## Installazione e configurazione
| | Command | Description | |
| --- | --- |
| | `curl -fsSL https://ollama.ai/install.sh \ | sh` | Install Ollama on Linux/macOS | |
| | `brew install ollama` | Install via Homebrew (macOS) | |
| | `ollama --version` | Check installed version | |
| | `ollama serve` | Start Ollama server | |
| | `ollama ps` | List running models | |
| | `ollama list` | List installed models | |
## Gestione dei modelli
| | Command | Description | |
| --- | --- |
| | `ollama pull llama3.1` | Download Llama 3.1 model | |
| | `ollama pull mistral` | Download Mistral model | |
| | `ollama pull codellama` | Download CodeLlama model | |
| | `ollama pull gemma:7b` | Download specific model size | |
| | `ollama show llama3.1` | Show model information | |
| | `ollama rm mistral` | Remove model | |
## Modelli popolari
### Modelli a scopo generale
| | Command | Description | |
| --- | --- |
| | `ollama pull llama3.1:8b` | Llama 3.1 8B parameters | |
| | `ollama pull llama3.1:70b` | Llama 3.1 70B parameters | |
| | `ollama pull mistral:7b` | Mistral 7B model | |
| | `ollama pull mixtral:8x7b` | Mixtral 8x7B mixture of experts | |
| | `ollama pull gemma:7b` | Google Gemma 7B | |
| | `ollama pull phi3:mini` | Microsoft Phi-3 Mini | |
### Codice Specializzato Modelli
| | Command | Description | |
| --- | --- |
| | `ollama pull codellama:7b` | CodeLlama 7B for coding | |
| | `ollama pull codellama:13b` | CodeLlama 13B for coding | |
| | `ollama pull codegemma:7b` | CodeGemma for code generation | |
| | `ollama pull deepseek-coder:6.7b` | DeepSeek Coder model | |
| | `ollama pull starcoder2:7b` | StarCoder2 for code | |
### Modelli speciali
| | Command | Description | |
| --- | --- |
| | `ollama pull llava:7b` | LLaVA multimodal model | |
| | `ollama pull nomic-embed-text` | Text embedding model | |
| | `ollama pull all-minilm` | Sentence embedding model | |
| | `ollama pull mxbai-embed-large` | Large embedding model | |
## Modelli in esecuzione
| | Command | Description | |
| --- | --- |
| | `ollama run llama3.1` | Start interactive chat with Llama 3.1 | |
| | `ollama run mistral "Hello, how are you?"` | Single prompt to Mistral | |
| | `ollama run codellama "Write a Python function"` | Code generation with CodeLlama | |
| | `ollama run llava "Describe this image" --image photo.jpg` | Multimodal with image | |
## Interfaccia di chat
| | Command | Description | |
| --- | --- |
| | `ollama run llama3.1` | Start interactive chat | |
| | `/bye` | Exit chat session | |
| | `/clear` | Clear chat history | |
| | `/save chat.txt` | Save chat to file | |
| | `/load chat.txt` | Load chat from file | |
| | `/multiline` | Enable multiline input | |
## API Utilizzo
### API REST
| | Command | Description | |
| --- | --- |
| | `curl http://localhost:11434/api/generate -d '{"model":"llama3.1","prompt":"Hello"}'` | Generate text via API | |
| | `curl http://localhost:11434/api/chat -d '{"model":"llama3.1","messages":[{"role":"user","content":"Hello"}]}'` | Chat via API | |
| | `curl http://localhost:11434/api/tags` | List models via API | |
| | `curl http://localhost:11434/api/show -d '{"name":"llama3.1"}'` | Show model info via API | |
### Risposte in streaming
| | Command | Description | |
| --- | --- |
| | `curl http://localhost:11434/api/generate -d '{"model":"llama3.1","prompt":"Hello","stream":true}'` | Stream response | |
| | `curl http://localhost:11434/api/chat -d '{"model":"llama3.1","messages":[{"role":"user","content":"Hello"}],"stream":true}'` | Stream chat | |
## Configurazione del modello
### Temperatura e parametri
| | Command | Description | |
| --- | --- |
| | `ollama run llama3.1 --temperature 0.7` | Set temperature | |
| | `ollama run llama3.1 --top-p 0.9` | Set top-p sampling | |
| | `ollama run llama3.1 --top-k 40` | Set top-k sampling | |
| | `ollama run llama3.1 --repeat-penalty 1.1` | Set repeat penalty | |
| | `ollama run llama3.1 --seed 42` | Set random seed | |
### Contesto e Memoria
| | Command | Description | |
| --- | --- |
| | `ollama run llama3.1 --ctx-size 4096` | Set context window size | |
| | `ollama run llama3.1 --batch-size 512` | Set batch size | |
| | `ollama run llama3.1 --threads 8` | Set number of threads | |
## Modelli personalizzati
### Creazione di Modelfiles
| | Command | Description | |
| --- | --- |
| | `ollama create mymodel -f Modelfile` | Create custom model | |
| | `ollama create mymodel -f Modelfile --quantize q4_0` | Create with quantization | |
### Esempi di Modelfile
Traduzione:
Traduzione:
## Esempi di integrazione
### Integrazione Python
Traduzione:
### Integrazione JavaScript
Traduzione:
### Integrazione di Bash
Traduzione:
## Ottimizzazione delle prestazioni
| | Command | Description | |
| --- | --- |
| | `ollama run llama3.1 --gpu-layers 32` | Use GPU acceleration | |
| | `ollama run llama3.1 --memory-limit 8GB` | Set memory limit | |
| | `ollama run llama3.1 --cpu-threads 8` | Set CPU threads | |
| | `ollama run llama3.1 --batch-size 1024` | Optimize batch size | |
## Variabili dell'ambiente
| | Variable | Description | |
| --- | --- |
| | `OLLAMA_HOST` | Set server host (default: 127.0.0.1:11434) | |
| | `OLLAMA_MODELS` | Set models directory | |
| | `OLLAMA_NUM_PARALLEL` | Number of parallel requests | |
| | `OLLAMA_MAX_LOADED_MODELS` | Max models in memory | |
| | `OLLAMA_FLASH_ATTENTION` | Enable flash attention | |
| | `OLLAMA_GPU_OVERHEAD` | GPU memory overhead | |
## Uso del docker
| | Command | Description | |
| --- | --- |
| | `docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama` | Run Ollama in Docker | |
| | `docker exec -it ollama ollama run llama3.1` | Run model in container | |
| | `docker exec -it ollama ollama pull mistral` | Pull model in container | |
### Docker Compose
Traduzione:
## Monitoraggio e debug
| | Command | Description | |
| --- | --- |
| | `ollama logs` | View Ollama logs | |
| | `ollama ps` | Show running models and memory usage | |
| | `curl http://localhost:11434/api/version` | Check API version | |
| | `curl http://localhost:11434/api/tags` | List available models | |
## Quantificazione del modello
| | Command | Description | |
| --- | --- |
| | `ollama create mymodel -f Modelfile --quantize q4_0` | 4-bit quantization | |
| | `ollama create mymodel -f Modelfile --quantize q5_0` | 5-bit quantization | |
| | `ollama create mymodel -f Modelfile --quantize q8_0` | 8-bit quantization | |
| | `ollama create mymodel -f Modelfile --quantize f16` | 16-bit float | |
## Modelli di Embedding
| | Command | Description | |
| --- | --- |
| | `ollama pull nomic-embed-text` | Pull text embedding model | |
| | `curl http://localhost:11434/api/embeddings -d '{"model":"nomic-embed-text","prompt":"Hello world"}'` | Generate embeddings | |
## Risoluzione dei problemi
| | Command | Description | |
| --- | --- |
| | `ollama --help` | Show help information | |
| | `ollama serve --help` | Show server options | |
| | `ps aux \ | grep ollama` | Check if Ollama is running | |
| | `lsof -i :11434` | Check port usage | |
| | `ollama rm --all` | Remove all models | |
## Migliori Pratiche
- Scegliere la dimensione del modello in base alla RAM disponibile (7B ≈ 4GB, 13B ≈ 8GB, 70B ≈ 40GB)
- Utilizzare l'accelerazione GPU quando disponibile per migliorare le prestazioni
- Implementare una corretta gestione degli errori nelle integrazioni API
- Monitorare l'utilizzo della memoria durante l'esecuzione di più modelli
- Utilizzare modelli quantizzati per gli ambienti con le risorse
- Cache frequentemente usato modelli localmente
- Impostare dimensioni contestuali appropriate per il tuo caso di utilizzo
- Utilizzare lo streaming per lunghe risposte per migliorare l'esperienza degli utenti
- Limitare il tasso di implementazione per l'utilizzo delle API di produzione
- Aggiornamenti regolari del modello per migliorare le prestazioni e le capacità
## Casi di uso comune
### Generazione di codice
Traduzione:
### Analisi del testo
Traduzione:
### Scrittura creativa
Traduzione:
### Trattamento dei dati
Traduzione: