Ollama 详解
最简单的本地大模型运行方案。一条命令跑起 Llama/Qwen/DeepSeek。
安装
1 2 3 4 5 6 7 8 9 10
| curl -fsSL https://ollama.com/install.sh | sh
ollama serve
ollama pull llama3.2 ollama pull qwen2.5 ollama pull deepseek-r1:7b
|
常用命令
1 2 3 4 5
| ollama list ollama run llama3.2 ollama show llama3.2 ollama rm llama3.2 ollama pull nomic-embed-text
|
API 调用
1 2 3 4 5 6 7 8 9
| from langchain_ollama import ChatOllama
llm = ChatOllama( model="llama3.2", base_url="http://localhost:11434" )
response = llm.invoke("用 Python 写一个快排") print(response.content)
|
Docker 部署
1 2 3 4 5 6 7 8
| docker run -d \ --name ollama \ -p 11434:11434 \ -v ollama_data:/root/.ollama \ ollama/ollama:latest
docker exec -it ollama ollama pull llama3.2
|
Embedding 模型
1 2 3 4 5 6 7 8
| from langchain_ollama import OllamaEmbeddings
embeddings = OllamaEmbeddings( model="nomic-embed-text", base_url="http://localhost:11434" )
vector = embeddings.embed_query("文本")
|
与 vLLM 对比
| 维度 | Ollama | vLLM |
|---|
| 易用性 | ⭐⭐⭐⭐⭐(极简单) | ⭐⭐⭐(需配置) |
| 性能 | 中等 | 更高 |
| 多用户支持 | 一般 | 生产级 |
| 自定义 | 有限 | 强 |
| 适合场景 | 开发测试 / 个人 | 生产部署 |