Ollama 详解

最简单的本地大模型运行方案。一条命令跑起 Llama/Qwen/DeepSeek。


安装

1
2
3
4
5
6
7
8
9
10
# Linux/macOS
curl -fsSL https://ollama.com/install.sh | sh

# 启动服务
ollama serve

# 拉取模型
ollama pull llama3.2
ollama pull qwen2.5
ollama pull deepseek-r1:7b

常用命令

1
2
3
4
5
ollama list                 # 查看已下载模型
ollama run llama3.2 # 交互式对话
ollama show llama3.2 # 模型信息
ollama rm llama3.2 # 删除模型
ollama pull nomic-embed-text # Embedding 模型

API 调用

1
2
3
4
5
6
7
8
9
from langchain_ollama import ChatOllama

llm = ChatOllama(
model="llama3.2",
base_url="http://localhost:11434"
)

response = llm.invoke("用 Python 写一个快排")
print(response.content)

Docker 部署

1
2
3
4
5
6
7
8
docker run -d \
--name ollama \
-p 11434:11434 \
-v ollama_data:/root/.ollama \
ollama/ollama:latest

# 进入容器拉取模型
docker exec -it ollama ollama pull llama3.2

Embedding 模型

1
2
3
4
5
6
7
8
from langchain_ollama import OllamaEmbeddings

embeddings = OllamaEmbeddings(
model="nomic-embed-text",
base_url="http://localhost:11434"
)

vector = embeddings.embed_query("文本")

与 vLLM 对比

维度OllamavLLM
易用性⭐⭐⭐⭐⭐(极简单)⭐⭐⭐(需配置)
性能中等更高
多用户支持一般生产级
自定义有限
适合场景开发测试 / 个人生产部署