Ollama 详解

最简单的本地大模型运行方案。一条命令跑起 Llama/Qwen/DeepSeek。

安装

# Linux/macOS
curl -fsSL https://ollama.com/install.sh | sh

# 启动服务
ollama serve

# 拉取模型
ollama pull llama3.2
ollama pull qwen2.5
ollama pull deepseek-r1:7b

常用命令

ollama list                 # 查看已下载模型
ollama run llama3.2         # 交互式对话
ollama show llama3.2        # 模型信息
ollama rm llama3.2          # 删除模型
ollama pull nomic-embed-text  # Embedding 模型

API 调用

from langchain_ollama import ChatOllama

llm = ChatOllama(
    model="llama3.2",
    base_url="http://localhost:11434"
)

response = llm.invoke("用 Python 写一个快排")
print(response.content)

Docker 部署

docker run -d \
    --name ollama \
    -p 11434:11434 \
    -v ollama_data:/root/.ollama \
    ollama/ollama:latest

# 进入容器拉取模型
docker exec -it ollama ollama pull llama3.2

Embedding 模型

from langchain_ollama import OllamaEmbeddings

embeddings = OllamaEmbeddings(
    model="nomic-embed-text",
    base_url="http://localhost:11434"
)

vector = embeddings.embed_query("文本")

与 vLLM 对比

维度	Ollama	vLLM
易用性	⭐⭐⭐⭐⭐（极简单）	⭐⭐⭐（需配置）
性能	中等	更高
多用户支持	一般	生产级
自定义	有限	强
适合场景	开发测试 / 个人	生产部署