
https://release-assets.githubusercontent.com/github-production-release-asset/658928958/a0a7cb2e-03b6-40b5-a107-b5b6a5cbefb8?sp=r&sv=2018-11-09&sr=b&spr=https&se=2026-04-14T11%3A45%3A37Z&rscd=attachment%3B+filename%3DOllamaSetup.exe&rsct=application%2Foctet-stream&skoid=96c2d410-5711-43a1-aedd-ab1947aa7ab0&sktid=398a6654-997b-47e9-b12b-9515b896b4de&skt=2026-04-14T10%3A44%3A40Z&ske=2026-04-14T11%3A45%3A37Z&sks=b&skv=2018-11-09&sig=4GOItHIqeFB9pEmMwmMPF4NDitW401KqphLCk2Ol9r0%3D&jwt=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmVsZWFzZS1hc3NldHMuZ2l0aHVidXNlcmNvbnRlbnQuY29tIiwia2V5Ijoia2V5MSIsImV4cCI6MTc3NjE2NzE4NCwibmJmIjoxNzc2MTYzNTg0LCJwYXRoIjoicmVsZWFzZWFzc2V0cHJvZHVjdGlvbi5ibG9iLmNvcmUud2luZG93cy5uZXQifQ.bMGKLputupWOHnKxZZYdfZFNCmn3-5cZq9FPb0H9iLc&response-content-disposition=attachment%3B+filename%3DOllamaSetup.exe&response-content-type=application%2Foctet-stream
模型名称:qwen2.5-coder:14b-instruct-q4_K_M
将自己电脑的资源发给ai,让他给你推荐模型。
ollama pull qwen2.5-coder:14b-instruct-q4_K_M
打开模型目录并创建 Modelfile
编辑 Modelfile
FROM qwen2.5-coder:14b-instruct-q4_K_M
# 以下是 Ollama 全版本兼容参数 → 绝不报错
PARAMETER num_gpu 100
PARAMETER num_thread 8
PARAMETER temperature 0.2
PARAMETER repeat_penalty 1.1
重新构建
cd D:\\models\\ai
ollama create my-coder-14b -f Modelfile
$env:OLLAMA_GPU_LAYERS=100
$env:OLLAMA_MAX_LOADED_MODELS=1
$env:OLLAMA_NUM_PARALLEL=1
ollama run my-coder-14b
模型接口地址:本机:11434
# 查看本地已安装的所有模型
ollama list
# 拉取模型(下载)
ollama pull 模型名
# 删除本地模型
ollama rm 模型名
# 查看模型信息
ollama show 模型名
# 直接运行模型(对话模式)
ollama run 模型名
# 运行时一次性提问(不进入对话)
ollama run 模型名 "你的问题"
# 用 Modelfile 创建自定义模型
ollama create 新模型名 -f Modelfile
# 查看 Ollama 状态、GPU、版本
ollama info
# 停止服务
ollama stop
# 手动启动服务(一般不用,自动运行)
ollama serve
# 清理无用缓存
ollama prune
# 清理所有缓存(慎用)
ollama prune all
# 查看运行日志
ollama logs
最简单接口测试(PowerShell)
curl http://localhost:11434/api/generate -Method Post -Body '{"model":"qwen2.5-coder:14b-instruct-q4\_K\_M","prompt":"你好"}'
聊天接口(兼容 OpenAI 格式)
curl http://localhost:11434/v1/chat/completions -Method Post -ContentType "application/json" -Body '{
"model": "qwen2.5-coder:14b-instruct-q4\_K\_M",
"messages": [{"role":"user","content":"写一个快速排序"}]
}'
服务是否正常
curl http://localhost:11434 # 返回 Ollama is running 就是正常。
常用接口地址
# 生成内容:http://localhost:11434/api/generate
# 聊天对话:http://localhost:11434/v1/chat/completions
# 模型列表:http://localhost:11434/api/tags
# 流式输出:在请求体加 "stream": true