Ollama本地模型

Updated on with 0 views and 0 comments

Ollama本地模型

image.png

windows 部署

https://release-assets.githubusercontent.com/github-production-release-asset/658928958/a0a7cb2e-03b6-40b5-a107-b5b6a5cbefb8?sp=r&sv=2018-11-09&sr=b&spr=https&se=2026-04-14T11%3A45%3A37Z&rscd=attachment%3B+filename%3DOllamaSetup.exe&rsct=application%2Foctet-stream&skoid=96c2d410-5711-43a1-aedd-ab1947aa7ab0&sktid=398a6654-997b-47e9-b12b-9515b896b4de&skt=2026-04-14T10%3A44%3A40Z&ske=2026-04-14T11%3A45%3A37Z&sks=b&skv=2018-11-09&sig=4GOItHIqeFB9pEmMwmMPF4NDitW401KqphLCk2Ol9r0%3D&jwt=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmVsZWFzZS1hc3NldHMuZ2l0aHVidXNlcmNvbnRlbnQuY29tIiwia2V5Ijoia2V5MSIsImV4cCI6MTc3NjE2NzE4NCwibmJmIjoxNzc2MTYzNTg0LCJwYXRoIjoicmVsZWFzZWFzc2V0cHJvZHVjdGlvbi5ibG9iLmNvcmUud2luZG93cy5uZXQifQ.bMGKLputupWOHnKxZZYdfZFNCmn3-5cZq9FPb0H9iLc&response-content-disposition=attachment%3B+filename%3DOllamaSetup.exe&response-content-type=application%2Foctet-stream

安装模型

模型名称:qwen2.5-coder:14b-instruct-q4_K_M

将自己电脑的资源发给ai,让他给你推荐模型。

ollama pull qwen2.5-coder:14b-instruct-q4_K_M

性能优化

打开模型目录并创建 Modelfile

编辑 Modelfile

FROM qwen2.5-coder:14b-instruct-q4_K_M

# 以下是 Ollama 全版本兼容参数 → 绝不报错
PARAMETER num_gpu 100
PARAMETER num_thread 8
PARAMETER temperature 0.2
PARAMETER repeat_penalty 1.1

重新构建

cd D:\\models\\ai
ollama create my-coder-14b -f Modelfile

运行模型

$env:OLLAMA_GPU_LAYERS=100
$env:OLLAMA_MAX_LOADED_MODELS=1
$env:OLLAMA_NUM_PARALLEL=1
ollama run my-coder-14b

相关配置

模型接口地址:本机:11434

相关命令

 # 查看本地已安装的所有模型
ollama list

# 拉取模型(下载)
ollama pull 模型名

# 删除本地模型
ollama rm 模型名

# 查看模型信息
ollama show 模型名

# 直接运行模型(对话模式)
ollama run 模型名

# 运行时一次性提问(不进入对话)
ollama run 模型名 "你的问题"

# 用 Modelfile 创建自定义模型
ollama create 新模型名 -f Modelfile

# 查看 Ollama 状态、GPU、版本
ollama info

# 停止服务
ollama stop

# 手动启动服务(一般不用,自动运行)
ollama serve

# 清理无用缓存
ollama prune

# 清理所有缓存(慎用)
ollama prune all

# 查看运行日志
ollama logs

接口测试

最简单接口测试(PowerShell)

curl http://localhost:11434/api/generate -Method Post -Body '{"model":"qwen2.5-coder:14b-instruct-q4\_K\_M","prompt":"你好"}'

聊天接口(兼容 OpenAI 格式)

curl http://localhost:11434/v1/chat/completions -Method Post -ContentType "application/json" -Body '{
    "model": "qwen2.5-coder:14b-instruct-q4\_K\_M",
    "messages": [{"role":"user","content":"写一个快速排序"}]
}'

服务是否正常

curl http://localhost:11434  # 返回 Ollama is running 就是正常。

常用接口地址

# 生成内容:http://localhost:11434/api/generate
# 聊天对话:http://localhost:11434/v1/chat/completions
# 模型列表:http://localhost:11434/api/tags
# 流式输出:在请求体加 "stream": true

标题:Ollama本地模型
作者:zhongts
地址:http://zhongts.cc:8080/articles/2026/04/14/1776164560465.html