新手使用Ollama进阶 优化性能必读
Ollama支持导入模型:GGUF
模型管理
ollama中的常见命令:
ollama list:显示模型列表。
ollama show:显示模型的信息
ollama pull:拉取模型
ollama push:推送模型
ollama cp:拷贝一个模型
ollama rm:删除一个模型
ollama run:运行一个模型
ollama ps
命令查看当前加载到内存中的模型,CPU GPU使用比例
6 个开源小模型 安装、运行命令
ollama run deepseek-r1:1.5b
ollama run deepseek-r1:7b
ollama run deepseek-r1:8b
ollama run deepseek-r1:14b
ollama run deepseek-r1:32b
ollama run deepseek-r1:70b
开源大模型安装、运行命令(--verbose显示推理速度)
ollama run deepseek-r1:671b --verbose
ctrl+c 暂停下载,再运行安装命令会继续下载,解决最后部分下载速度过慢问题
如需配合其他控件在WEB网页中使用需要设置环境变量,在powershell 或 CMD窗口执行以下命令:
setx OLLAMA_HOST 0.0.0.0
setx OLLAMA_ORIGINS *
127.0.0.1
Ollama 默认
允许来自网络请求0.0.0.0
命令提示符中用 nvidia-smi 查看显卡情况并用
set CUDA_VISIBLE_DEVICES=0,1 等,设置ollama可以用的显卡。
设置 OLLAMA_GPU_OVERHEAD=81920000000
,即 80GB,ollama 会在显卡上使用 80GB 的显存,然后使用 RAM、VRAM 加载模型。
Serve 命令提供了很多环境变量,可以让你更自由的运行 Ollama 程序:
OLLAMA_DEBUG 显示其他调试信息(例如 OLLAMA_DEBUG=1)
OLLAMA_HOST ollama 服务器的 IP 地址(默认 127.0.0.1:11434)
OLLAMA_KEEP_ALIVE 模型在内存中保持加载状态的持续时间(默认“5 分钟”)
OLLAMA_MAX_LOADED_MODELS 每个 GPU 加载的最大模型数量
OLLAMA_MAX_QUEUE 排队请求的最大数量
OLLAMA_MODELS 模型目录的路径
set OLLAMA_MODELS=D:\ollama\models
OLLAMA_NUM_PARALLEL 并行请求的最大数量
OLLAMA_NOPRUNE 启动时不修剪模型 blob
OLLAMA_ORIGINS 允许来源的逗号分隔列表
OLLAMA_TMPDIR 临时文件的位置
OLLAMA_FLASH_ATTENTION 启用闪存注意
OLLAMA_LLM_LIBRARY 设置 LLM 库以绕过自动检测
set OLLAMA_NUM_THREAD=20 调整Ollama线程数 OLLAMA_NUM_THREAD是一个环境变量,用于设置Ollama服务运行时的线程数。通过设置这个环境变量,可以控制Ollama使用CPU的线程数,从而优化性能和资源利用。
并发运行
vim /etc/systemd/system/ollama.service
[Service]
Environment="OLLAMA_NUM_PARALLEL=4" #并行处理请求的数量
Environment="OLLAMA_MAX_LOADED_MODELS=4" #同时加载的模型数量
设置 来调整排队的请求数量OLLAMA_MAX_QUEUE
。
set OLLAMA_NUM_PARALLEL=5
设置处理对话并发请求数量为5,系统环境参数
知识库训练模型
BGE-M3(多语言长文本向量检索模型)
ollama pull bge-m3
ollama run nomic-embed-text #文本向量模型,
也可用R1 训练数据
Ollama内网无法下载模型,内网代理设置 :设置HTTP/HTTPS代理
Windows (PowerShell):
$env:HTTP_PROXY="http://your-proxy-server:port"
$env:HTTPS_PROXY="http://your-proxy-server:port"
Linux/macOS:
export HTTP_PROXY="http://your-proxy-server:port"
export HTTPS_PROXY="http://your-proxy-server:port"
登录后可发表评论
点击登录