新手使用Ollama进阶优化性能必读

发布时间：2025-02-12 09:01:50

51972 阅读

0 评论

Ollama支持导入模型：GGUF

模型管理

ollama中的常见命令：

ollama list：显示模型列表。

ollama show：显示模型的信息

ollama pull：拉取模型

ollama push：推送模型

ollama cp：拷贝一个模型

ollama rm：删除一个模型

ollama run：运行一个模型

ollama ps命令查看当前加载到内存中的模型，CPU GPU使用比例

6 个开源小模型安装、运行命令

ollama run deepseek-r1:1.5b

ollama run deepseek-r1:7b

ollama run deepseek-r1:8b

ollama run deepseek-r1:14b

ollama run deepseek-r1:32b

ollama run deepseek-r1:70b

开源大模型安装、运行命令（--verbose显示推理速度）

ollama run deepseek-r1:671b --verbose

ctrl+c 暂停下载，再运行安装命令会继续下载，解决最后部分下载速度过慢问题

如需配合其他控件在WEB网页中使用需要设置环境变量，在powershell 或 CMD窗口执行以下命令：

setx OLLAMA_HOST 0.0.0.0

setx OLLAMA_ORIGINS *

127.0.0.1Ollama 默认

允许来自网络请求0.0.0.0

命令提示符中用 nvidia-smi 查看显卡情况并用

set CUDA_VISIBLE_DEVICES=0,1 等，设置ollama可以用的显卡。

设置 OLLAMA_GPU_OVERHEAD=81920000000，即 80GB，ollama 会在显卡上使用 80GB 的显存，然后使用 RAM、VRAM 加载模型。

Serve 命令提供了很多环境变量，可以让你更自由的运行 Ollama 程序：

OLLAMA_DEBUG 显示其他调试信息（例如 OLLAMA_DEBUG=1）

OLLAMA_HOST ollama 服务器的 IP 地址（默认 127.0.0.1:11434）

OLLAMA_KEEP_ALIVE 模型在内存中保持加载状态的持续时间（默认“5 分钟”）

OLLAMA_MAX_LOADED_MODELS 每个 GPU 加载的最大模型数量

OLLAMA_MAX_QUEUE 排队请求的最大数量

OLLAMA_MODELS 模型目录的路径

set OLLAMA_MODELS=D:\ollama\models

OLLAMA_NUM_PARALLEL 并行请求的最大数量

OLLAMA_NOPRUNE 启动时不修剪模型 blob

OLLAMA_ORIGINS 允许来源的逗号分隔列表

OLLAMA_TMPDIR 临时文件的位置

OLLAMA_FLASH_ATTENTION 启用闪存注意

OLLAMA_LLM_LIBRARY 设置 LLM 库以绕过自动检测

set OLLAMA_NUM_THREAD=20      调整Ollama线程数‌ OLLAMA_NUM_THREAD‌是一个环境变量，用于设置Ollama服务运行时的线程数。通过设置这个环境变量，可以控制Ollama使用CPU的线程数，从而优化性能和资源利用。

并发运行

vim /etc/systemd/system/ollama.service

[Service]

Environment="OLLAMA_NUM_PARALLEL=4" #并行处理请求的数量

Environment="OLLAMA_MAX_LOADED_MODELS=4" #同时加载的模型数量

设置来调整排队的请求数量OLLAMA_MAX_QUEUE。

set OLLAMA_NUM_PARALLEL=5

设置处理对话并发请求数量为5，系统环境参数

知识库训练模型

BGE-M3（多语言长文本向量检索模型）

ollama pull bge-m3

ollama run nomic-embed-text #文本向量模型，

也可用R1 训练数据

Ollama内网无法下载模型，内网代理设置 :设置HTTP/HTTPS代理

Windows (PowerShell):
$env:HTTP_PROXY="http://your-proxy-server:port"
$env:HTTPS_PROXY="http://your-proxy-server:port"

Linux/macOS:
export HTTP_PROXY="http://your-proxy-server:port"
export HTTPS_PROXY="http://your-proxy-server:port"