当前位置：首页 > 资讯 > 系统环境

3、用 Ollama 部署本地大模型

时间：2025-10-27 21:01 作者：来源：阅读：5
扫一扫，手机访问

摘要： 你是不是也遇到过这样的情况：想用大模型搭建个智能客服系统，但又担心数据泄露、网络延迟，或者只是想在本机先调试测试？别担心，今天我就来带你一步步在本地电脑上部署属于你自己的大模型！无需深厚的技术背景，只要跟着做，30 分钟内就能搞定！一、先来认识一下 Ollama：本地大模型的好帮手 Ollama 是一个开源工具，专门用来在本地运行各种大型

你是不是也遇到过这样的情况：想用大模型搭建个智能客服系统，但又担心数据泄露、网络延迟，或者只是想在本机先调试测试？别担心，今天我就来带你一步步在本地电脑上部署属于你自己的大模型！无需深厚的技术背景，只要跟着做，30 分钟内就能搞定！

3、用 Ollama 部署本地大模型

一、先来认识一下 Ollama：本地大模型的好帮手

Ollama 是一个开源工具，专门用来在本地运行各种大型语言模型（列如 DeepSeek、千问、Mamba 等等）。你不用纠结环境配置、依赖安装，它都帮你封装好了，特别适合初学者或者快速原型开发。

🔍 官网在这里：Ollama 官方网站（打开直接点击下载就行～）

二、第一步：安装 Ollama（Windows 为例）

打开 Ollama 官网，点击页面上的 Download 按钮；

3、用 Ollama 部署本地大模型

选择你的操作系统版本（这里以 Windows 为例），下载安装包；
双击安装，一路“下一步”就行——它自动装好，不用你选安装路径啥的；
安装完成后，打开命令行（Win+R 输入 cmd 回车），输入：

ollama

如果出现一屏说明文字，祝贺你，安装成功！

3、用 Ollama 部署本地大模型

三、挑选一个适合你电脑的模型

回到 Ollama 官网，点击 Models 标签，你会看到许多模型可选：

DeepSeek 系列（当前挺火的开源模型）
Qwen（阿里通义千问）
Mamba（一种更新架构的模型）
Llama3（Meta 开源）等等……

每个模型还有不同参数规模，列如：1.5B、7B、14B、70B 等。这个“B”是“Billion”的意思，也就是 10 亿参数。参数越多，模型越机智，但对电脑要求也越高。

四、怎么选模型？看你的硬件决定！

如果你不清楚该选哪个模型参数，可以参考这个提议：

3、用 Ollama 部署本地大模型

补充说明与注意事项：

“以上”含义： “以上”或“+”表明这是最低起步要求。在实际部署中，尤其是希望获得更好性能（如更快的响应速度、同时处理多任务）时，超过该配置是必要且推荐的。
显存与推理速度：显卡显存决定了模型能否运行。将模型完全加载到显存中会获得最快的推理速度。如果显存不足，可以通过系统内存和硬盘进行交换（Offloading），但这会显著降低运行速度。
量化技术：通过量化（Quantization）技术（如将模型从 FP16 转换为 INT4），可以大幅降低对显存和内存的需求（例如，70B 模型经量化后可能只需单张 40GB 显卡即可运行），但一般会以轻微的性能损失为代价。
70B 模型：该模型参数巨大，一般需要多张高端显卡（如 NVIDIA A100 / H100 80GB * 2，或 4090 24GB * 3 等组合）通过 NVLink 或 PCIe 连接进行并行计算，对硬件和技术的要求超级高。

五、下载和运行模型：一句命令搞定

选好模型后，列如你想用 deepseek-r1:7b，就直接在命令行中输入：

ollama run deepseek-r1:7b

第一次运行会自动下载模型文件（可能需要几分钟到几十分钟，取决于你的网速和模型大小）。完成后，你会看到命令行中出现三个箭头 >>>，意味着模型已经加载好，你可以直接在这里打字跟它对话了！

试着输入一句你好，列如：

你好，你是谁？

模型就会回答你啦～如果响应速度还行，说明你的硬件扛得住！

3、用 Ollama 部署本地大模型

⚠️ 注意：运行过程中可以打开任务管理器看看 GPU/CPU 和内存使用情况，如果卡顿可以思考换更小模型。

六、更实用的用法：通过 API 接入你的应用

虽然命令行能聊天，但我们最终是要把模型接入到客服系统中去的。Ollama 支持 API 方式调用。

启动模型后，它默认会在本地开启一个服务（一般是 http://localhost:11434``），你可以用代码（列如 Python、Node.js）发送请求到这个地址，就能获得模型回复。

例如使用 curl 测试一下：

curl http://localhost:11434/api/generate -d  {
  "model": "deepseek-r1:7b",
  "prompt": "你好，请介绍你自己"
}

或者用 Python 写个简单的调用示例：

import requests

response = requests.post(
    "http://localhost:11434/api/generate",
    json={
        "model": "deepseek-r1:7b",
        "prompt": "请问你们客服工作时间是？"
    }
)
print(response.json()["response"])

这样你就可以把大模型集成到你自己的客服系统或者应用中啦！

常见问题和小贴士

下载慢怎么办？ Ollama 目前还没国内镜像，如果下载慢可以尝试开代理或耐心等待一下。
跑模型时显存爆了？ 换更小的模型（列如从 7B 换成 1.5B），或者关闭一些其他吃显存的软件。
模型文件存在哪里？ 一般在 C:Users<你的用户名>.ollamamodels（Windows）或 ~/.ollama/models（Mac/Linux）

如果有问题欢迎在评论区交流～我也会持续分享更多从 0 到 1 搭建 AI 应用的实战内容。下次我们会讲如何用 API 接入业务数据，让模型变得更“懂你”！

全部评论(0)

上一篇：Ollama 玩转免费开源大模型！
下一篇：mysql 202501字符串转换成日期格式

真快激活码

店铺

推荐商品