你是不是也遇到过这样的情况:想用大模型搭建个智能客服系统,但又担心数据泄露、网络延迟,或者只是想在本机先调试测试?别担心,今天我就来带你一步步在本地电脑上部署属于你自己的大模型!无需深厚的技术背景,只要跟着做,30 分钟内就能搞定!

Ollama 是一个开源工具,专门用来在本地运行各种大型语言模型(列如 DeepSeek、千问、Mamba 等等)。你不用纠结环境配置、依赖安装,它都帮你封装好了,特别适合初学者或者快速原型开发。
🔍 官网在这里:Ollama 官方网站(打开直接点击下载就行~)
打开 Ollama 官网,点击页面上的 Download 按钮;

选择你的操作系统版本(这里以 Windows 为例),下载安装包;
双击安装,一路“下一步”就行——它自动装好,不用你选安装路径啥的;
安装完成后,打开命令行(Win+R 输入 cmd 回车),输入:
ollama
如果出现一屏说明文字,祝贺你,安装成功!

回到 Ollama 官网,点击 Models 标签,你会看到许多模型可选:
DeepSeek 系列(当前挺火的开源模型)
Qwen(阿里通义千问)
Mamba(一种更新架构的模型)
Llama3(Meta 开源)等等……
每个模型还有不同参数规模,列如:1.5B、7B、14B、70B 等。 这个“B”是“Billion”的意思,也就是 10 亿参数。参数越多,模型越机智,但对电脑要求也越高。
如果你不清楚该选哪个模型参数,可以参考这个提议:

补充说明与注意事项:
“以上”含义: “以上”或“+”表明这是最低起步要求。在实际部署中,尤其是希望获得更好性能(如更快的响应速度、同时处理多任务)时,超过该配置是必要且推荐的。
显存与推理速度: 显卡显存决定了模型能否运行。将模型完全加载到显存中会获得最快的推理速度。如果显存不足,可以通过系统内存和硬盘进行交换(Offloading),但这会显著降低运行速度。
量化技术: 通过量化(Quantization)技术(如将模型从 FP16 转换为 INT4),可以大幅降低对显存和内存的需求(例如,70B 模型经量化后可能只需单张 40GB 显卡即可运行),但一般会以轻微的性能损失为代价。
70B 模型: 该模型参数巨大,一般需要多张高端显卡(如 NVIDIA A100 / H100 80GB * 2,或 4090 24GB * 3 等组合)通过 NVLink 或 PCIe 连接进行并行计算,对硬件和技术的要求超级高。
选好模型后,列如你想用 deepseek-r1:7b,就直接在命令行中输入:
ollama run deepseek-r1:7b
第一次运行会自动下载模型文件(可能需要几分钟到几十分钟,取决于你的网速和模型大小)。 完成后,你会看到命令行中出现三个箭头 >>>,意味着模型已经加载好,你可以直接在这里打字跟它对话了!
试着输入一句你好,列如:
你好,你是谁?
模型就会回答你啦~如果响应速度还行,说明你的硬件扛得住!

⚠️ 注意:运行过程中可以打开任务管理器看看 GPU/CPU 和内存使用情况,如果卡顿可以思考换更小模型。
虽然命令行能聊天,但我们最终是要把模型接入到客服系统中去的。Ollama 支持 API 方式调用。
启动模型后,它默认会在本地开启一个服务(一般是 http://localhost:11434``),你可以用代码(列如 Python、Node.js)发送请求到这个地址,就能获得模型回复。
例如使用 curl 测试一下:
curl http://localhost:11434/api/generate -d  {
  "model": "deepseek-r1:7b",
  "prompt": "你好,请介绍你自己"
}或者用 Python 写个简单的调用示例:
import requests
response = requests.post(
    "http://localhost:11434/api/generate",
    json={
        "model": "deepseek-r1:7b",
        "prompt": "请问你们客服工作时间是?"
    }
)
print(response.json()["response"])这样你就可以把大模型集成到你自己的客服系统或者应用中啦!
下载慢怎么办? Ollama 目前还没国内镜像,如果下载慢可以尝试开代理或耐心等待一下。
跑模型时显存爆了? 换更小的模型(列如从 7B 换成 1.5B),或者关闭一些其他吃显存的软件。
模型文件存在哪里? 一般在 C:Users<你的用户名>.ollamamodels(Windows)或 ~/.ollama/models(Mac/Linux)
如果有问题欢迎在评论区交流~我也会持续分享更多从 0 到 1 搭建 AI 应用的实战内容。 下次我们会讲如何用 API 接入业务数据,让模型变得更“懂你”!
 ¥108.00
 
                ¥108.00
            【绝版书清仓】神雕侠侣 全4册 朗声新修版2013 金庸武侠小说射雕英雄传三部曲经典文学作品集 金庸全集(9-12)玄幻武侠男生小说
 ¥125.00
 
                ¥125.00
            笑傲江湖青春版(全4册) 金庸武侠小说作品集赠天龙八部试读本 朗声图书 文学武侠小说 天龙八部射雕英雄传神雕侠侣倚天屠龙记
 ¥109.00
 
                ¥109.00
            射雕英雄传原著正版 金庸武侠小说全集4册青少版未删节完整版 广州出版社 适合中小学生阅读书籍射雕三部曲之一神雕侠侣倚天屠龙记
 ¥1140.00
 
                ¥1140.00
            现货 射雕三部曲亮彩映象修订版 射雕英雄传 神雕侠侣 倚天屠龙记 港台原版 金庸 远流出版 武侠小说【中商原版】
C#基于UDP协议的Socket通信整套源码(包括发送端和接收端)
![现货 【中商原版】香港明河社原装进口[港台原版武侠小说全套集]神鵰侠侣(一至四)精金庸](https://pic.songma.com/tmimg/20230514/66fec63e511a4a85a1df04146d70efd4-1.jpg) ¥425.00
 
                ¥425.00
            现货 【中商原版】香港明河社原装进口[港台原版武侠小说全套集]神鵰侠侣(一至四)精金庸