几个月前在自己的笔记本上成功地部署了deepseek R1 14B(ollama方式)。
我的笔记本硬件信息:
CPU:特尔® 酷睿™ i9-14900HX
内存:32 GB DDR5-5600 MHz 内存
显卡:4060 笔记本电脑 GPU(8G显存)
最后的结论是在当时的Ollama环境下,无法稳定支持10G以上的大模型文件。
不过最近看到Ollama有升级了,而且对Gemma3和Deepseek都有优化。
我不禁又开始蠢蠢欲动,准备挑战一下更大模型的看看效果。说干就干。
第一升级ollama, 过程省略。
然后马上下了自己心心念念的两个大尺寸模型,谷歌的gemma3 27B满血版(17G),和通义千问最新的QWQ 32B 满血推理模型(20G)。
直接运行,装载速度还可以。
ollama run qwq(19G)

ollama run gemma3:27b(17G)

赶紧运行测试,居然都可以跑,只是速度上慢一些。
这样,本地部署的大模型包括高端满血版(gemma3 27b和qwq 32b),两个都是满血版。
另外还有四个中端模型,包括(gemma2 12b,deepseek-coder-v2 16b, qwen2.5-coder 14b 和deepseek r1 14b ),这四个速度相对比较快,是我平时的主打版本。如果能力不足或者无法完成计算的时候,在寻求两个高级版的大模型。

测试过程,看这样一道推理题:有多少个四位数,其最后一位数字是前两位数字之和?
我们分别提交到以下几个大模型,做下输出速度对比。
窗口比较小,字体不太清楚,主要是对比一下速度就行了。目测的话,其中左上的gemma 12b的速度大约为5-6token每秒,gemma 27b的速度大约为1-2token,勉强可以接受。
两个模型的输出结果都是正确的。
发现目前的大模型有在向着消费显卡靠拢意思,这两个大模型qwq 32b 和gemma 27b都不超过20G,看来这个尺寸,是目前各个厂家锚定的基准目标之一。结果也令人欣喜,我的上不了台面的N家的4060移动版,居然可以磕磕绊绊跑起来了,祝贺一下!
有兴趣的小伙伴可以尝试一下,看看最近的ollama和gemma等更新,能不能让你的硬件再上一层楼。