拼命加载中 ...

近段时间大家在网上见到AI这个关键词的频率越来越高了，实际上AI在生产与创作领域已经有相当广泛的应用，视频和照片编辑、图片素材生成、视频超分、添加字幕以及翻译、视频会议、起草文档和PPT、数据分析和解读甚至编程等应用在AI助力下都可大幅提升效率。而对于个人用户来说，把这些工作用的软件工具都剔除后，最有用的应该就是LLM聊天机器人了，运用得当的话它可比传统搜索引擎强多了，可成为你的得力助手。

其实想体验LLM聊天机器人最简单的方式是直接用线上的，现在国内有许多类似的产品，比如阿里的通义千问、百度的文心一言等等，功能都挺齐全的，我最初也是从这些开始上手的，不过在线的功能始终还是会涉及私密性的问题，所以我就开始着手研究本地部署的聊天机器人。

NVIDIA Chat RTX上手体验

最开始尝试的其实是NVIDIA的Chat RTX，这软件NVIDIA刚对它进行了更新，旧版其实挺不好用的，只内置了两个英文的LLM，新的版本加入了智谱AI的ChatGLM3这个中文LLM的支持，同时还支持语音输入和图像搜索功能。

最新版ChatRTX的版本号升级到0.3，新版的安装包从36.2GB一下子减少到11.6GB，原因是现在里面只自带了一个Mistral 7B的模型，而原本还有个Llama2 13B的模型。

新版ChatRTX长这样的，可以看到多了个增加新模型的功能

但这并不是可以随意添加模型的意思，而是可选择下载NVIDIA编译过的模型，Llama2 13B现在搬到了这里，此外还新增了ChatGLM 3 6B和Gemma 7B这两个模型的支持，那个CLIP则是图片搜索用的模型，想要下载哪个的话选中它然后点旁边的下载即可。

模型的下载是不需要工具的，你可以在旁边的命令行窗口中看到下载速度相当快。

下载完之后会提醒你模型可安装了，这里你要手动点击安装，需要注意的是到了安装这步就需要工具了，因为安装过程会在Hugging Face下载部分文件，不用工具会导致安装失败。

安装完之后就可以和机器人聊天了，我们下载的这个ChatGLM 3 6B由于是个小模型，而平台使用的是影驰RTX 4070 Ti SUPER 星曜 OC显卡，可见显存占用还不到6GB，所以显存容量超过8GB的RTX 30/40系显卡都可使用，应用范围还是很广的，当然那些13B以上的模型就得用12GB显存以上的显卡了。

影驰RTX 4070 Ti SUPER 星曜 OC

ChatRTX跑的是NVIDIA TensorRT-LLM，效率其实是要比其他跑CUDA的软件快不少的，但我使用的时候发现这机器人聊天时没有联系上下文功能，这点体验就不太好。

最后要说的是NVIDIA ChatRTX是可以手动添加模型，但过程相当麻烦，要相当多的准备功夫，而且大部分都要在命令行里面操作，没相关的基础知识的话估计会相当的头大，这里我就不展开说了

Ollama搭建聊天机器人简单教程

随后我就去改去尝试Ollama，这是一个开源的大型语言模型服务工具，可帮助用户快速在本地运行大语言模型。大家可以访问Ollama官网下载该软件，软件支持macOC、Linux和Windows系统，这里我们选择的是Windows平台，软件的安装过程没啥好讲的，根据提示下一步就行。

安装完成之后有个地方是可能需要改的，由于Ollama的默认模型安装位置是在C盘用户文件夹下的，如果需要改位置的话就得去改环境变量，具体位置在系统属性=》高级=》环境变量，在系统变量那里选择新建一个叫“OLLAMA_DODELS”的条目，变量值填你指定的模组下载文件夹即可，这样Ollama算是设置好了。

当然了Ollama只是负载运行的，你还得套一层UI，不然你就得用命令行来和机器人聊天了。这里我就选择了使用Chrome的插件Page Assist，安装方法你在Chrome的应用商店搜这个插件就行，只不过这过程你需要用到梯子。

Page Assist并不需要做什么特殊设置，最多改下软件语言，有语音输入输出需求的还可以自行修改对应设置，它是支持网络搜索的，但目前搜索引擎只能选择Google和DuckDuckGo。

接下来就需要拉LLM模型了，最简单的方法其实是访问Ollama Library，这里有大量已经适配好的LLM模型，每个模型旁边都有清晰的标识，包括模型的详细信息和拉取命令，如果已经装了Page Assist的话会多出一个下载按键，想下载的话直接点那个键就行，没有的话就复制那行命令贴到命令行那里运行，解下来等待下载完毕。

你也可以复制指令到命令行下载

下载好后把Page Assist开打，在左上角选择你下好的模型，然后就可以问机器人各种问题了，Ollama会自动检测并使用可用的GPU资源，无需额外配置。

这里我们这里就下载千问1.5的14b模型来演示一下，拥有16GB显存的显卡跑14b模型没啥问题，8GB显存的显卡就只能跑7b或者8b的模型了，如果显卡有24GB显存的话可以试试34b的模型。

如果Ollama Library上没有你想要的模型的话，可自行到Hugging Face国内镜像站下载GGUF模型，一般来说在模型页面会教你怎么导入到Ollama中的，我们就把最新的Llama3中文微调模型导入到Ollama里面使用。

此外Page Assist现在还在测试知识库功能，可自行搭建本地的知识库，也可以把文档扔进去给AI分析归纳信息，支持pdf、csv、txt和md格式文件，单个条目可添加单个或多个文件。

使用时需要在输入窗口选择你需要用到的文档，所以软件的知识标题填别随便填，否则很容易混乱，此外使用本地知识时网络搜索就不可使用了。

对于消费级显卡来说，显存容量最多就24GB，单张卡能跑的模型大小是有限制的，但Ollama是支持多卡的，而且不需要用户额外的操作，把第二张显卡插上去，把驱动装好即可使用，这里我们就用了两张影驰RTX 4070 Ti SUPER 星曜 OC显卡运行yi1.5 34B的模型来演示一下。

当软件识别出单张显卡的显存容量不足矣运行当前选择的模型时，就会自动把负载平均分配给两张显卡，可以看到两张RTX 4070 Ti SUPER的显存都占用了12GB，GPU负载也是50%左右，实际上如果凑够48GB显存的话就能跑70/72B的模型，你可以选择两张RTX 4090或RTX 3090，也可选择三张16GB显存的显卡，实际上我们此前评测的影驰RTX 4060 Ti无双MAX显卡就非常适合这种AI工作站。

此外不同的显卡混搭是可以的，我们就尝试过可以用RTX 4070 Ti SUPER搭配RTX 4060 Ti 16GB使用，并没有出什么问题，不同显存容量的显卡混搭测试过也是可以的，测试过RTX 4090搭RTX 4080以及RTX 4070 Ti SUPER搭RTX 4070 SUPER这种组合，Ollama可以正常工作，并没有出什么问题。

全文总结

以上就是这段时间我们在研究本地部署的LLM大模型的体验，NVIDIA Chat RTX目前虽然比最早的体验版好用了不少，但依然处于很早期的状态，要自行添加指定模型比较麻烦，而且不能联系上下文这点体验并不好，不过想装来玩玩还是可以的，毕竟它的安装和使用都很简单，内置的小模型对显存容量需求也不高，8GB以上的显卡就可以跑。

Ollama搭配Page Assist这组合胜在够简单，比较适合刚接触这方面的新手，添加模型很方便，知识库和联网搜索功能都很好用，当然上限确实不是很高就是，而且功能也够用。

玩了几个星期的LLM大模型感觉最深的还是跑这些显存是真不太够用，跑些稍微大些的模型16GB显存就不够用，现在终于理解高端显卡配24GB显存的意图了，而且在游戏领域现在没啥用的多卡并联在这里也有很大作用，毕竟24GB显存跑INT4量化的34b模型基本就极限了，想跑70b级别的模型得把显存容量翻倍，此时你就有24GB*2或者16GB*3的选择，说真的三张RTX 4060 Ti 16GB比两张RTX 4090 D便宜多了，如果是此前的影驰RTX 4070 Ti SUPER 星曜 OC这种单槽卡搭配HEDT或者工作站主板使用，可以在单CPU平台上堆出拥有非常庞大的显存系统，当然RTX 4060 Ti和RTX 4090 D的算力差距巨大就是另一回事了。

这次介绍的Chat RTX和Ollama搭Page Assist组合都是比较初级的本地LLM大模型方案，在这方面我们本身也是在研究中，希望这篇教程对那些想尝试搭建本地聊天机器人的新手有帮助，有更好思路的欢迎在下面留言讨论。

已有 4 条评论，共 14 人参与。

请登录或快速注册后发表评论

quasar小学生 05-28 21:44 | 加入黑名单

A卡可以拉ollama/ollama:rocm镜像直接docker cli部署，或者用docker-compose连openwebui一起。7900xtx跑q4量化的千问14b每秒大几十tokens，显存占用60%。不知道Windows上能不能用
已有0次举报
支持(2) | 反对(0) | 举报 | 回复

4#

Strike编辑 05-28 11:18    | 加入黑名单

一刀流小依研究生
堆个4张p100啥的，跑得动吗？
05-27 19:51
支持(0)  |   反对(0)  |   举报  |   回复
跑是能跑的，只要能跑CUDA就行，就是速度如何而已，单个对话生成速度受单卡性能制约，多卡可提升并行性能。
已有0次举报
支持(1)  |   反对(0)  |   举报  |   回复

3#

一刀流小依研究生 05-27 19:51 | 加入黑名单

堆个4张p100啥的，跑得动吗？
已有0次举报
支持(0) | 反对(0) | 举报 | 回复

2#

恒温麾下一代宗师 05-27 18:19 | 加入黑名单

最好还是做到exe一键安装
已有2次举报
支持(0) | 反对(5) | 举报 | 回复

1#

提示：本页有 4 个评论因未通过审核而被隐藏

请登录后发表评论，若无帐号可快速注册，请留意评论奖罚说明。

Ollama运行本地LLM大模型简单教程：大显存很重要

Strike发布于 2024-5-27 17:39

NVIDIA Chat RTX上手体验

Ollama搭建聊天机器人简单教程

全文总结

quasar小学生 05-28 21:44 | 加入黑名单

A卡可以拉ollama/ollama:rocm镜像直接docker cli部署，或者用docker-compose连openwebui一起。7900xtx跑q4量化的千问14b每秒大几十tokens，显存占用60%。不知道Windows上能不能用

支持(2) | 反对(0) | 举报 | 回复

4#

Strike编辑 05-28 11:18 | 加入黑名单

一刀流小依研究生
堆个4张p100啥的，跑得动吗？
05-27 19:51
支持(0) | 反对(0) | 举报 | 回复
跑是能跑的，只要能跑CUDA就行，就是速度如何而已，单个对话生成速度受单卡性能制约，多卡可提升并行性能。

一刀流小依研究生

支持(1) | 反对(0) | 举报 | 回复

3#

一刀流小依研究生 05-27 19:51 | 加入黑名单

堆个4张p100啥的，跑得动吗？

支持(0) | 反对(0) | 举报 | 回复

2#

恒温麾下一代宗师 05-27 18:19 | 加入黑名单

最好还是做到exe一键安装

支持(0) | 反对(5) | 举报 | 回复

1#

Ollama运行本地LLM大模型简单教程：大显存很重要

Strike发布于 2024-5-27 17:39

NVIDIA Chat RTX上手体验

Ollama搭建聊天机器人简单教程

全文总结

quasar小学生 05-28 21:44 | 加入黑名单

A卡可以拉ollama/ollama:rocm镜像直接docker cli部署，或者用docker-compose连openwebui一起。7900xtx跑q4量化的千问14b每秒大几十tokens，显存占用60%。不知道Windows上能不能用

支持(2) | 反对(0) | 举报 | 回复

4#

Strike编辑 05-28 11:18 | 加入黑名单

一刀流小依 研究生堆个4张p100啥的，跑得动吗？ 05-27 19:51 支持(0) | 反对(0) | 举报 | 回复 跑是能跑的，只要能跑CUDA就行，就是速度如何而已，单个对话生成速度受单卡性能制约，多卡可提升并行性能。

一刀流小依 研究生

支持(1) | 反对(0) | 举报 | 回复

3#

一刀流小依研究生 05-27 19:51 | 加入黑名单

堆个4张p100啥的，跑得动吗？

支持(0) | 反对(0) | 举报 | 回复

2#

恒温麾下一代宗师 05-27 18:19 | 加入黑名单

最好还是做到exe一键安装

支持(0) | 反对(5) | 举报 | 回复

1#

一刀流小依研究生
堆个4张p100啥的，跑得动吗？
05-27 19:51
支持(0) | 反对(0) | 举报 | 回复
跑是能跑的，只要能跑CUDA就行，就是速度如何而已，单个对话生成速度受单卡性能制约，多卡可提升并行性能。

一刀流小依研究生