原创分享一些个人尝试大语言模型部署的经验

Vinda · 二月 22

前言

自从ChatGPT火起来后，我就有在尝试用各家的大语言模型辅助工作学习，但是基本以网页为主，本地化部署一直是没想过的事情。直到最近Deepseek-R1大火，恰逢过年，能有比较完整的时间段去不务正业，于是我也去试了试，期间记了不少的经验记录。刚好借这个机会，把分散的记录整理成贴，分享一下我作为一个小白，摸索AI模型本地化部署的一些经验，欢迎来交流心得体会呀。 :wn001:

虽说是经验分享，但其实我也是从其它大佬发布的教程学习怎么部署和应用，写这篇帖子的过程，也是重整我脑子里散乱知识的过程，参考过的教程链接我会放到最后。因为我本人不是计算机专业出身，所以会有很多的疏漏和不专业，还请多担待啦。

内容目录

剧透

规划了一个大致的内容目录，会逐步补完上面的内容，不过确实每天空闲时间有限（还有拖延症），为了不影响睡眠和第二天干活，我会分步更新。可能会鸽一点，不过完全鸽掉有点不可能。

目前的内容：
1. 使用Ollama作为框架，在个人电脑部署AI大语言模型的基本流程
    1. Ollama的下载安装
    2. Ollama相关的环境变量设置
    3. 使用Ollama部署大语言模型
        1. 从Ollama的Model库下载模型
        2. 导入本地下载好的模型
    4. Ollama常用命令的解释
2. 使用CherryStudio作为交互前端，将本地模型接入前端聊天的基本流程
    1. CherryStudio的下载安装
    2. 从Ollama接入CherryStudio，以及CherryStudio的基础设置
3. 从Huggingface的镜像站获取感兴趣的自定义模型
   1. 在hf-mirror上寻找并下载无审查模型
   2. 比较好用的模型
4. 本地模型+本地知识库尝试
   1. CherryStudio的知识库功能，以及基本使用方法
   2. 调整Modelfile内参数，解决部分RAG读取不全的问题
   3. 尝试利用知识库辅助创作
       1. 构筑适配知识库的设定处理助手、角色生成助手
       2. 构建知识库，以及挂载知识库后的测试
5. 杂项
   1. 模型大小的取舍
   2. 其它杂七杂八的笔记内容
6. 参考的教程（非常推荐去看视频，up主讲得更详细专业。觉得有用的话，务必去up主那里一键三连）

后续计划写内容：
1. 根据任务需求，在CherryStudio上，设计和构筑特定智能体用prompt
2. 以Chatbox、Sillytavern作为交互前端的使用基本流程
3. 调整modelfile内参数，解决部分问题的尝试
1. 模型已读乱回
2. 模型复读

正文

目前来说个人电脑部署的小模型，如果要用来工作，性能上还是不太行。就像Deepseek-R1的蒸馏小模型，至少14b起步才能不那么智障，最大的优点就是隐私性。还是需要明确自己的需求，如果没有什么必须的理由，接入API可能性价比和体验才是最好的。当然，都在这里了，大伙多少会有一些大胆的想法需要AI帮忙实现俺也一样，这个时候隐私性确实是最重要的。所以我会从部署模型、配置交互用的前端软件、挑选合适的模型，这几个方面分享我的经验。

我的设备是台笔记本：i7-11800H（8核16线程）+RTX3070（8G显存）+32G运行内存（3200MHz，16G×2双通道，ddr4）+Windows10系统。
应该属于比较主流的个人电脑配置，供大伙参考。

一、使用Ollama作为框架，在个人电脑部署AI大语言模型的基本流程

Ollama的使用还是比较方便的，尤其是有用过Docker和Conda的筒子，用这个起来应该是没有什么障碍。我做了几张一图流说明。

剧透

第一步：Ollama的下载安装

Ollama的下载，直接去官网下载就行，安装会默认安装到C盘，它并不会提供可视化的交互界面，完成后可以在右下角的图标栏看到它，也可以在命令行中输入指令验证。

第二步：Ollama相关的环境变量设置

设置环境变量，很重要的一点就是一定要先退出ollama，设置完成后，再重启软件才能生效。如果这时有打开的命令行窗口，最好也关掉，修改完后再重新打开。

这一步的目的是把模型的存储位置改到别的盘（默认是在C盘），一方面是节省系统盘空间，另一方面也能减少运行模型时对系统运行的影响。
我不太确定是用户变量还是系统变量起作用，所以在两个中都添加了一模一样的变量。~~（总之能用就行）~~

第三步：使用Ollama部署大语言模型

这里有两种方式，一种是从ollama的模型库里下载，可以直接用命令行执行；另一种是使用自定义的模型，通常是gguf文件。

从Ollama的Model库下载模型：

复制的命令行一般是run或者pull命令，ollama会自动从它的库内下载模型和配置文件。如果上一步没有改环境变量，默认是下载到C盘。

不过deepseek的模型好像都是Q4量化的，精度损失比较大，只能是合格水平，如果对回答的质量有比较高的要求，还是得下载更高量化的，比如Q6、Q8甚至F16的。

导入本地下载好的模型：

Modelfile文件就是我们导入模型的配置文件，影响模型的很多方面，这方面可以去找B站和贴吧里分享的各类模板，也可以参考ollama配置的模板，照着ollama下载模型时一并下下来的配置文件增加特定内容，就能调整回答的倾向，特别是有些模型的破甲就可以在这一步写入。

额外：Ollama常用命令的解释

配置好之后，ollama基本就是作为加载模型的后台软件，用的多的几条指令就是运行、停止、查看和移除，操作上还是很简单的。

二、使用CherryStudio作为交互前端，将本地模型接入前端聊天的基本流程

剧透

光配置好模型还不够，在用了两三个交互的软件后，我目前比较中意CherryStudio，虽然不如chatbox简便，但是有更多的灵活性，而且可以对很多的参数进行调整，对我是很够用了。

第一步：CherryStudio的下载安装

下载没什么说的，认准官方网址：https://cherry-ai.com/

主线路很慢就切换到备用线路，注意不要下错适配系统的安装包了。

最近似乎有假冒的网站，实在不确定的可以直接去他们的GitHub上下载：https://github.com/CherryHQ/cherry-studio

第二步：从Ollama接入CherryStudio，以及CherryStudio的基础设置

打字说不清楚，直接放图

CherryStudio内置了对ollama的支持，并且预填了API地址，所以很方便使用。

这里需要点击管理，将ollama中的模型添加到CherryStudio中，之后才能在对话中调出来。

必须先在管理里把模型选中，才能在后续的聊天中切换，这里的推理模型就是我们需要的，嵌入模型则是后续使用知识库功能时会用到的。

聊天界面中，可以看到②所在的位置，有三个分页，每个助手都有单独的话题页面，每个页面都可以新建多条话题，很方便管理。

这里是我最喜欢的功能，可以根据助手的功能定位，设置不同的模型、prompt、参数，设置好之后，每次只需要新建话题就可以。

分别让1.5b和32b的两个版本的deepseek小模型作七言绝句，在默认配置，对话及上下文完全一致的情况下，32b的d指导还是有实力的。

不过32b的占用太高，模型的大部分都是由内存负载，生成这首诗足足用了4分钟，着实太慢了。

三、从Huggingface的镜像站获取感兴趣的自定义模型

剧透

Huggingface的官网大陆不太好上，好在可以上镜像站。

试过无审查的7bQ8、14bQ4、14bQ8，32bQ4，感觉deepseek的蒸馏小模型文笔还是不够。直到有人推荐了这个作者的模型：

v1版本已经可以写比较好的小说了，发挥有时不太稳定，另外遇到长对话时还是会有重复问题，但确实是能用的了。推荐14bQ8的版本，我的电脑能有几个token的速度，F16的版本或许更好，但是电脑带不动了，总占用接近30G，一个字一个字地出还是太慢了。
现在作者在训练v2版本，一个亮点是v2版用的是7b的模型，对配置的要求会低不少。
此外还见有人推荐NM-Halide-12b（kobold限定）和saiga_nemo_12b这两个模型，后续可能会去试试。

~~先施工到这，明天继续~~

二月 22，由Vinda修改

Vinda · 二月 22

58 分钟前，mengjing说道:

DS能拿来本地写小黄书了没....我现在就关心这个用途而已

32b起步吧，而且对话的上下文太长就容易重复，或许你可以去看看deepsex，这个模型专门拿小说训练的，特化了小说和对话，14bQ8就有不错的文笔，重复问题少了一些，但还是存在，可以期待作者后续的版本。

Vinda · 二月 22

40 分钟前，萨卡说道:

又是ollama。。。可以是可以但速度不咋样

确实慢...一条回答至少几分钟，我听说lmstudio会好不少，还有kobold也有推荐的，或许会快一些？

Vinda · 二月 24

于 2025/2/23 于 AM4点08分，萨卡说道:

那不清楚。。首先要足够显存把模型全装进去才行。。3090用sglang的话12B模型一条简单的回答估计15秒内吧。

嗯。。。现在配置的显存太小了，好一点的模型装不下，速度上不来，毕竟走内存的速度比显存慢太多，得以后配新机的时候才能考虑大一些的模型了

Vinda · 二月 24

于 2025/2/23 于 PM12点14分，奈々原風子说道:

只有8G显存就去挑战32B模型，大部分负担都在内存吧

这样速度自然很难快得起来，想提高速度还是要用显存尽可能整个容纳

之前风子用Qwen 14B模型平均回复速度大约在20~40秒左右（看具体情况）

框架是oobabooga

是的，硬件上的限制太大了。我跑14b差不多内存和显存对半，32b的Q4就只能八二开的样子，暂时只能找找小模型有没有好用的了。

登入

原创分享一些个人尝试大语言模型部署的经验

只显示该作者

推荐贴

Vinda

前言

内容目录

正文

一、使用Ollama作为框架，在个人电脑部署AI大语言模型的基本流程

二、使用CherryStudio作为交互前端，将本地模型接入前端聊天的基本流程

三、从Huggingface的镜像站获取感兴趣的自定义模型

Vinda

Vinda

Vinda

Vinda

浏览

商店

我的详细信息

勋章与维姬

获取节操

我有疑问

重要消息

登入

原创 分享一些个人尝试大语言模型部署的经验

只显示该作者

推荐贴

前言

内容目录

正文

一、使用Ollama作为框架，在个人电脑部署AI大语言模型的基本流程

二、使用CherryStudio作为交互前端，将本地模型接入前端聊天的基本流程

三、从Huggingface的镜像站获取感兴趣的自定义模型

重要消息

原创分享一些个人尝试大语言模型部署的经验