Vinda 发布于周六 16:51 分享 发布于周六 16:51 (已修改) 前言 自从ChatGPT火起来后,我就有在尝试用各家的大语言模型辅助工作学习,但是基本以网页为主,本地化部署一直是没想过的事情。直到最近Deepseek-R1大火,恰逢过年,能有比较完整的时间段去不务正业,于是我也去试了试,期间记了不少的经验记录。刚好借这个机会,把分散的记录整理成贴,分享一下我作为一个小白,摸索AI模型本地化部署的一些经验,欢迎来交流心得体会呀。 虽说是经验分享,但其实我也是从其它大佬发布的教程学习怎么部署和应用,写这篇帖子的过程,也是重整我脑子里散乱知识的过程,参考过的教程链接我会放到最后。因为我本人不是计算机专业出身,所以会有很多的疏漏和不专业,还请多担待啦。 内容目录 剧透 规划了一个大致的内容目录,会逐步补完上面的内容,不过确实每天空闲时间有限(还有拖延症),为了不影响睡眠和第二天干活,我会分步更新。可能会鸽一点,不过完全鸽掉有点不可能。 目前的内容: 1. 使用Ollama作为框架,在个人电脑部署AI大语言模型的基本流程 1. Ollama的下载安装 2. Ollama相关的环境变量设置 3. 使用Ollama部署大语言模型 1. 从Ollama的Model库下载模型 2. 导入本地下载好的模型 4. Ollama常用命令的解释 2. 使用CherryStudio作为交互前端,将本地模型接入前端聊天的基本流程 1. CherryStudio的下载安装 2. 从Ollama接入CherryStudio,以及CherryStudio的基础设置 3. 从Huggingface的镜像站获取感兴趣的自定义模型 1. 在hf-mirror上寻找并下载无审查模型 2. 比较好用的模型 4. 本地模型+本地知识库尝试 1. CherryStudio的知识库功能,以及基本使用方法 2. 调整Modelfile内参数,解决部分RAG读取不全的问题 3. 尝试利用知识库辅助创作 1. 构筑适配知识库的设定处理助手、角色生成助手 2. 构建知识库,以及挂载知识库后的测试 5. 杂项 1. 模型大小的取舍 2. 其它杂七杂八的笔记内容 6. 参考的教程(非常推荐去看视频,up主讲得更详细专业。觉得有用的话,务必去up主那里一键三连) 后续计划写内容: 1. 根据任务需求,在CherryStudio上,设计和构筑特定智能体用prompt 2. 以Chatbox、Sillytavern作为交互前端的使用基本流程 3. 调整modelfile内参数,解决部分问题的尝试 1. 模型已读乱回 2. 模型复读 正文 目前来说个人电脑部署的小模型,如果要用来工作,性能上还是不太行。就像Deepseek-R1的蒸馏小模型,至少14b起步才能不那么智障,最大的优点就是隐私性。还是需要明确自己的需求,如果没有什么必须的理由,接入API可能性价比和体验才是最好的。当然,都在这里了,大伙多少会有一些大胆的想法需要AI帮忙实现俺也一样,这个时候隐私性确实是最重要的。所以我会从部署模型、配置交互用的前端软件、挑选合适的模型,这几个方面分享我的经验。 我的设备是台笔记本:i7-11800H(8核16线程)+RTX3070(8G显存)+32G运行内存(3200MHz,16G×2双通道,ddr4)+Windows10系统。 应该属于比较主流的个人电脑配置,供大伙参考。 一、使用Ollama作为框架,在个人电脑部署AI大语言模型的基本流程 Ollama的使用还是比较方便的,尤其是有用过Docker和Conda的筒子,用这个起来应该是没有什么障碍。我做了几张一图流说明。 剧透 第一步:Ollama的下载安装 Ollama的下载,直接去官网下载就行,安装会默认安装到C盘,它并不会提供可视化的交互界面,完成后可以在右下角的图标栏看到它,也可以在命令行中输入指令验证。 第二步:Ollama相关的环境变量设置 设置环境变量,很重要的一点就是一定要先退出ollama,设置完成后,再重启软件才能生效。如果这时有打开的命令行窗口,最好也关掉,修改完后再重新打开。 这一步的目的是把模型的存储位置改到别的盘(默认是在C盘),一方面是节省系统盘空间,另一方面也能减少运行模型时对系统运行的影响。 我不太确定是用户变量还是系统变量起作用,所以在两个中都添加了一模一样的变量。(总之能用就行) 第三步:使用Ollama部署大语言模型 这里有两种方式,一种是从ollama的模型库里下载,可以直接用命令行执行;另一种是使用自定义的模型,通常是gguf文件。 从Ollama的Model库下载模型: 复制的命令行一般是run或者pull命令,ollama会自动从它的库内下载模型和配置文件。如果上一步没有改环境变量,默认是下载到C盘。 不过deepseek的模型好像都是Q4量化的,精度损失比较大,只能是合格水平,如果对回答的质量有比较高的要求,还是得下载更高量化的,比如Q6、Q8甚至F16的。 导入本地下载好的模型 : Modelfile文件就是我们导入模型的配置文件,影响模型的很多方面,这方面可以去找B站和贴吧里分享的各类模板,也可以参考ollama配置的模板,照着ollama下载模型时一并下下来的配置文件增加特定内容,就能调整回答的倾向,特别是有些模型的破甲就可以在这一步写入。 额外:Ollama常用命令的解释 配置好之后,ollama基本就是作为加载模型的后台软件,用的多的几条指令就是运行、停止、查看和移除,操作上还是很简单的。 二、使用CherryStudio作为交互前端,将本地模型接入前端聊天的基本流程 剧透 光配置好模型还不够,在用了两三个交互的软件后,我目前比较中意CherryStudio,虽然不如chatbox简便,但是有更多的灵活性,而且可以对很多的参数进行调整,对我是很够用了。 第一步:CherryStudio的下载安装 下载没什么说的,认准官方网址:https://cherry-ai.com/ 主线路很慢就切换到备用线路,注意不要下错适配系统的安装包了。 最近似乎有假冒的网站,实在不确定的可以直接去他们的GitHub上下载:https://github.com/CherryHQ/cherry-studio 第二步:从Ollama接入CherryStudio,以及CherryStudio的基础设置 打字说不清楚,直接放图 CherryStudio内置了对ollama的支持,并且预填了API地址,所以很方便使用。 这里需要点击管理,将ollama中的模型添加到CherryStudio中,之后才能在对话中调出来。 必须先在管理里把模型选中,才能在后续的聊天中切换,这里的推理模型就是我们需要的,嵌入模型则是后续使用知识库功能时会用到的。 聊天界面中,可以看到②所在的位置,有三个分页,每个助手都有单独的话题页面,每个页面都可以新建多条话题,很方便管理。 这里是我最喜欢的功能,可以根据助手的功能定位,设置不同的模型、prompt、参数,设置好之后,每次只需要新建话题就可以。 分别让1.5b和32b的两个版本的deepseek小模型作七言绝句,在默认配置,对话及上下文完全一致的情况下,32b的d指导还是有实力的。 不过32b的占用太高,模型的大部分都是由内存负载,生成这首诗足足用了4分钟,着实太慢了。 三、从Huggingface的镜像站获取感兴趣的自定义模型 剧透 Huggingface的官网大陆不太好上,好在可以上镜像站。 试过无审查的7bQ8、14bQ4、14bQ8,32bQ4,感觉deepseek的蒸馏小模型文笔还是不够。直到有人推荐了这个作者的模型: v1版本已经可以写比较好的小说了,发挥有时不太稳定,另外遇到长对话时还是会有重复问题,但确实是能用的了。推荐14bQ8的版本,我的电脑能有几个token的速度,F16的版本或许更好,但是电脑带不动了,总占用接近30G,一个字一个字地出还是太慢了。 现在作者在训练v2版本,一个亮点是v2版用的是7b的模型,对配置的要求会低不少。 此外还见有人推荐NM-Halide-12b(kobold限定)和saiga_nemo_12b这两个模型,后续可能会去试试。 先施工到这,明天继续 周六 19:28,由Vinda修改 注释 IOPU 20.00节操 写得太好了 1 1 2 链接到点评
Vinda 发布于周六 18:42 作者 分享 发布于周六 18:42 58 分钟前,mengjing说道: DS能拿来本地写小黄书了没....我现在就关心这个用途而已 32b起步吧,而且对话的上下文太长就容易重复,或许你可以去看看deepsex,这个模型专门拿小说训练的,特化了小说和对话,14bQ8就有不错的文笔,重复问题少了一些,但还是存在,可以期待作者后续的版本。 链接到点评
Vinda 发布于周六 18:44 作者 分享 发布于周六 18:44 40 分钟前,萨卡说道: 又是ollama。。。可以是可以但速度不咋样 确实慢...一条回答至少几分钟,我听说lmstudio会好不少,还有kobold也有推荐的,或许会快一些? 链接到点评
Vinda 发布于周一 15:24 作者 分享 发布于周一 15:24 于 2025/2/23 于 AM4点08分,萨卡说道: 那不清楚。。首先要足够显存把模型全装进去才行。。3090用sglang的话12B模型一条简单的回答估计15秒内吧。 嗯。。。现在配置的显存太小了,好一点的模型装不下,速度上不来,毕竟走内存的速度比显存慢太多,得以后配新机的时候才能考虑大一些的模型了 链接到点评
Vinda 发布于周一 15:34 作者 分享 发布于周一 15:34 于 2025/2/23 于 PM12点14分,奈々原風子说道: 只有8G显存就去挑战32B模型,大部分负担都在内存吧 这样速度自然很难快得起来,想提高速度还是要用显存尽可能整个容纳 之前风子用Qwen 14B模型平均回复速度大约在20~40秒左右(看具体情况) 框架是oobabooga 是的,硬件上的限制太大了。我跑14b差不多内存和显存对半,32b的Q4就只能八二开的样子,暂时只能找找小模型有没有好用的了。 链接到点评
推荐贴