转跳到内容

分享一些个人尝试大语言模型部署的经验


只显示该作者

只有该作者的内容显示中。 返回到主题

推荐贴

前言

自从ChatGPT火起来后,我就有在尝试用各家的大语言模型辅助工作学习,但是基本以网页为主,本地化部署一直是没想过的事情。直到最近Deepseek-R1大火,恰逢过年,能有比较完整的时间段去不务正业,于是我也去试了试,期间记了不少的经验记录。刚好借这个机会,把分散的记录整理成贴,分享一下我作为一个小白,摸索AI模型本地化部署的一些经验,欢迎来交流心得体会呀。:wn001:

虽说是经验分享,但其实我也是从其它大佬发布的教程学习怎么部署和应用,写这篇帖子的过程,也是重整我脑子里散乱知识的过程,参考过的教程链接我会放到最后。因为我本人不是计算机专业出身,所以会有很多的疏漏和不专业,还请多担待啦。


内容目录

剧透

规划了一个大致的内容目录,会逐步补完上面的内容,不过确实每天空闲时间有限(还有拖延症),为了不影响睡眠和第二天干活,我会分步更新。可能会鸽一点,不过完全鸽掉有点不可能。

目前的内容:  
1. 使用Ollama作为框架,在个人电脑部署AI大语言模型的基本流程  
    1. Ollama的下载安装  
    2. Ollama相关的环境变量设置  
    3. 使用Ollama部署大语言模型  
        1. 从Ollama的Model库下载模型  
        2. 导入本地下载好的模型  
    4. Ollama常用命令的解释  
2. 使用CherryStudio作为交互前端,将本地模型接入前端聊天的基本流程  
    1. CherryStudio的下载安装  
    2. 从Ollama接入CherryStudio,以及CherryStudio的基础设置
3. 从Huggingface的镜像站获取感兴趣的自定义模型
    1. 在hf-mirror上寻找并下载无审查模型
    2. 比较好用的模型
4. 本地模型+本地知识库尝试
    1. CherryStudio的知识库功能,以及基本使用方法
    2. 调整Modelfile内参数,解决部分RAG读取不全的问题
    3. 尝试利用知识库辅助创作
        1. 构筑适配知识库的设定处理助手、角色生成助手
        2. 构建知识库,以及挂载知识库后的测试
5. 杂项
    1. 模型大小的取舍
    2. 其它杂七杂八的笔记内容
6. 参考的教程(非常推荐去看视频,up主讲得更详细专业。觉得有用的话,务必去up主那里一键三连)

后续计划写内容:
1. 根据任务需求,在CherryStudio上,设计和构筑特定智能体用prompt
2. 以Chatbox、Sillytavern作为交互前端的使用基本流程
3. 调整modelfile内参数,解决部分问题的尝试
    1. 模型已读乱回
    2. 模型复读


正文

目前来说个人电脑部署的小模型,如果要用来工作,性能上还是不太行。就像Deepseek-R1的蒸馏小模型,至少14b起步才能不那么智障,最大的优点就是隐私性。还是需要明确自己的需求,如果没有什么必须的理由,接入API可能性价比和体验才是最好的。当然,都在这里了,大伙多少会有一些大胆的想法需要AI帮忙实现俺也一样,这个时候隐私性确实是最重要的。所以我会从部署模型、配置交互用的前端软件、挑选合适的模型,这几个方面分享我的经验。

我的设备是台笔记本:i7-11800H(8核16线程)+RTX3070(8G显存)+32G运行内存(3200MHz,16G×2双通道,ddr4)+Windows10系统。
应该属于比较主流的个人电脑配置,供大伙参考。


一、使用Ollama作为框架,在个人电脑部署AI大语言模型的基本流程  

Ollama的使用还是比较方便的,尤其是有用过Docker和Conda的筒子,用这个起来应该是没有什么障碍。我做了几张一图流说明。

剧透

第一步:Ollama的下载安装

Step1_Ollama.png

Ollama的下载,直接去官网下载就行,安装会默认安装到C盘,它并不会提供可视化的交互界面,完成后可以在右下角的图标栏看到它,也可以在命令行中输入指令验证。

第二步:Ollama相关的环境变量设置

Step2_Ollama.png

设置环境变量,很重要的一点就是一定要先退出ollama,设置完成后,再重启软件才能生效。如果这时有打开的命令行窗口,最好也关掉,修改完后再重新打开。

这一步的目的是把模型的存储位置改到别的盘(默认是在C盘),一方面是节省系统盘空间,另一方面也能减少运行模型时对系统运行的影响。
我不太确定是用户变量还是系统变量起作用,所以在两个中都添加了一模一样的变量。(总之能用就行)

第三步:使用Ollama部署大语言模型

这里有两种方式,一种是从ollama的模型库里下载,可以直接用命令行执行;另一种是使用自定义的模型,通常是gguf文件。

从Ollama的Model库下载模型:

Step3-1_Ollama.png

复制的命令行一般是run或者pull命令,ollama会自动从它的库内下载模型和配置文件。如果上一步没有改环境变量,默认是下载到C盘。

不过deepseek的模型好像都是Q4量化的,精度损失比较大,只能是合格水平,如果对回答的质量有比较高的要求,还是得下载更高量化的,比如Q6、Q8甚至F16的。

导入本地下载好的模型 :
Step3-2_Ollama.png

Modelfile文件就是我们导入模型的配置文件,影响模型的很多方面,这方面可以去找B站和贴吧里分享的各类模板,也可以参考ollama配置的模板,照着ollama下载模型时一并下下来的配置文件增加特定内容,就能调整回答的倾向,特别是有些模型的破甲就可以在这一步写入。 

额外:Ollama常用命令的解释

Step4_Ollama.png

配置好之后,ollama基本就是作为加载模型的后台软件,用的多的几条指令就是运行、停止、查看和移除,操作上还是很简单的。


 

二、使用CherryStudio作为交互前端,将本地模型接入前端聊天的基本流程

剧透

光配置好模型还不够,在用了两三个交互的软件后,我目前比较中意CherryStudio,虽然不如chatbox简便,但是有更多的灵活性,而且可以对很多的参数进行调整,对我是很够用了。

第一步:CherryStudio的下载安装  

Step1_cherrystudio.png

下载没什么说的,认准官方网址:https://cherry-ai.com/

主线路很慢就切换到备用线路,注意不要下错适配系统的安装包了。

最近似乎有假冒的网站,实在不确定的可以直接去他们的GitHub上下载:https://github.com/CherryHQ/cherry-studio

第二步:从Ollama接入CherryStudio,以及CherryStudio的基础设置

打字说不清楚,直接放图

Step2_CherryStudio_2.png

CherryStudio内置了对ollama的支持,并且预填了API地址,所以很方便使用。

这里需要点击管理,将ollama中的模型添加到CherryStudio中,之后才能在对话中调出来。

Step2_CherryStudio_3.png

必须先在管理里把模型选中,才能在后续的聊天中切换,这里的推理模型就是我们需要的,嵌入模型则是后续使用知识库功能时会用到的。

Step2_CherryStudio_4.png

聊天界面中,可以看到②所在的位置,有三个分页,每个助手都有单独的话题页面,每个页面都可以新建多条话题,很方便管理。
Step2_CherryStudio_5.png

这里是我最喜欢的功能,可以根据助手的功能定位,设置不同的模型、prompt、参数,设置好之后,每次只需要新建话题就可以。

7.png
分别让1.5b和32b的两个版本的deepseek小模型作七言绝句,在默认配置,对话及上下文完全一致的情况下,32b的d指导还是有实力的。
8.png

不过32b的占用太高,模型的大部分都是由内存负载,生成这首诗足足用了4分钟,着实太慢了。

 


 

三、从Huggingface的镜像站获取感兴趣的自定义模型

剧透

Huggingface的官网大陆不太好上,好在可以上镜像站。

Snipaste_2025-02-23_02-57-21.png

试过无审查的7bQ8、14bQ4、14bQ8,32bQ4,感觉deepseek的蒸馏小模型文笔还是不够。直到有人推荐了这个作者的模型:

Snipaste_2025-02-23_02-57-07.png

v1版本已经可以写比较好的小说了,发挥有时不太稳定,另外遇到长对话时还是会有重复问题,但确实是能用的了。推荐14bQ8的版本,我的电脑能有几个token的速度,F16的版本或许更好,但是电脑带不动了,总占用接近30G,一个字一个字地出还是太慢了。
现在作者在训练v2版本,一个亮点是v2版用的是7b的模型,对配置的要求会低不少。
此外还见有人推荐NM-Halide-12b(kobold限定)和saiga_nemo_12b这两个模型,后续可能会去试试。

 

 


 

 

先施工到这,明天继续

,由Vinda修改
注释
IOPU IOPU 20.00节操 写得太好了
  • 喜欢(+1) 1
  • 感谢(+1) 1
  • 顶(+1) 2
链接到点评
58 分钟前,mengjing说道:

DS能拿来本地写小黄书了没....我现在就关心这个用途而已:2056385457_SSA(5):

32b起步吧,而且对话的上下文太长就容易重复,或许你可以去看看deepsex,这个模型专门拿小说训练的,特化了小说和对话,14bQ8就有不错的文笔,重复问题少了一些,但还是存在,可以期待作者后续的版本。

链接到点评
于 2025/2/23 于 AM4点08分,萨卡说道:

那不清楚。。首先要足够显存把模型全装进去才行。。3090用sglang的话12B模型一条简单的回答估计15秒内吧。

嗯。。。现在配置的显存太小了,好一点的模型装不下,速度上不来,毕竟走内存的速度比显存慢太多,得以后配新机的时候才能考虑大一些的模型了

链接到点评
于 2025/2/23 于 PM12点14分,奈々原風子说道:

:NEKOMIMI_PARADISE_27:

只有8G显存就去挑战32B模型,大部分负担都在内存吧

这样速度自然很难快得起来,想提高速度还是要用显存尽可能整个容纳

之前风子用Qwen 14B模型平均回复速度大约在20~40秒左右(看具体情况)

框架是oobabooga

是的,硬件上的限制太大了。我跑14b差不多内存和显存对半,32b的Q4就只能八二开的样子,暂时只能找找小模型有没有好用的了。

链接到点评
×
×
  • 新建...

重要消息

为使您更好地使用该站点,请仔细阅读以下内容: 使用条款