奈々原風子 发布于周日 04:14 分享 发布于周日 04:14 (已修改) 只有8G显存就去挑战32B模型,大部分负担都在内存吧 这样速度自然很难快得起来,想提高速度还是要用显存尽可能整个容纳 之前风子用Qwen 14B模型平均回复速度大约在20~40秒左右(看具体情况) 框架是oobabooga 周日 04:20,由奈々原風子修改 链接到点评
推荐贴