貌似很拉跨,一个7B的模型3090显存都不够载入,要是不安装它推荐的加速包,速度慢的像狗。
貌似很拉跨,一个7B的模型3090显存都不够载入,要是不安装它推荐的加速包,速度慢的像狗。
这是目前开源模型性能最好的了
速度确实有点慢,相比我们内部框架慢了10倍左右,目前还在看HF版本的原因。
3090完全载入完全没问题的。是不是没开bf16?试下
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-7B-Chat", device_map="auto", trust_remote_code=True, bf16=True).eval()
3090完全没问题啊
简单乘法: 4 (float32) * 7B = 28G > 24G. 如果用fp16的话是 2 * 7 = 14G < 24g就可以加载了
默认的慢也是正常的, 你用的是transformer的库, 和模型没关系。
3090 可以换一下A100或者H100 就快了
似乎只能用一个CPU线程,这可能是慢的主要原因吧
这是目前开源模型性能最好的了
性能最好的是GLM2-6B吧
性能最好的中文模型听说是百川的
用vllm加速跑的飞快
用vllm加速跑的飞快
请问vllm加速测试在什么样的GPU上面呀?
3090没问题,刚试了测试程序,4bit用40%RAM, 8bit用50%RAM,不调用bitsandbytes用70%RAM左右,速度很快
用vllm加速跑的飞快
请问vllm加速测试在什么样的GPU上面呀?
我是在A100上测的哈
4bit版貌似 11G 够了
参看在T4 small上运行的 https://huggingface.co./spaces/mikeee/qwen-7b-chat
确实很占显存,在单张teslav100上分别运行chatglm2-6b和qwen-7b,输入长模板进行问答,qwen会报显存不够的错误。
3090完全载入完全没问题的。是不是没开bf16?试下
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-7B-Chat", device_map="auto", trust_remote_code=True, bf16=True).eval()
我之前测试3090加载推理也没有问题,但是微调没跑得起来,这个有跑过微调吗,需要多大的显存? max-length: 1024, bs: 1