fix github issue for quantize
#49
by
zRzRzRzRzRzRzR
- opened
No description provided.
fix github issue of #1059 #1052
zRzRzRzRzRzRzR
changed pull request status to
merged
新版本 量化文件,似乎优化掉了一个功能。
早先的版本是支持: gpu 无法一次性载入全部,但是CPU 可以一次载入全部时,可以用cpu 载入全部,量化后,gpu进行推理。
https://huggingface.co./THUDM/chatglm3-6b/discussions/47#663cb3c8a4d7c8c9038c5312