CUDA out off memory.

#6
by datnt114 - opened

Khi chạy thử model với rtx 4090, khi load model mất 16gb nhưng với câu hỏi "nêu tiểu sử của bác Hồ" thì bị "CUDA out of memory".

image.png

Không biết có cách nào để không bị out off memory với dùng ít RAM GPU không ạ.

Cảm ơn nhóm

Vietnamese Mistral org

Hi bạn @datnt114 , với limited resource, bạn có thể tham khảo một số cách sau để chạy inference: set max length for the conversation, quantization, flash attention, offload cpu, dùng 1 số thư viện để optimize graph computation,...

chiennv changed discussion status to closed
chiennv changed discussion status to open
Vietnamese Mistral org

hi @datnt114 , card 4090 khá nhiều vram nên bị OOM sau 1 prompt cũng khá lạ. Bạn thử copy code lên để mọi người cùng xem nhé. Mình nghĩ bật flash attention 2 lên sẽ là cách giải quyết tốt nhất

Khi load model đâu tiên thì em mất 16 gb ram:

image.png

à vâng sau khi em check lại thì không bị OOM vẫn chỉ cần 16gb, chắc hôm trước lúc em chạy thì có người vào train trên cùng 1 server.

datnt114 changed discussion status to closed

Sign up or log in to comment