CUDA out off memory.

by datnt114 - opened Feb 23, 2024

Feb 23, 2024

Khi chạy thử model với rtx 4090, khi load model mất 16gb nhưng với câu hỏi "nêu tiểu sử của bác Hồ" thì bị "CUDA out of memory".

Không biết có cách nào để không bị out off memory với dùng ít RAM GPU không ạ.

Cảm ơn nhóm

chiennv

Vietnamese Mistral org Feb 24, 2024

Hi bạn @datnt114 , với limited resource, bạn có thể tham khảo một số cách sau để chạy inference: set max length for the conversation, quantization, flash attention, offload cpu, dùng 1 số thư viện để optimize graph computation,...

chiennv changed discussion status to closed Feb 24, 2024

chiennv changed discussion status to open Feb 24, 2024

qnguyen3

Vietnamese Mistral org Feb 25, 2024

hi @datnt114 , card 4090 khá nhiều vram nên bị OOM sau 1 prompt cũng khá lạ. Bạn thử copy code lên để mọi người cùng xem nhé. Mình nghĩ bật flash attention 2 lên sẽ là cách giải quyết tốt nhất

datnt114

Feb 26, 2024

Khi load model đâu tiên thì em mất 16 gb ram:

à vâng sau khi em check lại thì không bị OOM vẫn chỉ cần 16gb, chắc hôm trước lúc em chạy thì có người vào train trên cùng 1 server.

datnt114 changed discussion status to closed Feb 26, 2024

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment