Hi bạn @datnt114 , với limited resource, bạn có thể tham khảo một số cách sau để chạy inference: set max length for the conversation, quantization, flash attention, offload cpu, dùng 1 số thư viện để optimize graph computation,...
hi @datnt114 , card 4090 khá nhiều vram nên bị OOM sau 1 prompt cũng khá lạ. Bạn thử copy code lên để mọi người cùng xem nhé. Mình nghĩ bật flash attention 2 lên sẽ là cách giải quyết tốt nhất