CUDA_VISIBLE_DEVICES=4,5,6,7 torchrun --standalone --nnodes=1 --nproc-per-node=4 train50_loc.py 0 --eval-output --resume