728x90

Pytorch에서 DDP로 multi-GPU training을 신나게 돌리다가, 종종 에러가 발생한다.

 

 

구글링 결과, anaconda 관련 문제인 것 같았다.

 

main.py 및 DDP loading 과 관련된 문젱는 아니었다.

 

상당히 비슷한 문제가 아래의 링크에 포함되어 있는데,

 

https://github.com/conda/conda/issues/9589

 

Warning about leaked semaphore under Python 3.8 · Issue #9589 · conda/conda

Current Behavior Under Python 3.8, there is a warning printed when running most conda commands: ~/miniconda3/lib/python3.8/multiprocessing/resource_tracker.py:216: UserWarning: resource_tracker: Th...

github.com

 

이들은 모두 conda의 version, 그리고 python version 문제라고 하였다.

 

그래서 나는 우선 conda를 최신으로 업데이트 하였다.

 

conda update --all

 

위의 명령어를 통해서 업데이트 이후, deactivate, 다시 activate 하였다.

 

우선은 다시 돌리고 있는 중인데, 만약 이와 같은 문제가 또 생겼을 경우 python 버전을 3.7로 낮춰서 해봐야 할 것 같다.

728x90

+ Recent posts