저렴한 인공지능 바둑(릴라제로)용 GPU/CPU 성능비교


 중고로 매우 저렴하게 구할 수 있거나 구형인 GPU 및 몇몇 CPU 들로 릴라제로를 돌려본 결과를 올려봄.
 // 2019.07.23 - i5 4670과 GTX1070TI의 벤치 결과를 추가함


* 사용한 버전
   (버전과 뉴럴넷 사이즈에 따른 편차가 매우 큰 것으로 보임. 비교시 동일 버전으로 비교해야 함)
  - 릴라제로 버전 : 0.17
  - 뉴럴넷 weight파일 : a20c31da (256x40)

* 벤치 방법
  - [leelaz.exe -w weight.gz --benchmark]를 옵션으로 하여 실행 => n/s 값 사용
  - [leelaz.exe -w weight.gz --tune-only]를 옵션으로 하여 실행 => GFLOPS 값 사용(GPU가속시)
     // 필요시 leelaz_opencl_tuning 파일 제거

* CPU 결과 (--cpu-only 옵션 사용)
  - Intel i3 2120 @3.3GHz : 4 n/s
  - AMD Phenom II 1055T X6 @2.8GHz : 5 n/s
  - Intel Xeon 1265L V2 @3.1GHz : 8 n/s
  - Intel i7 2600k @4.3GHz(OC) : 10 n/s
  - Intel i5 4670 : 10n/s

* GPU 결과
  - GTX660 : 51n/s (645 GFLOPS)
     // 기본 옵션, 위 AMD Phenom으로 테스트
  - GT1030 : 75n/s (683 GFLOPS)
     // 기본 옵션, 위 Xeon으로 테스트
  - RX570 @1200MHz : 220n/s (2826 GFLOPS)
     // [--batchsize 10 -t 30 --precision single] 옵션을 추가로 사용함
         (실제 Sabaki 등에도 해당 옵션 추가해 사용해야 성능 편익 얻을 수 있음)
     // 위 i3 2120과 위 i7 2600k로 각각 테스트
         (두 시스템간 GPU 가속 성능 측정 결과 차이는 거의 없음)
  - GTX1070ti : 450n/s (5290GFLOPS)
      // [--batchsize 30 -t 30] 옵션을 추가로 사용함
  - GTX1070ti dual (no SLI) : 370n/s 
      (듀얼인데도, --gpu 1 옵션을 주어서 single로 측정한 위 450n/s 결과보다 더 느리게 나옴)

-------------------------

 대체적으로 CPU보다 GPU가 엄청난 격차를 내며 좋은 성능을 보였음. 200 visit 정도로 세팅할 경우 RX570에서는 1초만에 착수가 이루어짐.

 RX570의 경우 이론 속도는 Half Precision과 Single Precision이 동일해야 하고, 메모리 대역폭에 있어 Half Precision이 유리해야 하지만, 실제 벤치마크 결과로는 Single Precision으로 실행하는 것이 근소하게 빠른 것으로 나타남. (별도로 옵션을 주지 않을 경우 RX570에서는 Half Precision으로 실행됨)
 RX570은 2019년 6월 현재 중고로 5.5만 정도에 구할 수 있어 저렴하게 바둑용 PC를 꾸미는데 적합해 보임

 GTX660과 GTX1030은 릴라제로 튜닝시 계산되는 GFLOPS값은 비슷하지만, 실제 바둑 연산에 사용되는 n/s 수치는 1.5배 가량 차이를 보임 (AMD 시스템으로 인한 것인지, 아키텍쳐간 효율 차이인지 불분명함)

 GTX1070Ti는 RX570의 2배를 조금 넘는 성능으로 측정됨.
 특이하게, GTX1070Ti는 dual로 동작시킬 경우 더 느린 결과를 보여줌. (작업관리자의 CUDA 항목 모니터링으로 각각 세팅한 개수(1개,2개)의 GPU가 동작하는 것을 확인하였음) 
 1070TI의 중고가는 2019년 7월 현재 30만원 정도임.

---------------------------

 라이젠 2400G에 내장된 VEGA 11의 경우 Half Precision으로 돌릴 경우 이론 성능이 3,492GFLOPS로, RX570의 이론 성능의 70% 정도임. 20% 정도 오버클럭이 어렵지 않고, PCI-E를 통한 데이터 이동이 없는 점 등을 고려하면 의외로 괜찮은 성능이 나오지 않을까 예상.

 GTX1060(3GB)는 벤치마크하지 못했으나, GT1030을 그대로 스케일링할 경우 240n/s로 계산됨.

by openwrld | 2019/06/12 01:11 | 컴퓨터하드웨어 | 트랙백

트랙백 주소 : http://openwrld.egloos.com/tb/4430771
☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
※ 로그인 사용자만 덧글을 남길 수 있습니다.

◀ 이전 페이지          다음 페이지 ▶