[Qdrant] GPU 가속

#qdrant

Qdrant는 GPU를 통해 검색 속도를 가속하는 기능을 제공한다.

벡터-벡터간 비교가 핵심 연산이다보니, GPU를 활용한 병렬처리에서 이점을 많이 얻을 수 있는 것이다.

제한사항

1.13버전부터 사용 가능하며, 현 시점에서는 다음과 같은 제한사항이 있다.

Qdrant Cloud에서 사용 불가능 (향후 지원 예정)
Linux amd64 아키텍쳐에서만 사용 가능. (arm64 미지원)
GPU는 nvidia와 amd만 사용 가능.

이외에도 세그먼트 크기 제한 등이 존재한다.
참조 https://qdrant.tech/documentation/guides/running-with-gpu/#known-limitations

사양과 성능

굳이 고성능 GPU를 쓸 필요는 없다.
여기서 쓰는 병렬연산이라고 해봐야 그렇게 헤비한게 아니라서, 적당히 엔트리급의 GPU를 써도 충분하다.

그리고 벡터의 길이가 길수록 성능 향상 효과를 더 잘 느낄 수 있다. 벡터/벡터 비교를 병렬화하는 것이기 때문이다.

공개한 벤치마크에 따르면 2-3배 이상도 빨라질 수 있다고 한다.
근데 이건 벡터의 크기에 따라서 많이 달라질 것 같다. 벡터의 크기가 크지 않다면 그냥 CPU만 쓰는 것과 성능 차이가 별로 없을 수 있다.

GPU를 활성화해보기

당연히 GPU와 그 드라이버 세팅은 되어있어야 한다.
내 경우에는 엔비디아 2080이다.

일단 이 기능은 기존 서버로는 사용할 수도 없다.
소스에서 빌드한다면 별도 옵션을 줘야 하고, docker도 gpu 버전 이미지가 따로 있다.

이 gpu 버전을 받아서 실행하면 된다.

그냥 docker로 실행하려면 이렇게 하고

docker run \
	--rm \
	--gpus=all \
	-p 16333:6333 \
	-p 16334:6334 \
	-e QDRANT__GPU__INDEXING=1 \
	qdrant/qdrant:v1.15-gpu-nvidia

docker compose 예시는 다음과 같다.

  qdrant-gpu:
    image: qdrant/qdrant:v1.15-gpu-nvidia
    container_name: qdrant-gpu
    ports:
      - "16333:6333"
      - "16334:6334"
    volumes:
      - qdrant_gpu:/qdrant/storage
    environment:
      - QDRANT__GPU__INDEXING=1
    ulimits:
      nofile: 65535
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
        limits:
          cpus: "4"
          memory: 16192M