UNETR Transformers for 3D Medical Image Segmentation

Note

기존 3D Segmentation 방식

images/UNETR images/image.png

3D U-Net

UNETR 이전의 3D 이미지를 Segmentation하는 방법은 위의 이미지와 같다.

위 이미지는 3D U-Net 모델의 구조인데 이는 기존의 2D 이미지를 Segmentation하는 모델인 U-Net을 기반으로 하고 있으며 다른 점은 input 데이터의 shape이 3차원(Voxel)이라는 점이다.

하지만 이러한 방법의 단점으로는 장거리 공간적 의존성을 학습하기 어렵다는 단점이 있다.

images/UNETR images/image 1.png

UNETR

앞서 말했듯 기존 3D segmentation에서의 단점을 해결하기 위해 Transformer를 사용하기로 합니다.

모델 구조에서 인코더 부분에 ViT를 적용하는 방식을 사용합니다.

따라서 인코더에서는 ViT를 이용해 전역 정보를 파악하고 U-형 네트워크 구조와 스킵 연결을 이용해 디코더와 결합하는 구조를 가지게 됩니다.

이러한 구조를 통해 기존의 3D segmentation의 문제인 장거리 의존성 학습 문제를 해결하게 되었습니다.

단계	Shape	설명
입력	$128 \times 128 \times 128 \times 4$	MRI 다채널 3D 입력
패치 분할	$512 \times 16, 384$	512개의 $16 \times 16 \times 16$ 패치
패치 임베딩	$512 \times 768$	각 패치를 768차원으로 투영
위치 임베딩 추가	$512 \times 768$	공간 정보 보존
트랜스포머 출력	$512 \times 768$	12 계층을 거친 후 동일 크기 유지
3D 복원	$8 \times 8 \times 8 \times 768$	3D 텐서로 복원 $(\frac{H}{16} \times \frac{W}{16} \times \frac{D}{16})$
디코더 및 최종 출력	$128 \times 128 \times 128 \times C_{out}$	클래스별 세그멘테이션 결과

images/UNETR images/image 2.png

images/UNETR images/image 3.png

두 가지 데이터셋을 이용해 학습 후 평가한 결과 기존에 존재하던 모델에 비해 더 좋은 성능을 보여준 다는 것을 확인할 수 있었고 결과적으로 UNETR은 기존 모델과 비교해 다음과 같은 강점이 있다는 것을 알았습니다.