LayoutLMv2: Multi-modal Pre-training for Visually-richDocument Understanding

AI/논문 리뷰

LayoutLMv2: Multi-modal Pre-training for Visually-richDocument Understanding

✿(๑❛ڡ❛๑)✿ 2024. 11. 7. 22:08

728x90

SMALL

https://arxiv.org/pdf/2012.14740

Abstract

텍스트, 레이아웃, 이미지를 하나의 다중 모달 프레임워크로 결합하여 이들 간의 상호작용을 모델링하기 위한 새로운 사전 학습 작업을 갖춘 LayoutLMv2 아키텍처를 제안한다.

two-stream multi-modal 트랜스포머 인코더를 사용하는 LayoutLMv2는 기존의 마스킹된 시각 언어 모델링 작업뿐만 아니라 새로운 텍스트-이미지 정렬 및 텍스트-이미지 매칭 작업을 포함하며, 이는 사전 학습 단계에서 모달 간 상호작용을 더 잘 포착할 수 있게 해준다. 또한 LayoutLMv2는 Transformer 아키텍처에 공간 인식 self attention 메커니즘을 통합하여 서로 다른 텍스트 블록 간의 상대적 위치 관계를 완전히 이해할 수 있도록 한다.

introduction

Visually-rich Document Understanding작업은 텍스트 정보뿐만 아니라 시각적으로 풍부한 문서에 필수적인 시각적 및 레이아웃 정보에도 의존한다.

따라서 관심 있는 텍스트 필드를 정확하게 인식하려면 텍스트, 시각적, 레이아웃 정보를 단일 프레임워크에서 엔드투엔드로 공동 모델링하고 학습해야 하는 시각적으로 풍부한 문서의 교차 모달리티 특성을 활용해야한다.

이 논문의 기여점은 다음과 같다.

문서 텍스트, 레이아웃, 시각적 정보를 사전 학습 단계에서 통합하여 단일 프레임워크 내에서 모달 간 상호작용을 학습하는 다중 모달 Transformer 모델을 제안. 공간 인식 self attention 메커니즘을 Transformer 아키텍처에 통합.
masked visual-language 모델 외에도 텍스트-이미지 정렬 및 텍스트-이미지 매칭을 새로운 사전 학습 전략으로 추가하여 다양한 모달리티 간의 정렬을 강화.
기존의 VrDU 작업뿐만 아니라 문서 이미지에 대한 VQA 작업에서도 새로운 SOTA 결과를 달성.

Approach

Model Architecture

아키텍처는 텍스트, 시각적 정보, 레이아웃 정보를 입력으로 받아 모달 간 깊이 있는 상호작용을 설정 문서 레이아웃을 더 잘 모델링하기 위해 공간 인식 자기 주의 메커니즘을 아키텍처에 도입

텍스트 임베딩

OCR 텍스트 시퀀스를 토크나이즈하기 위해 WordPiece(Wu et al., 2016)로 나눠 토큰화한다.

텍스트의 범위를 구분, 단어를 분리하기 위해 아래 토큰들을 사용한다.

[CLS] : 단어의 시작

[SEP]: 단어의 끝

[PAD]: 마지막 문장

텍스트의 위치를 표시하는 positional embedding, 어떤 layout인지(다른 텍스트 세그먼트를 구별하기 위해 사용)를 지정하는 segment embedding을 사용하여, i번째 텍스트 임베딩은 아래와 같다

비쥬얼 임베딩

CNN 기반 시각적 인코더의 출력 특징 맵을 활용하여 페이지 이미지를 고정된 길이의 시퀀스로 변환한다.

문서 페이지 이미지가 주어지면, 다음과 같이 동작한다.

이미지를 224 × 224로 리사이즈 후 시각적 백본에 입력 →

출력 특징 맵은 너비가 W, 높이가 H인 고정 크기로 average-pooled →

WxH 길이의 시각적 임베딩 시퀀스로 평탄화→

시각적 토큰 임베딩에 선형 투영 layer가 적용되어 텍스트 임베딩과 차원 통일

CNN 기반 시각적 백본은 위치 정보를 캡처할 수 없으므로, 이러한 시각적 토큰 임베딩에 1차원 위치 임베딩을 추가한다. (1차원 위치 임베딩은 텍스트 임베딩 레이어와 공유됨)

세그먼트 임베딩의 경우, 모든 시각적 토큰에 시각적 세그먼트 [C]를 붙인다.

i번째 시각적 임베딩은 아래 처럼 표현된다.

레이아웃 임베딩

레이아웃 임베딩 레이어는 OCR 결과에서 축에 정렬된 토큰 바운딩 박스에 의해 나타나는 공간적 레이아웃 정보를 임베딩하기 위한 것이다.

모든 좌표를 [0, 1000] 범위 내의 정수로 정규화한다.

이때 X축 특징과 Y축 특징을 별도로 임베딩하기 위해 두 개의 임베딩 레이어를 사용한다.

정규화된 i번째 텍스트, 시각적 토큰의 바운딩 박스 (x1,x2,y1,y2,width,height)가 주어지면, 2d 위치 임베딩(레이아웃 임베딩)을 구성한다.

임베딩을 정리하자면 아래와 같다.

Visual/Text Token Representations (V1, V2, V3, ...):
- Visual Token Representations: 이미지의 시각적 특징을 나타내는 임베딩으로 ResNeXt-FPN과 같은 CNN 기반 시각적 인코더를 통해 추출된 이미지 특징 맵에서 각 시각적 토큰을 생성한다. 이 특징 맵은 문서 페이지 이미지를 고정 길이의 시퀀스로 변환하여 시각적 토큰 V1, V2 등으로 표현된다.
- Text Token Representations (T1, T2, T3, ...): OCR을 통해 추출된 텍스트의 임베딩이다. OCR 파서를 통해 문서의 텍스트를 토큰화한 후, 각 텍스트 토큰은 WordPiece 토크나이저를 통해 분할되고, [CLS], [SEP] 등의 특수 토큰과 함께 입력된다.
Segment Embeddings (C, A):
- 텍스트와 시각적 정보의 서로 다른 세그먼트를 구별하기 위해 사용된다. LayoutLMv2에서는 시각적 토큰과 텍스트 토큰이 동일한 입력 시퀀스에 포함되므로, 각 세그먼트를 구별하기 위해 C와 A와 같은 값이 할당된다. (이미지는 C, 텍스트는 A)
1D Position Embeddings (0, 1, 2, ...):
- 텍스트 토큰과 시각적 토큰의 순서를 나타내기 위해 1차원 위치 임베딩이 사용된다. 이 위치 임베딩은 각 토큰이 입력 시퀀스 내에서 차지하는 위치를 나타내어 모델이 토큰의 순서를 인식할 수 있도록 돕는다. (텍스트 토큰 T1, T2, T3에는 각각 0, 1, 2와 같은 위치 임베딩이 할당)
2D Position Embeddings (BOXT1_{T1}T1, BOXT2_{T2}T2, ...):
- OCR 파서를 통해 얻은 바운딩 박스 좌표(x_min, x_max, y_min, y_max, width, height)를 기반으로하여 각 토큰의 공간적 레이아웃 정보를 나타내기 위해 사용된다. 이 2차원 위치 임베딩은 각 텍스트와 시각적 토큰의 실제 문서 내 위치를 나타내어 모델이 문서의 공간적 레이아웃을 이해할 수 있게 한다. (T1 토큰의 바운딩 박스 정보는 BOXT1로 표현 → 각 토큰이 문서 내에서 차지하는 정확한 위치를 모델에 제공)
Visual/Text Token Embeddings (V1, V2, V3, ..., T1, T2, T3, ...):
- 각 시각적 토큰과 텍스트 토큰에 대한 최종 임베딩 이 임베딩은 시각적/텍스트 토큰, 1D 위치 임베딩, 세그먼트 임베딩, 2D 위치 임베딩을 합쳐서 구성된다.
- ex : V1의 최종 임베딩은 시각적 토큰 V1, 위치 임베딩, 세그먼트 임베딩(C), 2D 위치 임베딩(BOXV1)을 합친 것 .

Multi-modal Encoder with Spatial-Aware Self-Attention Mechanism

인코더는 시각적 임베딩과 텍스트 임베딩을 통합된 시퀀스로 연결하고, 레이아웃 임베딩을 추가하여 첫번째 레이어의 입력 X를 구성한다.

Transformer아키텍쳐(multi head self attention & feed forward network)에 공간 인식 self attention 메커니즘을 도입했다. (문서 레이아웃의 지역성 불변성을 효율적으로 모델링하기 위해 상대정보 삽입)

기존의 self attention 메커니즘은 x_i와 x_j 간의 상관성을 캡쳐하는 방식으로 두 벡터를 투영하고 attention score를 계산한다.

위치 정보는 범위가 넓어, 공간적 상대 위치를 bias로 모델링 하여 파라미터의 수가 증가하는 것을 방지한다.

b^(1D),b^(2D_x),b^(2D_y)가 학습 가능한 1D, 2D 상대 위치 biases를 나타낸다고하면, 공간 인식 attention score는 아래와 같다.

출력벡터 h_i는 모든 투영 값의 벡터 가중 평균으로 정규화된 공간 인식 attention score를 기준으로 계산된다.

위와 같은 방식으로 LayoutLMv2는 문서내 토큰 간의 상대적 위치 정보를 반영한다. 이는 텍스트와 시각적 정보의 공간적 관계를 더 정확하게 이해하게 한다.

Pre-training Tasks

Masked Visual-Language Mode

Masked Visual-Language Modeling (MVLM)을 사용하여 모달 간 단서를 기반으로 언어 측면에서 모델이 더 잘 학습되도록 한다. 일부 텍스트 토큰을 임의로 마스킹하고, 모델이 마스킹된 토큰을 복원하도록 요청한다. 이는 BERT모델과 유사하다.

모델은 각 마스킹된 토큰의 위치를 알고 있다.( 레이아웃 정보는 변하지 않으므로) 이를 통해 문서의 전체적인 레이아웃과 구조를 학습 할 수 있다. 시각적 단서가 언어 이해에 미리 영향을 미치지 않도록, 마스킹된 텍스트에 해당하는 이미지 영역도 함께 마스킹한다.

MVLM은 LayoutLMv2가 텍스트와 이미지 정보를 모두 활용하여 문서를 이해하는 능력을 키우는 데 중요한 역할을 한다. 단순히 텍스트나 이미지만 보고 예측하는 것이 아니라, 문서의 전체 레이아웃과 각 위치에 있는 정보를 활용하여 문맥적으로 텍스트를 예측하게 한다.

Text-Image Alignment

Text-Image Alignment 작업은 모델이 이미지와 바운딩 박스의 공간적 위치 대응 관계를 학습하도록 돕는 세부적인 모달 간 정렬 작업이다.

TIA 작업에서는 일부 텍스트 라인을 무작위로 선택하고, 문서 이미지에서 해당하는 이미지 영역을 가린다. 이 작업을 "커버링(covering)"이라고 부른다.( MVLM 작업의 마스킹 작업과 혼동하지 않도록 주의.)
사전 학습 중에, 분류 레이어가 인코더 출력 위에 추가되어 각 텍스트 토큰이 커버된 상태인지 커버되지 않은 상태인지를 예측한다. 이때 이진 교차 엔트로피 손실을 사용해 학습한다.
TIA와 MVLM이 동시에 수행될 때는, MVLM에서 마스킹된 토큰에 대해서는 TIA 손실을 계산하지 않는다. (모델이 [MASK]와 [Covered] 간의 단순한 대응을 학습하지 않도록 하기 위함)

Text-Image Matching

모델이 문서 이미지와 텍스트 내용 간의 일치도를 학습하도록 돕는다.

[CLS] 토큰의 출력을 분류기에 넣어, 해당 이미지와 텍스트가 같은 문서에서 왔는지를 예측한다. 동일한 문서의 이미지와 텍스트는 양성 샘플로, 다른 문서의 이미지나 일부 페이지가 제거된 문서 이미지는 음성 샘플로 사용된다.
모델이 음성 샘플에서 힌트를 통해 쉽게 구별하지 않도록, 음성 샘플에서도 동일하게 커버링 작업을 수행한다. 음성 샘플에서는 TIA의 목표 레이블을 모두 [Covered]로 설정하여 학습의 유출을 방지한다.
이 작업에서도 이진 교차 엔트로피 손실을 사용해 손실을 계산한다.

Experiments

실험 설정

데이터셋: 모델의 성능을 검증하기 위해 여섯 가지 공개된 벤치마크 데이터셋을 사용한다. 이들 데이터셋은 양식 이해(FUNSD), 영수증 이해(CORD, SROIE), 복잡한 레이아웃의 긴 문서 이해(Kleister-NDA), 문서 이미지 분류(RVL-CDIP), 문서 이미지에 대한 시각적 질문 응답(DocVQA) 등 다양한 문서 이해 작업을 포함한다.
평가 지표: 각 데이터셋의 특성에 따라 정확도, F1 점수 등 적절한 평가 지표를 사용하여 모델의 성능을 측정했다.

결과 및 분석

FUNSD: 양식 이해 작업에서 LayoutLMv2는 이전 모델 대비 F1 점수가 0.7895에서 0.8420으로 향상되었다.
CORD: 영수증 이해 작업에서 F1 점수가 0.9493에서 0.9601로 개선되었다.
SROIE: 또 다른 영수증 이해 작업에서 F1 점수가 0.9524에서 0.9781로 상승했다.
Kleister-NDA: 복잡한 레이아웃의 긴 문서 이해 작업에서 F1 점수가 0.8340에서 0.8520으로 향상되었다.
RVL-CDIP: 문서 이미지 분류 작업에서 정확도가 0.9443에서 0.9564로 개선되었다.
DocVQA: 문서 이미지에 대한 시각적 질문 응답 작업에서 정확도가 0.7295에서 0.8672로 크게 향상되었다.

이러한 결과는 LayoutLMv2가 다양한 문서 이해 작업에서 이전 모델들보다 우수한 성능을 보임을 나타낸다.

추가 분석

모달리티 기여도: 텍스트, 레이아웃, 시각적 정보의 각 모달리티가 모델 성능에 미치는 영향을 분석했다. 그 결과, 모든 모달리티를 통합했을 때 가장 높은 성능을 보였으며, 이는 다중 모달 학습의 중요성을 강조한다.
사전 학습 작업의 효과: Masked Visual-Language Modeling(MVLM), Text-Image Alignment(TIA), Text-Image Matching(TIM) 등 각 사전 학습 작업이 모델 성능에 미치는 영향을 평가했다. 모든 사전 학습 작업을 함께 수행했을 때 가장 큰 성능 향상이 나타났다.https://arxiv.org/pdf/2012.14740텍스트, 레이아웃, 이미지를 하나의 다중 모달 프레임워크로 결합하여 이들 간의 상호작용을 모델링하기 위한 새로운 사전 학습 작업을 갖춘 LayoutLMv2 아키텍처를 제안한다.introduction따라서 관심 있는 텍스트 필드를 정확하게 인식하려면 텍스트, 시각적, 레이아웃 정보를 단일 프레임워크에서 엔드투엔드로 공동 모델링하고 학습해야 하는 시각적으로 풍부한 문서의 교차 모달리티 특성을 활용해야한다.
- 문서 텍스트, 레이아웃, 시각적 정보를 사전 학습 단계에서 통합하여 단일 프레임워크 내에서 모달 간 상호작용을 학습하는 다중 모달 Transformer 모델을 제안. 공간 인식 self attention 메커니즘을 Transformer 아키텍처에 통합.
- masked visual-language 모델 외에도 텍스트-이미지 정렬 및 텍스트-이미지 매칭을 새로운 사전 학습 전략으로 추가하여 다양한 모달리티 간의 정렬을 강화.
- 기존의 VrDU 작업뿐만 아니라 문서 이미지에 대한 VQA 작업에서도 새로운 SOTA 결과를 달성.

728x90

LIST