M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-GranularityText Embeddings Through Self-Knowledge Distillation
·
AI/논문 리뷰
🐹 임베딩 모델이란?임베딩 모델은 텍스트, 이미지, 음성과 같은 데이터를 벡터 공간으로 변환하는 역할을 하는 모델을 말한다.벡터들은 숫자 값으로 이루어진 고차원 공간에서 표현된다. 이를 통해 데이터 간의 의미적 유사성을 비교하거나 분석할 수 있다. M3-Embedding모델에 대해 정리해봤다. https://arxiv.org/pdf/2402.03216  AbstractM3-Embedding은 multi-linguality(다국어 지원), multi-functionality(다기능성), muti-granularity(다중 그레뉼러리티)를 갖추고 있다이 모델은 Dense Retrieval, multi-vector retrieval, sparse retrieval의 세가지의 주요 검색 기능을 동시에 수행할 ..
LayoutLMv2: Multi-modal Pre-training for Visually-richDocument Understanding
·
AI/논문 리뷰
https://arxiv.org/pdf/2012.14740 Abstract텍스트, 레이아웃, 이미지를 하나의 다중 모달 프레임워크로 결합하여 이들 간의 상호작용을 모델링하기 위한 새로운 사전 학습 작업을 갖춘 LayoutLMv2 아키텍처를 제안한다.two-stream multi-modal 트랜스포머 인코더를 사용하는 LayoutLMv2는 기존의 마스킹된 시각 언어 모델링 작업뿐만 아니라 새로운 텍스트-이미지 정렬 및 텍스트-이미지 매칭 작업을 포함하며, 이는 사전 학습 단계에서 모달 간 상호작용을 더 잘 포착할 수 있게 해준다. 또한 LayoutLMv2는 Transformer 아키텍처에 공간 인식 self attention 메커니즘을 통합하여 서로 다른 텍스트 블록 간의 상대적 위치 관계를 완전히 이해할..
[논문리뷰] SVTR: Scene Text Recognition with a Single Visual Model
·
AI/논문 리뷰
https://arxiv.org/pdf/2205.00159 Abstract이전까지 text recognition model은 이미지의 특징을 뽑는 visual model과 텍스트를 변환하는 sequence model을 포함했다. 이 연구에서는 이를 하나로 합친 모델을 소개한다.SVTR은 이미지를 작은 패치(charater components)로 분해하고, component-level의 혼합, 병합, 결합을 통해 계층적 단계가 반복된다. Globel, local mixing blocks은 문자내 패턴을 인식하도록 고안되어 다중 세분화된 문자 구성 요소 인식으로 이어진다. 따라서 간단한 선형 예측을 통해 문자를 인식 한다.SVRT-L(Large)는 영어와 중국어에서 높은 정확도를 기록했고 SVRT-T(Tin..
[논문리뷰] PP-OCRv3: More Attempts for the Improvement ofUltra Lightweight OCR System
·
AI/논문 리뷰
https://arxiv.org/pdf/2206.03001v2 OCR 프로젝트를 하면서 PaddleOCR에 대해 알게되었다.이 논문은 PaddleOCRv3에 대한 논문으로 그전 버전에 비해 어떤것이 달라졌는지를 중점으로 설명하고 있다.AbstractOCR기술이 다양한 시나리오에서 널리 사용되고 있다. 실제로 효율성과 정확성의 문제를 해결하는 것이 중요한 문제이다. 특히, 실용적인 OCR 시스템을 설계하는 것이 어려운 과제이다.이전 연구에서는 효율성과 정확성을 고려한 PP-OCR이라는 초경량 시스템과 그 개선버전인 PP-OCRv2가 제안되었다.이 논문에서는 PP-OCRv2의 성능을 더욱 향상시키기 위한 PP-OCRv3를 제안한다. 이는 텍스트 감지 모델과 텍스트 인식 모델을 총 9개의 측면에서 업그레이드 ..
✿(๑❛ڡ❛๑)✿
'AI/논문 리뷰' 카테고리의 글 목록