document-image-understanding (1) 썸네일형 리스트형 VIsual LAyout(VILA) 모델로 논문 PDF 파일에서 구조를 추출하는 방법 1. Introduction 논문은 대체로 서론, 관련 연구, 방법론, 실험, 결론과 같은 구조로 구성되어 있다. 하지만 PDF로 배포된 논문에서 위와 같은 구조를 자동으로 파악하는 것은 쉽지 않다. 이러한 문제를 해결하기 위해 다양한 Document-Image Understanding 모델들이 제안되었다. 그 중 VIsual LAyout (VILA) 모델을 사용하여 논문의 구조를 추출하는 과정을 진행해보았다. 2. VILA: VIsual LAyout VILA: Improving structured content extraction from scientific PDFs using visual layout groups 문서의 구조를 인식하는 Document Layout Analysis 문제는 주로 toke.. 이전 1 다음