Vietnam.vn - Nền tảng quảng bá Việt Nam

CMC, 텍스트 인식 분야 세계 12위 기록

CMC Technology Application Institute(CMC ATI)가 개발한 CATI-VLM(Visual Document Understanding) 모델은 많은 국제 경쟁자들을 제치고 Robust Reading Competition(RRC)이 2025년 6월에 발표한 문서 시각적 질문 답변(DocVQA) 부문 순위에서 세계 12위, 베트남 1위를 차지했습니다.

Báo Nhân dânBáo Nhân dân02/07/2025

DocVQA 카테고리에서 RRC 순위 6/2025.

DocVQA 카테고리에서 RRC 순위 6/2025.

베트남에서 디지털 혁신과 인공지능 애플리케이션 혁신이 활발하게 진행됨에 따라, OCR(광학 문자 인식) 기술은 문서 디지털화, 비즈니스 프로세스 자동화, 비용 절감 및 관리 효율성 향상에 점점 더 중요한 역할을 하고 있습니다. 그러나 베트남어의 악센트와 필체 특성을 고려할 때, 인식 문제는 단순히 '단어 읽기'에 그치지 않고 맥락을 포괄적으로 이해하는 능력을 요구합니다.

최근 CMC Technology Application Institute(CMC ATI)는 연구팀이 5TB 대용량 데이터웨어하우스에서 개발한 CATI-VLM(Visual Document Understanding) 모델을 발표했는데, 이 모델은 많은 국제 경쟁자들을 제치고 2025년 6월 Robust Reading Competition(RRC)에서 발표한 문서 시각적 질문 답변(DocVQA) 부문에서 세계 12위, 베트남 1위를 차지했습니다.

로버스트 리딩 대회(RRC)는 컴퓨터 비전 분야에서 세계적으로 유명한 연구 기관인 스페인 바르셀로나 자치대학교(UAB)의 컴퓨터 비전 센터(CVC)가 주최하는 권위 있는 과학 경연 대회입니다.(https://rrc.cvc.uab.es/)

이 대회는 2011년에 시작되어 컴퓨터 비전 분야 세계 최고 포럼 중 하나인 국제 텍스트 분석 및 인식 컨퍼런스(ICDAR)의 틀 안에서 매년 개최됩니다. 칭화대학교, 현대자동차그룹, 텐센트 등 대학, 연구소, 그리고 대형 기술 기업의 연구원과 엔지니어들이 이 대회에 참여합니다. RRC의 문제들은 번역, 기업 데이터 관리, 도시 분석, 역사 문서 처리 등 실질적인 문제들과 긴밀히 연계되어 기술 발전을 촉진하도록 설계되었습니다.

CMC ATI 소장인 당 민 투안 박사는 "CMC 팀의 연구 역량이 RRC와 같은 명망 있는 글로벌 플랫폼을 통해 인정받게 되어 매우 기쁩니다. 짧은 기간 안에 연구팀은 높은 순위를 달성하며 선진국의 유명 연구자들과 어깨를 나란히 하는 국제적 경쟁력을 입증했습니다. 더 중요한 것은, 이는 베트남어 및 베트남의 전문 분야와 관련된 특정 문제를 해결하는 기술을 습득할 수 있는 역량을 분명히 보여준 것입니다."라고 말했습니다.

z6764757325423-eeef2a0ed90465644555dcab3096c25c.jpg

CMC ATI 이사 Dang Minh Tuan 박사.

CATI-VLM은 문자 추출뿐만 아니라 텍스트 콘텐츠, 비텍스트 요소(체크박스, 체크박스, 차트, 서명, 수식), 레이아웃(페이지 구조, 표, 양식), 스타일(글꼴, 강조 표시 등) 등 다양한 계층의 정보를 이해한다는 점에서 기존 OCR과 다릅니다. 이 모델은 ChatGPT와 유사하게 특정 양식을 미리 학습하지 않고도 문서 이미지에 제시된 시각적 질문에 답변할 수 있습니다.

특히 RRC 순위에서 매개변수가 30억 개에 불과한 CATI-VLM이 4/7 데이터 세트에서 가장 높은 정확도를 달성하여 Deepseek(매개변수 270억 개), GPT-4 Vision Turbo + Amazon Textract OCR(상위 34위), Baidu(상위 22위) 등 많은 빅테크 모델을 앞지르며 주목을 받았습니다.

이 성과는 매개변수 규모를 쫓는 대신 핵심 기술을 습득하고 베트남의 인프라 조건에 맞게 모델을 최적화하는 데 중점을 두는 실용적인 접근 방식을 보여줍니다.

이미지-2.jpg

대학 입학 지원서 샘플

이미지-3.jpg

위 이미지의 필기체에서 텍스트가 인식되었습니다.

CMC 테크놀로지 그룹 이사회 의장 겸 회장인 응우옌 쭝 친(Nguyen Trung Chinh) 씨는 다음과 같이 강조했습니다. "이는 10년 이상 기술 연구 개발(R&D)에 꾸준히 투자해 온 결과입니다. CMC가 국제 기술 시장에서 이룬 높은 성과는 베트남 기술을 완벽하게 습득하고 AI 혁신을 지향하며 글로벌 시장에 진출하려는 CMC의 전략을 뒷받침합니다. 베트남 정보기술이 세계적인 빅테크 기업들과 어깨를 나란히 하며 세계 기술 시장에서 가치 있는 입지를 구축할 수 있다고 확신합니다."

CATI-VLM은 C.OpenAI 생태계의 제품 체인에 적용될 예정이며, 여기에는 법률 문서 검토를 위한 CLS 가상 비서, 디지털 문서 변환 플랫폼인 CMC SmartDoc, CMC KMS 지식 관리 시스템, 스마트 오피스를 위한 자동 보고 시스템, 차세대 Agentic Documents 애플리케이션이 포함됩니다.

광휘

출처: https://nhandan.vn/cmc-dat-top-12-the-gioi-ve-nhan-dang-van-ban-post891252.html


댓글 (0)

No data
No data

같은 태그

같은 카테고리

서양 관광객들은 항마 거리에서 중추절 장난감을 사서 자녀와 손주들에게 선물하는 것을 즐긴다.
항마 거리는 중추절의 색채로 화려하고, 젊은이들이 끊임없이 체크인을 하고 있습니다.
역사적 메시지: 빈응이엠 사원 목판 - 인류의 기록 유산
구름 속에 숨겨진 지아라이 해안 풍력발전소를 감상하다

같은 저자

유산

;

수치

;

사업

;

No videos available

현재 이벤트

;

정치 체제

;

현지의

;

제품

;