Clova OCR 기반, 서비스 품질 향상시키는 방법
OCR 모델 자체에 대한 직접적인 성능 개선을 제외하고, 상용 API인 Clova OCR General을 활용하여 OCR 서비스를 만들고 품질을 높일 수 있는 방법들을 생각해본다.
사용 모델: Clove OCR General API
선택 이유: OCR 하고자 하는 데이터에 한국어가 많이 포함되고, CLOVA OCR 연구에 대한 paper가 꾸준히 publication되고 있어서 기술적인 측면에서 신뢰하였음.
우리가 개선할 수 있는 부분은 전처리와 후처리다.
전처리 (Pre-processing)
전반적인 image pre-processing.
binarization, noise, artifact, color
글씨체 이슈 있음.
깔끔한 폰트의 숫자는 잘 읽힘.
후처리 (Post-processing)
검출된 text의 bounding box의 크기 차이
특정 단어 치환
initialization
text의 type을 고려 (number, string - korean, english)
모듈화 & 패키징 (making package using modules)
function들을 통해서 module화를 하고, 파일들을 패키지로 만든다.
OpenCV
첫번째 프레임, 61번째 프레임.
OpenCV의 비디오 종료 알고리즘을 보면, Video를 open하고 frame의 값이 2번 반복될 때 영상을 종료하기 때문에
마지막 frame을 알아낼 수 있다.