정보&팁

이미지 텍스트 추출 - 이미지에서 텍스트 추출 프로그램 및 사이트

지니허니 2023. 1. 31. 22:18

이미지에서 텍스트 추출 프로그램 및 사이트 에 대해 알아보려고해요.

간혹 스캔된 이미지나 캡쳐한 이미지 , 스캔 PDF 등
텍스트(문자)를 추출 하고 싶은 경우가 있죠.

이미지 텍스트 추출 하는 프로그램이나 사이트는 정말 많은데요.

다양하지만 몇가지만 간략하게  소개하려고합니다.

 

번역작업을 위해 원본 PDF를 문서화하거나, 또는 이미 문서화된 파일을 전달 받는 경우가 있는데, 이 때 이미지 내 글자 부분도 번역을 진행해야 하는 경우가 많습니다. 이미지는 이미지 일뿐이라 글자를 따로 타이핑해서 번역을 진행해야 해요. 

“아니 이미지 텍스트는 어떻게 변환해야하지?” 하고 생소하고 어려울 것 같지만, 알고보면 간단하답니다.

 

스캔한 이미지, 캡쳐한 이미지는 말 그대로 이미지일 뿐이므로 문자 복사가 되지않죠
그림을 글씨로 인식하려면 OCR (optical character reader)과정을 거쳐야 됩니다.

OCR 문자인식 기능으로  이미지에서 문자를 추출하면 되구요.

이미지의 해상도 글꼴(폰트)  에 따라  차이는 있지만 , 무료 OCR 프로그램이나 무료 OCR 사이트 이용하면  이미지 텍스트 추출 가능합니다. 

 

장  점 수작업을 하지 않아도 되요.
단  점 100%다 인식이 되진 않아요.
추천사유 간혹 자판치기가 너무 싫을때 사용하면 좋을 것 같아요. 

 

 

만약 위 사진을 일일  타이핑 해야 한다면 어떨까요?
타이핑하기엔 시간도 오래걸리고 비효율 적이죠.
어떻게 하면 저 부분을 텍스트로 추출 할 수 있을까요? 방법은 아래와 같습니다.

 

 

1. 먼저 소개할 사이트는 2ocr 이라는 사이트인데요.

해외 사이트이고 , 로그인 필요없구요.

이미지(jpg,pgn,gif, bmp) 뿐만아니라  pdf 파일 도 지원하구요, 물론 무료입니다.   

인식율은 그럭저럭 쓸만  훌륭합니다.

 


https://2ocr.com/
여기 사이트 에 접속 합니다.

Drag and Drop or click to select files to OCR 를 누르고 텍스트 추출 하고싶은 이미지 를 불러옵니다.

 

이미지를 불러오면 위와같이 Choose language for document: 창이 뜰거에요.

추출할 언어를 선택해주면 됩니다. Auto detect 을 누릅니다. 

 

텍스트가 한글이면 Korean 을 선택해줍니다 

(영문이면 English 를 선택하면 되겠죠) 

 

그리고 OK 를 눌러주세요.

그럼 이미지에서 텍스트 추출이 됩니다.. 

완료되면 요런화면이 나옵니다.  SAVE RECOGNIZED TEXT 눌러 주면 TXT 파일로 받을을 수 있습니다..

 

 

 

 

2. pdf24 라는 사이트 에서 무료로 이미지 텍스트 추출  하는 방법입니다.
스캔한 이미지 텍스트 추출 , 스캔 PDF 텍스트 추출, pdf파일 용량줄이기,이미지를 pdf로 변환,pdf합치기 등등 
무료 사이트인데 괜찮게 쓰는중입니다. 데스크톱 다운로드 버전도 지원하네요 
아래는 무료로 pdf 파일내용을 OCR하는 사이트이니 참고하세요~

https://tools.pdf24.org/ko/ocr-pdf

위 사이트에서 먼저 이미지 글자를 OCR로 문자로 추출해 보세요~

 

 

사이트에 접속후 파일 선택 버튼을 누르고  이미지나 PDF 파일을 불러옵니다.

 

왼쪽에 선택 해주세요. 클릭후

 

PDF 문서 언어 (스캔된 이미지) 언어를 선택해줍니다.

 

그리고 OCR 시작 을 눌러주세요.

 

그리고 잠시기다립니다.

 

완료되면 다운로드 를 눌러 받으시면됩니다.

 



3. 무료 ABBYY OCR 문자인식 사이트입니다.
별도로 프로그램 구하기 어려울때 쓰면 괜찮을듯 합니다.
스캐닝한 문서파일, 그림 이미지, PDF 파일을 문자인식(OCR) 엔진을 이용하여 Microsoft Word(.doc) 또는 Microsoft Excel(.xls) 로 변환해 주는 온라인 서비스 입니다.
레티아에서 제공하는 무료 서비스로, 업로드한 이미지를 워드/엑셀로 변환하여 자동으로 메일로 발송합니다. 

    입력 이미지 포맷: BMP, JPEG, PNG, TIFF, PDF, DjVu
    출력 파일 포맷: 워드(doc) , 엑셀(excel) 
    OCR 언어: 한글, 영어, 한자, 숫자 

    *이미지 품질은 최소 300 DPI 이상 권장.
    *암호로 보호된 PDF는 변환 불가. 
    *무료 서비스는 1회 변환 시 3페이지씩 변환, 하루 총 10회 사용 가능. 

https://retia.co.kr/cnt/ocr/ocr.html

 

 

사이트에 접속후 "무료OCR 서비스 이용하기" 클릭합니다.

 

그럼 로그인 화면이나오는데 , 네이버, 페이스북, 구글 아이디로 로그인할 수 있습니다.

저는 네이버 아이디로 로그인 해보겠습니다.

네이버 아이디로 로그인을  클릭합니다. 

로그인 팝업차아이 뜨면 아이디 비밀번호 입력하고 로그인하면됩니다.

로그인하면 요런화면이 나오는데 [이미지 선택] 을 눌러 

텍스트 추출 하고싶은 이미지나 PDF파일 을 불러옵니다.

 

불러왔으면 ​동의후 다음 클릭해주세요.

 

참고로 레티아 사이트는 이메일 주소로 변환된 파일이 전송됩니다.

이메일 주소 입력후 ,파일의 문서 형식을 워드나 엑셀로 선택할 수 있습니다.

기본은 워드로 되어있습니다. 그냥 다음 클릭해주세요. 

 

문서변환 클릭 해주세요.

 

변환 완료되면 팝업창이 떠요. Close를 눌러 닫아줍니다.

 

메일 확인 레티아 OCR서비스 에서 보낸 메일이 도착했을거에요.

메일을 열어주세요.

 

메일을 열어보시면 첨부파일에 파일이있을거에요 .

워드 파일을 내려받으시면 됩니다.

 

글자가 아주 작게 변환 되었네요. ^^

영어 인식률은 좋근에 한글 인식률은 별로군요.

저도 abbyy 사용중인데 한글인식률은 아무래도 원본 dpi 문제도 있는 거 같습니다.
300dpi 이상 문서를 사용하라고 설명에 되어있는데 사실 돌아다니는 스캔본이 대부분 80dpi 정도라서 제대로 안되는 부분이 꽤 있습니다.
중국어가 오히려 한글보다 인식률이 꽤 좋구요 일본어도 오류가 많던데 그중에서도 한글이 가장 어려운지 아니면 한국의 한글 문자인식 연구가 부족해서인지 모르지만 가장 안좋아요.
특히 한글, 한자, 일본어는 이탤릭체 같은 경우를 거의 인식못합니다.
스캔상태 좋은 고딕체 문서일 경우는 꽤 괜찮다고 생각합니다.


----------------------------------

참고로 컴퓨터에 설치해서 사용하는 프로그램도 있습니다.

ABBYY FineReader PDF 16 라는 프로그램인데, 홈페이지가면 평가판을 무료 다운받을 수 있어요.


[소프트웨어 개요]

ABBYY FineReader PDF 16 은 PDF 수정,편집 제공하는 프로그램 이미지 파일을 편집 가능한 문서로 변환해 주는 지능형
OCR(문자인식) 소프트웨어입니다.

• 세계최고 인식률의 OCR 기술을 탑재하여, 한글을 더 정확하게, 더 빠르게 인식합니다.
• 전세계 189개 언어를 인식할 수 있고, 어떤 언어 조합으로도 인식 가능합니다.
• 종이 문서, 이미지 PDF, 디지털 카메라 이미지 파일을 텍스트 복사 & 붙여넣기, 찾기, 편집을 가능하도록
  변환 합니다.
• 여러 단의 문단, 표, 그림 등 문서 포맷을 그대로 복원할 수 있어, 문서 편집 시간을 획기적으로 줄여 줍니다.
• 인식 결과를 원본 이미지와 대조하면서 교정할 수 있어 편리합니다.
 
TWAIN 방식의 모든 스캐너와 복합기를 구동해서 종이 문서를 스캔할 수 있습니다.
스캔된 문서를 텍스트 파일과 같이 편집 가능한 문서로 변환할 수 있습니다.
 
카메라 OCR 기능으로 스마트폰, 디지털카메라와 같이 모바일 기기에서 촬영한 이미지에서 텍스트를 추출할 수 있습니다.
 
검색 가능한 폰트 PDF / PDF/A 파일를 생성하여 문서, 이미지 아카이빙 구축 시스템에 적용할 수 있습니다.
 이미지 PDF를 비롯한 모든 포맷의 PDF 파일을 편집 가능한 파일로 변환할 수있습니다.
 
* 상기 소프트웨어에 대한 정보는 (주)레티아 홈페이지에서 참고한 내용입니다.


오늘은 이미지에서 텍스트 추출 프로그램 및 사이트  PDF 텍스트 추출하는  방법  알아봤습니다.

도움이 되시기를...