GN⁺: PDF에서 데이터 추출이 여전히 어려운 이유
------------------------------
# OCR(광학 문자 인식)의 한계
- PDF 파일은 과학 연구, 정부 기록 등 중요한 데이터를 담고 있으나, 포맷이 고정적이라 기계가 읽고 분석하기 어려움
- PDF는 인쇄 레이아웃에 맞춰 제작된 형식이기 때문에 디지털 분석에 적합하지 않음
- 많은 PDF는 정보의 이미지를 포함하므로, 이를 데이터로 변환하기 위해 …
------------------------------
https://news.hada.io/topic?id=19847&utm_source=googlechat&utm_medium=bot&utm_campaign=1834

0

If you have a fediverse account, you can quote this note from your own instance. Search https://sns.lemondouble.com/notes/a5k9zhbxlc on your instance and quote it. (Note that quoting is not supported in Mastodon.)