다른 건 몰라도 OOXML이 마이크로소프트의 문서 형식이라는 것엔 동의할 수 없음. 물론 마이크로소프트가 주도한 것은 맞음. 그런데 ECMA에 등록한 표준임.

https://ecma-international.org/publications-and-standards/standards/ecma-376/

에크마 표준에는 자바스크립트도 있고, 다트 언어, C# 언어도 있음.

심지어 OOXML은 ISO 표준임

https://www.iso.org/standard/71691.html

쟈, 그렇다면 국제 표준을 따르지 않는 곳은 어디지?

RE: https://www.threads.com/@pgdendro/post/DSYyx52kiQO

hwp를 AI가 읽을 수 있는지, 그 전에 호환성에 대해서 말이 많다.

근데 hwp는 모르겠지만 hwpx는 이미 xml 스펙이 꽤 공개돼 있음. ooxml을 안 따른다는 사람도 있던데 ooxml은 MS의 문서 형식인데 이걸 한글이 어떻게 완전히 호환시키나.

일단 제미나이가 hwpx를 읽을 수 있으니 이 포맷을 ai가 읽을 수 없다는 건 틀린 얘기인 듯 하고.

진짜 문제는 hwpx로 된 문서들의 내용이 아닌가 싶다. 좀 더 정확히 말하면 쓸데없는 서식들이 너무 많다는 것. 특히 공공기관의 문서들은 글꼴 종류, 크기, 장평, 줄 간격, 배경색 등 온갖 서식으로 떡칠을 해놨는데, 이게 내용 파악에는 아무 도움이 안되는 그냥 '모양 꾸미기'에 불과하다는 것. 

그리고 이런 '서식'들은 내용을 파악해야 하는 AI나 파일 필터 입장에서는 노이즈일 뿐이라 잘 처리가 안될 것이고. 

그러니까 hwp의 진짜 문제는 문서 포맷의 개방도 있지만 쓸데없는 서식으로 도배하는 문화가 아닐까.
0

If you have a fediverse account, you can quote this note from your own instance. Search https://threads.net/ap/users/17841449486915843/post/18029133404772998/ on your instance and quote it. (Note that quoting is not supported in Mastodon.)