데이터 효율성으로 본 AI와 인간의 비교

bgl gwyng @bgl@hackers.pub

AI와 인간의 능력을 비교할때 장기적으로 유의미한 지표로 데이터 효율성이 있다.

이는 같은 양의 데이터가 주어졌을때 거기서부터 얼마나 잘 일반화해서 학습할수 있느냐이다. 현존하는 AI는 인간에 비해 데이터 효율성이 매우 떨어진다. 이는 ChatGPT를 개발한 Ilya Sutskever가 앞으로 해결해야 과제로 꼽은 부분이기도 하다. 이 문제는 단순히 GPU를 더 쌓는다고 해결되지 않고 설계에서의 혁신이 요구되기 때문에, AI의 빠른 발전을 걱정하는 사람들에게는 희망적이다.

휴, 다행이구만. 오랜만에 발 쭉 뻗고 잘수 있겠다.

...기엔 여기에 생각해봐야할 지점들이 있다.

일단 데이터 효율성이 떨어지더라도 어떻게든 학습하고나면 그 능력은 복제가 가능하다. 그래서 지속적으로 새로운 정보를 학습할 필요가 적은 직업들은 여전히 위협을 받는다. 콜센터 직원이 한 예시다.

데이터 효율성이 중요한 직업으로 대표적으로 경영인과 연구자가 있다. 이들은 늘 데이터 부족에 시달리고 있고, 새로운 데이터가 들어오면 거기서 최대한 많은 정보를 뽑아서 다음 선택을 내릴때 활용해야 한다. 이때 새로운 데이터에 인간이 적응을 더 잘하기 때문에 주도권을 여전히 인간이 쥐고, AI는 유용한 도구로써의 역할을 유지하게 된다. 사업과 연구는 그것의 결과가 세상에 끼치는 영향이 크기 때문에, 여기에 한동안 인간이 계속 개입하게 된다는건 안전의 측면에서 긍정적으로 볼 수 있다.

...인데, 진짜 인간의 데이터 효율성이 더 높긴 한가?

Yann Lecun이 지적했던걸로 기억하는데, 인간이 학습하는 데이터의 양을 계산해보면 AI 학습에 쓰이는 양보다 딱히 적지 않다. 인간은 감각기관들을 통해 매순간 시청각 데이터를 수집하고 있고, 이는 아주 긴 동영상을 학습 데이터로 쓰는 셈이 된다.

다만 동영상이 효율적인 형태의 데이터가 아니란 점을 고려할 필요가 있다. 일단 노이즈가 대부분이고, 자기전에 유튜브 쇼츠에서 본 트랄라레로 트랄랄라같은 것도 상당한 분량을 차지하고 있다. 세상에 존재하는 모든 책을 다읽은 셈인 GPT와 비교해서, 인간이 학습에 데이터를 실질적으로 적게 쓰는 것은 맞다고 생각한다.

또 다른 관점은, 학습에 데이터를 적게 쓴건 맞는데 그게 꼼수에 가깝다는 것이다. 나는 이 부분이 흥미롭고, 사실 이걸 공유하고 싶어서 이 글을 쓰기 시작했다.

여기서 꼼수라는 얘기는, 인간이 데이터를 있는 그대로 학습하는 대신 일종의 편향(또는 고집?)에 기반해서 학습한다는 얘기다. 이론적으로 뉴럴넷은 파라미터만 충분하면 모든 함수를 학습할 수 있다. 그런데 인간은 모든 함수를 학습할 수 있는가?

예컨데 100자리 곱셈을 머릿속으로 수행할수 있는 인간은 존재하지 않는다. 뉴런 갯수를 생각하면 뇌에 100자리 곱셈을 수행하는 프로그램을 주입하는게 불가능할리가 없는데 말이다. 하지만 누군가가 100자리 곱셈을 오랫동안 연습한다고해서 그게 가능해질거라고 믿기는 힘들다. 주위를 살펴보면, 우리가 매일 수행하는 지적인 활동 중에 별로 어려운 일이 아님에도(= 단순한 함수) 도구의 힘을 빌리지 않으면 힘든 일을 쉽게 발견할 수 있다.

즉, 인간은 일반적인 의미의 '학습'을 현존하는 AI보다 잘 수행하는 것이 아니란 얘기다. 대신 데이터가 충분하지 않을때도 성급하게(?) 판단해서 뭔가를 한다. 그런데 그게 모종의 이유로 여태 잘 통했을 뿐이다.

가령 어떤 개발자가 함수형 프로그래밍을 딱 1주일 공부하고, 음, 이거 짱인데? 앞으로 꾸준히 공부하고 프로젝트에도 도입해야지 라고 생각하는 경우를 상상해보자. 이게 함수형 프로그래밍에 대한 깊은 이해를 바탕으로 한 판단일리는 없을 것이다. 그보단 간결함, 우아함과 같은 미적인 기준에 의한 판단에 가깝다. 이러고 만약 함수형 프로그래밍이 10년후에도 여전히 중요한 패러다임이라면, 그때가서 통찰력, 직관 등의 단어로 과거의 선택을 포장할 수 있다.

어쩌면 '천재', '혁명' 등으로 수식되는 인물과 사건들도 이런 무모함의 결과물이지 않을까? 대중적으로 유명한 사례로는 사과 하나가 떨어지는걸 보고 만유인력의 법칙을 발견한 뉴턴을 떠올릴 수 있다. 극상의 데이터 효율을 보여주는 사례다. 이를 복잡한 자연 현상 뒤에 '일관되게' 적용되는 '단순한' 법칙의 존재를 믿은 결과로 해석하곤 한다. 하지만 그 믿음엔 별 근거가 없다!

그렇다면 AI도 마찬가지로 이렇게 하도록 가르치면 안될까? 통찰력이건 꼼수건 간에 아무튼 효과가 있어보이니 말이다.

일단 그 방법을 모른다는 문제가 있긴 한데, 애초에 그걸 가르치는게 맞냐는 의견도 있다. 꼼수는 그래봤자 꼼수일 뿐이고, 오늘은 맞춰도 내일은 틀릴 수 있다. 잘못된 직관을 가지고 실패하는 사례는 무수히 많다. arXiv에 엉터리 논문 올리는 자칭 뉴턴들이 한둘이 아닌 것으로 안다.

그렇다면 빈 서판에 압도적인 양의 데이터를 밀어넣는 것만이 진리에 계속해서 가까워질 수 있는 방법인건가?

8

1 comment

If you have a fediverse account, you can comment on this article from your own instance. Search https://hackers.pub/ap/articles/0196d2aa-7c6b-74af-ade9-e97787833bc0 on your instance and reply to it.

@bglbgl gwyng 인류 지성사에 무언가 큰 브레이크스루를 내는 사람들의 공통점 중에 그런 기질적인 편향 집착이 있는 거 같아요. 뛰어난 사고 능력 자체도 역할을 했겠지만 그건 어쩌면 저런 기질적 위험성을 안고도 일정 나이 이상까지 (직업적으로나 생물학적으로) 생존할 수 있게 해서 그 결과를 세상에 내놓게 하는 보조적인 수단 아닌가 하는 생각도 듭니다. 아직 설득할 근거는 부족한데 본인은 밑도 끝도 없이 확신을 갖고 적어도 10년 이상을 밀어 부쳐야만 그 결과가 나오는 것들이 있잖아요.

그럼 이게 개체 단위에서 경쟁력있는 학습 모델인가 하면 당연히 그렇지 않다고 생각합니다. 하지만 인류 전체를 하나의 앙상블 학습 기계로 생각한다면 꽤나 괜찮게 작동하는 방식이라고 생각합니다. 이름을 붙여보자면 불나방떼 학습법 ?!

4