AIと人間のデータ効率性による比較

AIと人間の能力を比較する際、長期的に意味のある指標としてデータ効率性があります。

これは同じ量のデータが与えられた時に、そこからどれだけうまく一般化して学習できるかということです。現存するAIは人間に比べてデータ効率性が非常に劣っています。これはChatGPTを開発したIlya Sutskeverが今後解決すべき課題として挙げた部分でもあります。この問題は単にGPUを増やすだけでは解決されず、設計における革新が必要なため、AIの急速な発展を心配する人々にとっては希望的です。

ふう、よかった。久しぶりに安心して眠れそうだ。

...というには、ここで考えるべきポイントがあります。

まず、データ効率性が劣っていても、何とか学習してしまえばその能力は複製可能です。そのため、継続的に新しい情報を学習する必要が少ない職業は依然として脅威にさらされています。コールセンターのスタッフはその一例です。

データ効率性が重要な職業の代表例として、経営者と研究者があります。彼らは常にデータが不足している状況に置かれており、新しいデータが入ってくるとそこから最大限の情報を抽出して次の選択に活用しなければなりません。このとき、すでに複数の分野で超人的な能力を持つAIをツールとして活用しながらも、主導権は依然として人間が握っている状態になります。AIが既存の学習能力を超える問題に直面するたびに、人間にターンが回ってくるからです。ビジネスと研究はその結果が世界に与える影響が大きいため、ここしばらくは人間が継続的に関与することになるという点は、安全の観点からポジティブに捉えることができます。

...しかし、本当に人間のデータ効率性の方が高いのでしょうか？

おそらくYann Lecunが指摘していたと思いますが、人間が受け取るデータ量を計算してみると、AI学習に使われる量より少なくはありません。人間は毎秒視聴覚データを収集しており、これは非常に大きな動画ファイルと見なすことができます。

ただし、動画が効率的なデータ形式ではないという点を考慮する必要があります。まずノイズがほとんどで、寝る前にYouTubeショーツで見たトゥララレロトゥラララのようなものも相当な量を占めています。実際に世界に存在するすべての本を読んだことになるGPTと比較して、人間が学習にデータを少なく使っているのは確かだと思います。

もう一つの視点は、学習にデータを少なく使っているのは確かだが、それが一種の裏技に近いというものです。私はこの意見が興味深く、実はこれを共有したくてここまでの内容を書きました。

ここで裏技という話は、人間がデータをそのまま学習するのではなく、一種のバイアス（または頑固さ？）に基づいて学習するということです。理論的にはニューラルネットはパラメータさえ十分あれば、あらゆる関数を学習できます。しかし、人間はあらゆる関数を学習できるでしょうか？

例えば、100桁の掛け算を頭の中で実行できる人間は存在しません。ニューロンの数を考えると、脳に100桁の掛け算を実行するプログラムを注入することは不可能ではないはずですが。しかし、誰かが100桁の掛け算を長い間練習したとしても、それが可能になるとは信じがたいです。私たちが毎日行う知的活動の中で、それほど難しいことではないにもかかわらず（＝単純な関数）、ツールの力を借りなければ非常に困難なものがたくさんあることがわかります。

つまり、人間は一般的な意味での「学習」を現存するAIよりも上手く実行しているのではなく、データが十分でない時でも性急に結論を出しているだけなのです。しかし、それが何らかの理由でこれまでうまく機能してきたということです。

例えば、ある開発者が関数型プログラミングをたった1週間勉強して、「これはすごいな？今後も継続的に勉強して、プロジェクトにも導入しよう」と考えるケースを想像してみましょう。これが関数型プログラミングに対する深い理解に基づいた判断であるはずがありません。むしろ、ある「美的な」基準による判断に近いでしょう。そして、もし関数型プログラミングが10年後も依然として重要なパラダイムであれば、その時になって洞察力や直感などの言葉で過去の選択を美化することができます。

では、AIにこのような洞察力を教えることはできないのでしょうか？

まず、その方法がわからないという問題がありますが、そもそもそれを教えることが正しいのかという意見もあります。裏技はあくまで裏技に過ぎず、今日は当たっても明日は外れるかもしれません。間違った直感を持って失敗するケースは無数にあります。

もし白紙の状態に圧倒的な量のデータを注入することが真理により近づける方法だとしたら？

@bglbgl gwyng 인류 지성사에 무언가 큰 브레이크스루를 내는 사람들의 공통점 중에 그런 기질적인 편향 집착이 있는 거 같아요. 뛰어난 사고 능력 자체도 역할을 했겠지만 그건 어쩌면 저런 기질적 위험성을 안고도 일정 나이 이상까지 (직업적으로나 생물학적으로) 생존할 수 있게 해서 그 결과를 세상에 내놓게 하는 보조적인 수단 아닌가 하는 생각도 듭니다. 아직 설득할 근거는 부족한데 본인은 밑도 끝도 없이 확신을 갖고 적어도 10년 이상을 밀어 부쳐야만 그 결과가 나오는 것들이 있잖아요.

그럼 이게 개체 단위에서 경쟁력있는 학습 모델인가 하면 당연히 그렇지 않다고 생각합니다. 하지만 인류 전체를 하나의 앙상블 학습 기계로 생각한다면 꽤나 괜찮게 작동하는 방식이라고 생각합니다. 이름을 붙여보자면 불나방떼 학습법 ?!

Syntax	Description	Examples
`"` keyword `"`	Finds the string within quotes, including spaces. Case-insensitive. (Escape quotes inside with `\"`)	`"Hackers' Pub"`
`from:` handle	Finds content written by the specified user.	`from:hongminhee` `from:hongminhee@hollo.social`
`lang:` ISO 639-1	Finds content written in the specified language.	`lang:en`
`#` tag	Finds content with the specified tag. Case-insensitive.	`#HackersPub`
condition condition	Finds content that satisfies both conditions on either side of the space (logical AND).	`"Hackers' Pub" lang:en`
condition `OR` condition	Finds content that satisfies at least one of the conditions on either side of the OR operator (logical OR).	`#HackersPub OR "Hackers' Pub" lang:en`
`(` condition `)`	Combines the operators within the parentheses first.	`(#HackersPub OR "Hackers' Pub" OR "Hackers Pub") lang:en`

AIと人間のデータ効率性による比較

1 comment