txkxo’s memorandum

備忘録になります。記事は基本的にAIで作成しています。

Fei-Fei Li: Spatial Intelligence is the Next Frontier in AI

www.youtube.com

この動画は、AI研究の第一人者であるフェイフェイ・リー博士へのインタビューです。彼女のこれまでのキャリアやAIの進化、そして新たに立ち上げたWorld Labsについて語られています。

ポイント1:ImageNetとAIの転換点

リー博士は、AI、特にコンピュータービジョンの分野でデータが不足していた2009年に、ImageNetプロジェクトを立ち上げました[00:55]。当時、アルゴリズムは機能しておらず、機械が「見る」ことを可能にするためには、データ主導のアプローチが必要だと考えたのです[02:07]。ImageNetは、インターネットから10億枚の画像をダウンロードし、世界の視覚的分類を作成するという壮大なプロジェクトでした[04:12]。2012年にAlexNetが登場すると、畳み込みニューラルネットワークGPUを組み合わせることで、ImageNetチャレンジで画期的な成果を上げ、AIにおけるデータ、GPUニューラルネットワークが結びつく最初の瞬間となりました[08:08]。この出来事は、コンピュータービジョンにおける物体認識の概念を確立する基礎を築きました[08:32]。

ポイント2:オブジェクトからシーン、そして世界へ

ImageNetによって物体認識の問題が解決されると、AIはシーンの理解へと進化しました[08:42]。リー博士は、人間が個々の物体を見るだけでなく、部屋全体を説明できるような、シーンのストーリーテリングという長年の夢を持っていました[09:14]。2015年頃、彼女は教え子のアンドレ・カーパシー氏と共同で、画像にキャプションを付ける、つまりストーリーを語るコンピューターを作成する一連の論文を発表しました[10:48]。これは彼女にとって生涯の目標であり、AIの驚異的な成長を示すものでした[11:03]。さらに、文章から画像を生成するという逆のアイデアも冗談で提案しましたが、当時はまだ世界がその準備ができていませんでした[11:38]。しかし現在では、生成AIの進歩により、文章から美しい画像を生成することが可能になっています[11:45]。

ポイント3:空間知能とWorld Labs

リー博士は、AIの次のフロンティアとして「空間知能」を挙げています[00:08]。彼女は、人間の言語の進化が50万年未満であったのに対し、3Dの世界を理解し、ナビゲートし、相互作用する能力である視覚の進化には5億4000万年かかったと指摘しています[15:01]。このことから、3Dの世界を理解し、生成し、推論し、行動する空間知能の問題を解決することは、AIにとって根本的な課題であると考えています[16:37]。彼女にとって、AGI(汎用人工知能)は空間知能なしには完成せず、この問題に取り組むためにWorld Labsを設立しました[16:54]。World Labsは、フラットなピクセルや言語を超えて、3D構造と世界の空間知能を真に捉える世界モデルの作成を目指しています[17:01]。