Google DeepMind(グーグル・ディープマインド)社で行われた研究によって、人工知能(AI)が人間の助けを借りずに、自分自身で新しい「学習の方法」を作る仕組みが構築されました。
この新たな学習アルゴリズムは「DiscoRL(ディスコRL)」と名付けられ、複数の古いビデオゲーム(Atari)を使った評価テストで、人間が設計した学習法を上回るスコアを記録しました。
また、このアルゴリズムは一度も経験したことのない新しいゲームにも高いレベルで対応できる柔軟性を見せています。
この研究はAIが自分自身で学び方を改善し進化させられる可能性を、つまりAIがAIを育てられる可能性を示した画期的な成果と言えます。
このAI自身が生み出した「学習法」は、いったいどのようにして誕生し、私たちの生活にどんな影響をもたらすのでしょうか?
研究内容の詳細は2025年10月22日に『Nature』にて発表されました。
目次
- AIがAIのために自分で学習法を編み出す
- 機械が自分の『先生』を作った日——AI学習革命の幕開け
- AIが人間の手を離れて自立進化する未来は来るのか?
AIがAIのために自分で学習法を編み出す

AIが自分の「先生」を作り出す——そんなSF小説のような日が現実に近づこうとしています。
AI(人工知能)は現在、囲碁やチェス、さらには画像認識や翻訳など、さまざまな分野で人間をしのぐほどの力を発揮しています。
ただし、AIが強くなるためには、人間があらかじめ決めた「学習方法」をAIに与える必要があります。
言ってみれば、AIはまだ「人間が書いた教科書」で学んでいる状態なのです。
一方、生き物の多くは生まれながらに学習機能を備えています。
自転車の乗り方や逆上がりのように、良い結果(成功)を得られた行動を少しずつ選んでいくことで、行動のやり方を改良していきます。
これは「強化学習」と呼ばれる仕組みで、動物が長い進化の過程で磨いてきた自然な学習方法です。
ところが現在のAIは、この自然な仕組みを完全に再現できているわけではありません。
AIが何かを学ぶには、人間が設計して与えた「学習ルール」(問題を解く手順)に従う必要があります。
例えば、囲碁の世界チャンピオンを破ったAI「AlphaGo(アルファ碁)」は大きな話題になりましたが、その背景には、人間の研究者たちが精密に設計した学習アルゴリズムがありました。
つまり、現在のAIには「自ら学び方を考える」という自由度はほとんどありません。
そのため、多くの研究者が「AI自身が最適な学び方を自分で発見する」ことを次の大きな課題と考えるようになっています。
この難題に挑んだのが、イギリスのAI研究機関であるGoogle DeepMind(グーグル・ディープマインド)社の研究チームです。
彼らが採用したのは「メタ学習」(学び方を学ぶ方法)という考え方です。
「メタ」とは「一段階上の」という意味で、「メタ学習」とは単に学ぶのではなく、「学習する方法そのものを学ぶ」というもう一つ上の仕組みのことです。
今回の研究チームは、このメタ学習を活用してAIが自分自身の「教師」(学習方法を教える存在)を作り出す仕組みを設計しました。
イメージとしては、AIが「生徒役」と「先生役」に分かれ、生徒役が問題を解いて成果を出すと、その結果を参考に先生役のAIが次の世代の学習方法を改良していきます。
この反復を重ねる仕組みは、まるで進化のようにより良い学習法が生き残っていく様子にもたとえられます。
コンピューターの中で「小さな改良」を繰り返し、実際に役立つ学習ルールだけを残していくというわけです。
この大胆な試みの結果、AIはいったいどのような「学習方法」を生み出したのでしょうか?
機械が自分の『先生』を作った日——AI学習革命の幕開け

ここからは、研究チームが行った「AIが自ら学び方を作り出す」という大胆な実験の詳細と、その驚きの結果を見ていきましょう。
研究チームが最初に用意したのは、多数のAIたちが学習に挑むための「仮想環境」です。
この環境というのは、人間で例えれば学校のようなもので、AIが問題を解いたり競争したりするための舞台です。
今回の研究では「Atariベンチマーク」という古典的なビデオゲームのセットを使っています。
「ベンチマーク」とはAIの実力を比較・評価するための共通の問題集のことで、特にAtariベンチマークはAI研究の世界では非常に有名です。
(※生物学の世界におけるマウスやショウジョウバエのような位置づけで、いろいろな研究を横並びで比較するための基準となっています。)
Atariベンチマークの中には「ブロック崩し」のようなシンプルなゲームから、「パックマン」のような複雑なものまで、さまざまな種類のゲームがあります。
この多様さがポイントで、特定のゲームだけが得意な「専門家AI」ではなく、どのようなゲームにも対応できるような「汎用性」(幅広い問題に対応できる力)を持ったAIを作ることが目標だからです。
ここまでで、研究チームがAIに与えた環境のイメージができたかと思います。
では、実際にAIたちはこの環境でどのようにして学習ルールを発見していったのでしょうか?
研究チームは、AIを「先生役」と「生徒役」に分ける仕組みを考案しました。
生徒役のAIは先生役のAIが決めたルールに従ってゲームをプレイします。
その結果、ゲームで高得点を出せたAIもいれば、あまり良い成績を残せなかったAIもいます。
そこで重要になるのが、先生役のAIである「メタネットワーク」(学習ルールを作る上位AI)の存在です。
このメタネットワークは、生徒役AIの成績をもとにして、より良い結果を出したAIの学習ルールを参考にし、次の世代の「新しい学習ルール」を生み出します。
まるで、たくさんの生徒の成績を見比べて良い教え方を見つけ出す熱心な先生のような役割です。
こうして世代交代を何度も繰り返すことで、学習ルールは少しずつ洗練され、より良い結果を出せるように進化していきます。
これは、コンピューターの中で小さな進化を再現しているような仕組みです。
この実験の末に、研究チームはついにAI自身が生み出した新しい学習法、「DiscoRL(ディスコアールエル)」を発見しました。
では、実際に新しく発見された学習法「DiscoRL(ディスコアールエル)」の実力はどのくらいすごいのでしょうか。
研究チームはこのDiscoRLを使って育てたAI(エージェント)の性能を、これまで広く使われてきた人間設計の学習方法(AIアルゴリズム:PPOなど)と比較しました。
するとDiscoRLは、これまで人間が設計した更新則の多くを上回る成績を示しました。
この結果はAI研究者にとっても大きな驚きでした。
さらに注目すべきは、そのAIが「全く新しい課題」に直面したときの対応力です。
DiscoRLを使って育てたAIは、訓練中に一度もプレイしたことのない新しいゲームでも、高いレベルで結果を出すことができました。
人間でいえば、「初めて見る問題集でも優秀な成績を取れる」ような、柔軟な能力を示しています。
従来の人間設計の学習方法では、特定のゲームだけで極端に成績が良いことはよくありました。
しかし、その学習法が他のゲームでも同じようにうまくいくとは限らず、問題ごとに「特別な工夫」が必要でした。
こうした特別な工夫は「小手先のテクニック」とも呼ばれ、別の課題には応用しづらいものでした。
ところが今回のDiscoRLは、そうした特定のゲームだけで効果を発揮する工夫に依存せず、より一般的で汎用的なルールになっていることが示されています。
この点は、AIが「自ら学習ルールを発明した」最大のメリットの一つであり、人間が与えたルールよりも広く使える可能性を示しています。
言い換えれば、AI自身が、自分であらゆる問題に応用できる「汎用性の高い学習法」を編み出したということです。
弟子が師匠を超え、新しい技を生み出したような状況とも言えるでしょう。
つまり、今回の研究結果が示しているのは、AIが単に人間に教えられた学習ルールを超えただけでなく、自ら経験を積んで新しい学習方法を作り出し、それが人間の想定を超えるほど効果的であったということです。
これはAIが今後さらに自律的に「進化」を続けていく可能性を感じさせる成果です。
AIが自分自身の先生を作り出したことで、私たちは新しい時代の入口に立っているのかもしれません。
AIが人間の手を離れて自立進化する未来は来るのか?

今回の研究により、AIが自分自身で学び方を進化させる方法が見出されました。
この成果の大きなポイントは、これまで人間が長い年月をかけて作り上げてきた高度な学習方法の一部をAI自身が上回ったとされる点にあります。
これはただの小さな改良ではなく、AIが学ぶためのルール自体を自ら設計し、改善できる可能性を示した一歩なのです。
では、AIが自分自身で学習の仕方を進化させると、一体どんな良いことがあるのでしょうか。
一言で言えば、AIがより自律的になり、幅広い課題に素早く対応できるようになることです。
具体的には、今回使われたようなゲーム攻略だけでなく、ロボットの制御や膨大なデータを解析する科学研究など、さまざまな分野で応用が期待されます。
もしAIが自由に学び方を進化させられるようになれば、人間が一つひとつ教えなくても多くの問題を解決できる強力なAIが現れる未来も考えられます。
さらに踏み込めば、AIがより優れたAIを作るための学習方法を、人間に頼らず次々と発見していく可能性もあります。
将来的には、AIは人間が考えた学習方法よりも遥かに効率的な方法を自分自身で開発し続け、自律的に進化していくのかもしれません。
しかし、だからといって手放しで喜べるわけではありません。
研究チームも述べているように、DiscoRLを開発するには膨大な計算資源と多様な訓練環境が必要でした。
つまり、現状ではこの仕組みは特殊な条件の整った「大規模な実験環境」の中でしか実現しにくい可能性があります。
また、特定の環境で育ったAIの学習ルールが、本当に他の課題でもそのまま使えるかどうかは、まだ十分に検証されていません。
それでも、この研究が与えた衝撃は決して小さくありません。
研究チームは今回の学習法やプログラムの最小構成のコードと学習済み重みを一般公開しており、世界中の研究者が検証や応用に取り組めるようになっています。
AIが人間の作った学習法を超えたことで、今度は人間がAIから新しい学び方を得るという逆転の可能性も見えてきました。
人類はいま「自分たちが作ったAI」から学び方そのものを学ぶ、新たな時代の入口に立っているのかもしれません。
元論文
Discovering state-of-the-art reinforcement learning algorithms
https://doi.org/10.1038/s41586-025-09761-x
ライター
川勝康弘: ナゾロジー副編集長。 大学で研究生活を送ること10年と少し。 小説家としての活動履歴あり。 専門は生物学ですが、量子力学・社会学・医学・薬学なども担当します。 日々の記事作成は可能な限り、一次資料たる論文を元にするよう心がけています。 夢は最新科学をまとめて小学生用に本にすること。
編集者
ナゾロジー 編集部

