INSIGHTS· AI & JUDGMENT

AlphaGo Zero とは|教師なし強化学習・AlphaZero・MuZero への系譜

AlphaGo Zero(2017年Nature掲載)は、人間の棋譜なしで自己対局のみで超人レベルに到達した囲碁AI。AlphaGo Lee を 3 日で 100-0、AlphaGo Master を 21 日で超えた。続く AlphaZero(チェス・将棋一般化)、MuZero(ルールも与えない学習)への系譜と、汎用 AI 研究への含意を整理する。

AlphaGo Zero 教師なし強化学習
FIG. 01 / AlphaGo Zero 教師なし強化学習PHOTOGRAPHY / ARCHIVE

AlphaGo Zero は、Google DeepMind が 2017 年 10 月に Nature 誌で発表した囲碁 AI で、人間の棋譜を一切使わず、自己対局のみで人間の世界チャンピオンを超えるという、強化学習研究史に画期となった成果である。本記事では、AlphaGo の系譜、AlphaGo Zero の技術的革新、続く AlphaZero(チェス・将棋への一般化)、MuZero(ルール非提供)への発展、そして「教師データ不要のブレイクスルー」が AI 社会実装に与えた含意までを整理する。

AlphaGo の系譜 ── Fan / Lee / Master / Zero

DeepMind の囲碁 AI は段階的に進化してきた。各バージョンの位置づけは次のとおり。

バージョン時期主な特徴
AlphaGo Fan2015年10月欧州チャンピオン Fan Hui(樊麾)に 5–0 で勝利。人間プロ初撃破
AlphaGo Lee2016年3月韓国の世界トップ棋士、李世乭(Lee Sedol)に 4–1 で勝利
AlphaGo Master2017年5月中国の世界 No.1、柯潔(Ke Jie)に 3–0 で勝利。改良された学習手法
AlphaGo Zero2017年10月人間の棋譜不要、自己対局のみで全バージョンを超越

Fan / Lee / Master までは、すべて 人間のプロ棋士の対局譜(棋譜)を初期学習データとして用いていた。これに対し AlphaGo Zero は、完全にゼロから(tabula rasa)、ルールのみを与えて自己対局を始める設計に転換した。

AlphaGo Zero の論文 ── Mastering the game of Go without human knowledge

DeepMind は 2017 年 4 月に論文を Nature に投稿し、同年 10 月に公開された。タイトルは 「Mastering the game of Go without human knowledge」(David Silver ほか)。タイトルの "without human knowledge" が本質を要約している。

学習速度の衝撃

時間達成水準
3 日AlphaGo Lee(李世乭を破ったバージョン)に 100 戦 100 勝
21 日AlphaGo Master(柯潔を破ったバージョン)の水準に到達
40 日それまでの全バージョンを超越

5 百万局の自己対局を経て、超人レベルに到達。人間の歴史 4,000 年分の囲碁の知見を、40 日で再発見し、超えた

技術的な核心 3 点

AlphaGo Zero の革新は、技術的に次の 3 点に集約される。

① 教師なし強化学習:自己対局によって生成される対局譜のみを学習データとする。人間の棋譜・人間の評価は一切不要。教師あり学習の最大の障壁である「高品質な教師データの確保」を構造的に克服した。

② 単一ニューラルネットワークへの統合:旧 AlphaGo は「局面の勝率評価(value network)」と「次の一手の確率推定(policy network)」を別々のニューラルネットで学習していた。AlphaGo Zero はこれを単一のネットワークに統合し、入力(盤面)から両方を同時に出力する設計に簡略化した。

③ MCTS(モンテカルロ木探索)の役割変化:旧 AlphaGo では、学習済みネットワークの出力を MCTS で「補正」していた。AlphaGo Zero では、**MCTS をネットワークの「教師」**として使う。MCTS が探索の結果として出す「より深く読んだ確率分布」と、ネットワークの出力を一致させるよう学習する。MCTS は強化学習における ポリシー改善演算子として機能している。

学習の目的関数は、勝敗を z、ネットワーク出力の盤面評価値を v、MCTS が出す確率を π、ネットワークが出す確率を p、パラメータを θ として:

l = (z – v)² – π·log(p) + c·|θ|²

第1項が勝敗予測誤差、第2項が MCTS の確率分布との交差エントロピー、第3項が L2 正則化。

AlphaZero(2017年12月)── チェス・将棋への一般化

AlphaGo Zero の発表からわずか 2 ヶ月後、DeepMind は AlphaZero を発表(最初に arXiv、後に Science 誌 2018 年に正式掲載)。これは AlphaGo Zero のアルゴリズムを 囲碁・チェス・将棋に汎用化したものである。

  • 各ゲームに対し、ルールだけ与えて自己対局
  • チェスでは、当時の世界最強の AI 「Stockfish 8」をわずか 4 時間の自己対局で超え、100 局で 28 勝 72 引き分け 0 敗
  • 将棋では、世界最強の Elmo を 2 時間で超え
  • 囲碁では、AlphaGo Zero と互角

AlphaZero の意義は「人間の知見を全く使わなくても、ゲーム種を超えて学習できる汎用アルゴリズム」を実証した点にある。

MuZero(2019年)── ルールも与えない学習

2019 年、DeepMind は MuZero を発表(Nature 2020)。AlphaZero では「ゲームのルール」だけは事前に与えていたが、MuZero はルールすら学習対象にした。

  • 囲碁・チェス・将棋に加え、Atari ゲーム 57 種類で人間レベル以上を達成
  • ルールも未知の環境でも、観察と試行からモデルを学習する モデルベース強化学習を確立

これは「現実世界のような、ルールが明示されない複雑な環境」への AI 応用に向けた基盤研究として、自動運転・ロボティクス・ヘルスケア・金融など実応用に直接つながる。

「教師データ不要」が社会に意味するもの

AlphaGo Zero 〜 MuZero の系譜が AI 社会実装に与えた影響は、囲碁の領域を超えて広範である。

① データ収集コストの構造的削減

医療画像診断、創薬、材料開発、産業設備の異常検知 ── 教師データ確保が AI 開発の最大障壁だった領域に、シミュレーション・自己対局・合成データを組み合わせて学習する新しい設計指針が定着した。

② 強化学習のビジネス応用の加速

ロボット制御、自律走行、金融トレード戦略、サプライチェーン最適化など、**「環境とインタラクションして方策を学ぶ」**問題への適用が広がった。

③ 生成 AI と強化学習の融合(RLHF / RLAIF)

2022 年以降の ChatGPT・Claude などの大規模言語モデルでは、RLHF(Reinforcement Learning from Human Feedback) が中核技術となった。これは AlphaGo Zero の系譜が築いた強化学習基盤に、人間からのフィードバック信号を組み合わせた応用とも読める。さらに 2024 年以降の RLAIF(Reinforcement Learning from AI Feedback)Constitutional AI は、人間フィードバックすら最小化する方向に進んでおり、AlphaGo Zero の「人間データ不要」の哲学と地続きである。

④ 適正技術(Appropriate Technology)との接続

教師データ確保が困難な途上国・産業領域でも、シミュレーション環境さえ作れれば AI が実装できる、という展望が開けた。地理情報、農業、公衆衛生など、データインフラが弱い領域での AI 活用が現実的に。

編集部の視点 ── 「人間を凌駕する」の本当の意味

AlphaGo Zero が示したのは、「人間の知恵を超える AI が存在する」というよりも、「ある領域では、人間の知恵を経由しない方が、AI は早く強くなる」という事実である。これは哲学的にも経営的にも重い含意がある。

  • ベスト・プラクティスの罠:人間が蓄積したベスト・プラクティスに依存しすぎる組織は、新しい局面で AI に劣後する可能性がある
  • 問題設定の重要性:AI が学習するのは「与えられたルールと目的」だけ。何を最適化するかを間違えれば、AI は間違った方向に超人的に強くなる。本質的な問い・問いの科学 の論点と直結
  • ESG / サステナビリティ への含意:環境・社会・ガバナンスの最適化を AI に任せるとき、「何が成果か」の定義PFS と同じ論点)こそが最も重要になる

AI 戦略の本質は「強い AI を持つこと」ではなく、「AI に与える問題設定・目的・評価軸の設計」に移っている。AlphaGo Zero は、その転換点を象徴する成果として、今も参照される価値を持つ。

まとめ

AlphaGo Zero は、強化学習研究の歴史的画期であると同時に、AI 社会実装に対する哲学的問いを残した成果である。AlphaZero、MuZero への展開、RLHF・Constitutional AI 等の現代 AI への系譜、そして「教師データ不要」がもたらした産業応用の地平を踏まえると、2017 年の論文発表から 9 年を経た現在も、その示唆は色褪せていない。

AI を経営戦略・サステナビリティに組み込む議論については、資本主義は AI で加速するか、後退するのか?AI と価値判断・価値基準脱炭素・カーボンニュートラルと AIAI デューデリジェンスと DD-AX も参照。

AI 戦略、AI×サステナビリティ、AI 倫理・ガバナンスについて外部専門家の知見が必要な場面では、当サイト運営元の株式会社KI Strategy、およびサステナビリティ専門家マッチングサービスSaslaもご活用いただける。

参考文献

  • David Silver et al., "Mastering the game of Go without human knowledge", Nature 550, 354–359, 2017 DOI
  • David Silver et al., "A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play", Science 362, 1140–1144, 2018
  • Julian Schrittwieser et al., "Mastering Atari, Go, chess and shogi by planning with a learned model", Nature 588, 604–609, 2020 (MuZero)
  • DeepMind 公式:https://deepmind.google/research/projects/alphago/

本記事は2026年5月時点で再構成した。強化学習・汎用 AI 研究は急速に進展する領域なので、DeepMind 公式・arXiv・OpenAI 等の最新リソースで動向を確認することを推奨する。

#人工知能 #AlphaGo #AlphaZero #MuZero #強化学習 #DeepMind

#人工知能#AlphaGo#AlphaZero#MuZero#強化学習#DeepMind
CONTINUE / 次の一歩
FOR READERS OF THIS ESSAY

この記事の論点を、ご自身の組織に当てはめて進められない方へ。
2つの並走ルートをご用意しています。

ROUTE A / ON-DEMANDFROM ¥38,000 / MONTH

Saslaサスラ

定額制 / サステナビリティ専門家プラットフォーム

「翻訳」の最初の壁に、現役の専門家が定額で並走。チャットで日次、月次セッションで構造化。社内に持ち帰れる “翻訳レポート” まで一緒に作成します。

ESG開示
DISCLOSURE
Scope3 算定
GHG
人的資本
HUMAN CAPITAL
サプライチェーン
SUPPLY CHAIN
Saslaで定額相談する
ROUTE B / ONGOING3〜12 MONTH ENGAGEMENT

KI Strategy 伴走

個別契約 / ESG・サステナビリティ伴走支援

本稿の「4つの意」を組織の規律として実装するための個別支援。マテリアリティ更新、開示設計、社内浸透まで、編集主幹がプロジェクトを率いてご一緒します。

マテリアリティ
MATERIALITY
開示設計
DISCLOSURE
社内浸透
ENGAGEMENT
経営伴走
ADVISORY
30分の問診を予約する
まずは読み続けたい方へ ── 次の記事を、隔週金曜にメールでお届けします。SUBSCRIBE THE NEWSLETTER →
編集部
ABOUT THE AUTHOR

編集部

KI STRATEGY / 編集部

KI Strategy 編集部所属。ESG・サステナビリティを軸に、開示と意思決定を貫くロジックを編む。

SECTION 05 / NEWSLETTER

週末に届く、
経営の編集。

隔週金曜の朝、編集部が選んだ1本と、サステナビリティ業界動向の3行サマリーをお届けします。広告なし、退会はワンクリック。

既に 3,200+ 名のESG担当者が購読中NO ADS · UNSUBSCRIBE 1-CLICK
CONSULTATION

個別の論点で進められない方へ

30分の問診で、御社の論点を編集部が言語化します。 Saslaの定額相談、または KI Strategy の伴走支援へお繋ぎします。

30分の問診を予約する →
FOR ONGOING SUPPORT
KI Strategy 伴走
FOR ON-DEMAND Q&A
Sasla 定額相談