DeepSeek R1徹底解説：強化学習のみでLLMの多段推論がここまで進化！話題のAIモデルを論文解説

2025年1月29日

タイトル：DeepSeek R1 徹底解説：純粋な強化学習でLLMの推論能力を引き出す最先端アプローチ！

こんにちは、ゆずかきです。
ここからは、「DeepSeek R1」 と呼ばれる、最新の大規模言語モデル（LLM）の推論能力を強化するための研究について、一つの技術ブログ記事としてまとめてみたいと思います。

このDeepSeek、2025年1月末現在、世界中でバズっていますよね。
米国株価にかなりの影響があったりと、今後の生成AI開発を左右するインパクトだと思います。

今回取り上げる「DeepSeek R1」は、arXivにて公開された論文

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (arXiv:2501.12948)

からの内容をベースとしています。とくに「DeepSeek-R1-Zero」というモデルが、事前の教師あり学習（SFT）を一切せずに強化学習のみで多段推論能力を獲得してしまった、という衝撃的な報告が含まれている点が非常に興味深いですね。

それでは論文で紹介されている手法・実験結果を、できるだけ噛み砕いて網羅的に解説していきましょう！

§本記事の構成

はじめに: DeepSeek R1とは？
論文の背景
DeepSeek-R1-Zero: 純粋な強化学習による推論能力の獲得
DeepSeek-R1: Cold Start データ + RLの併用で性能を更に引き上げ
Distillation: 小規模モデルへの知識蒸留
主要実験結果と考察
課題と今後の展望
まとめ
おわりに
参考文献（論文リンク）

LLMにおける強化学習による推論力のブースト、しかも従来は必須だった教師ありの下地なしで…というのは非常に興味をそそられます。順を追って解説していきます。

§はじめに: DeepSeek R1とは？

冒頭でも述べましたが、論文の正式タイトルは、下記です。

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (arXiv:2501.12948)

著者は DeepSeek-AI の研究チーム。大規模言語モデルのさらなる進化過程で、「多段推論を強化学習で引き出せるのでは？」というアプローチを徹底的に検証したものです。

特に注目されるのが、次の2点：

DeepSeek-R1-Zero：SFT（Supervised Fine-Tuning）の前処理なしで、ベースモデルに対し大規模強化学習(RL)を行ったら、勝手に優れた推論能力が“自然発現”した。
DeepSeek-R1：そこから更に、わずかな人手データ（Cold Start）を付与して推論力を強化し、最終的にはOpenAIの「o1-1217」モデルに匹敵する成績を叩き出す。

従来、「多段思考（Chain-of-Thought）」は大きなモデルだと自然に発現するとは言われていましたが、それでも通常は教師ありデータ＋微調整が必須と考えられていたところを、RL単体でもかなりの推論力が獲得できることを示した意味は大きいですね。

さらに、研究の最終段階では「Distillation（知識蒸留）」を行い、7B～70B規模のオープンソースモデル（QwenやLlamaなど）に対して、DeepSeek-R1の推論能力を移植できたという点も見逃せません。

§論文の背景

近年はGPT-4、PaLM、OpenAI-o1など、多数の超大規模LLMが登場していますが、それらを更に強くするための“後処理”として重要になってきたのがPost-Trainingや強化学習(RL)です。具体的には、すでにプリトレーニングを終えた大規模モデルに対し、さらに以下を行う流れ：

Supervised Fine-Tuning (SFT)：少量でも人手でアノテーションしたデータに合わせて微調整を実施
Reinforcement Learning (RL)：モデルの出力にスコアを与え、それを最大化するように報酬ベースの学習

LLMの分野では、すでにChatGPTなどがRLHF（人間のフィードバックによる強化学習）を使っていることが知られています。また、GoogleのPaLMやAnthropicのClaudeにも様々なRL的なアプローチが入っています。

そんな中、DeepSeek R1の研究は「推論（reasoning）タスクに特化した強化学習」に注目。OpenAI-o1シリーズが提唱した「長いChain-of-Thoughtを出力させるだけで推論精度が爆上がり」という流れをさらに推し進め、「どうやってテスト時の推論ステップを強化するか？」を実験的に検証したというわけですね。

特に目新しいのは、「強化学習のみで、教師ありデータがゼロの状態からでも推論力が芽生えるか？」という問いに対して、Yesと答える結果を出した点でしょう。これは「emergent ability（創発能力）」という観点で極めて面白いトピックです。

§DeepSeek-R1-Zero: 純粋な強化学習による推論能力の獲得

まず最初に紹介されるのが、DeepSeek-R1-Zero。これは、「ベースモデルに対して、SFTを挟まずにいきなりRLを適用」して作られたモデルです。

GRPO（Group Relative Policy Optimization）

論文では、このRL手法として「GRPO」(Group Relative Policy Optimization) という独自アルゴリズムを採用しています。ざっくり言うと、PPO (Proximal Policy Optimization) に近い枠組みですが、critic（価値関数）を持たずに、サンプル同士の相対評価を行うのが特徴。

各プロンプトに対して、旧ポリシー(𝜋θ_old)から複数サンプルを生成

それらサンプルのスコア(Reward)を比較しながら、優れているサンプルの確率を上げる、劣っているサンプルの確率を下げる

KLペナルティなどで分布の変化が急激になりすぎないよう調整

Reward（報酬）の設計

DeepSeek-R1-Zeroでは、事前に教師データがない代わりに、ルールベースの自動評価で報酬を与えています。例えば算数であれば、「指定した形式で答えを記述 → シンプルな数式チェックかコンパイラ実行で正しさを判定」という方法。実行結果が正しければ高報酬、間違っていれば低報酬という仕組みです。

さらに、Chain-of-Thoughtを必ず <think>～</think> のタグ内に書くよう強制する「フォーマット報酬」も導入。こうすることで、モデルが推論過程を途中で書き出すことを自然に学習します。

当ブログでのCoT解説はこちら👇
CoT（Chain-of-Thought）徹底解説
 ゆっくり解説：CoT

驚くべき成果：勝手に長い思考ステップを生成 & 高精度に

論文で最もワクワクする部分として、DeepSeek-R1-Zeroは最初のうちは全く上手く推論できなかったものの、学習を進めるにつれてどんどん長いCoTを生成し、複雑な算数やコード問題を正解するようになった、という実験結果が示されています。

AIME 2024 (数学コンペ試験) のPass@1が、学習初期15.6% → 71.0%へ急上昇
コード問題（LeetCodeや類似）でも大幅な正答率向上
自然に「再考 (reflection)」「self-verification (答えをもう一度検証)」のようなステップも生まれ、「ちょっと待て、ここは一旦計算し直そう」などの文言が出てくる

さらに「マジョリティ投票 (consensus)」を使うと、AIME精度が86.7%にまで達したとのこと。サイズ的にも100B超級モデルでなくとも、RLプロセスを丁寧に回せばEmergent Abilityに似た振る舞いが見られるわけですね。

一方、「読みやすさが微妙」「多言語が混ざる」などの欠点も観察されています。この段階では純粋に“推論力”だけを伸ばすことに注力しているため、出力のクオリティ（可読性）までは保証しないというわけです。

§DeepSeek-R1: Cold Start データ + RLの併用で性能を更に引き上げ

次に登場するのが本命のDeepSeek-R1。先ほどの「DeepSeek-R1-Zero」では「読みづらい」「多言語混合」などの課題が残っていたので、少しだけ人手の高品質データを加え、マルチステージの強化学習で仕上げたモデルがDeepSeek-R1になります。

構成としては、以下の4ステップを踏むことが論文で紹介されています：

Cold Start: 人手または既存モデルを活用して、“ある程度読みやすい長めのCoT例”を数千サンプル用意し、それでBaseモデルを微調整
Reasoning-Oriented RL: 手順1で得たモデルに対して、DeepSeek-R1-Zero同様の大規模強化学習を行い、数式やコード問題をガツガツ解かせる（ただし、今回は言語混在を防ぐ報酬も追加）
Rejection Sampling + SFT: 上記で得られたRLモデルから、大量の正解回答や読みやすいCoTをリジェクション・サンプリングで収集し、再びBaseモデルをSFT。ここでは、算数・コードだけでなく、ライティング・QAなど多様なデータも含める
RL for All Scenarios: 最後にもう一度RLを回し、ヘルプフルネス（ユーザへの役立ち度）やハームレス（安全性）なども含めた複合的な報酬で調整

こうしてDeepSeek-R1が完成するわけです。論文中では、これにより「OpenAI-o1-1217」クラスの推論性能を達成しながら、可読性や多言語対応などの面でも優れたモデルを作れたと報告しています。

Cold Startのメリット

DeepSeek-R1-Zeroと比較して：

最初からある程度読みやすいフォーマットを学習するため、変な文混じりや乱雑な言語混在が大幅に減少
推論精度の収束も高速化

Cold Startデータはほんの「数千サンプル」程度でも効果が大きいらしく、SFT + RLを段階的に進めるのが鍵だと論文は強調しています。

§Distillation: 小規模モデルへの知識蒸留

さらには、DeepSeek-R1で獲得した「推論能力」を、より小さなモデルへ注入する試みも紹介されています。具体的には…

Qwenシリーズ: Qwen2.5-32B, Qwen2.5-14B, Qwen2.5-7B, Qwen2.5-1.5B
Llamaシリーズ: Llama-3.1-8B, Llama-3.3-70B-Instruct

といったベースモデルに対し、DeepSeek-R1が生成した約80万サンプル（算数・コード・一般QAなど多様）を用いてSFT（知識蒸留）することで、推論タスクの性能を大幅に向上したと報告。

論文では「DeepSeek-R1-Distill-Qwen-7B」「DeepSeek-R1-Distill-Qwen-32B」などのチェックポイントを公開しており、たとえば7BモデルでもAIME2024でPass@1が55.5%を記録。これは既存の32Bモデル（QwQ-32B-Preview）を上回る性能だといいます。

また興味深いのが、小さなモデルを直接RLで鍛える（DeepSeek-R1-Zeroを小モデルにやる）よりも、大モデルが生成した推論データを蒸留した方が圧倒的に高い性能が得られる、という点。著者は「高度な推論パターンは大きなベースモデルだからこそ自然に学習される」とし、蒸留ではその知識を“お手軽”に移植できることを強調しています。

§主要実験結果と考察

論文には非常に多くのベンチマーク結果が掲載されていますが、注目どころをピックアップすると：

Math系タスク
- AIME 2024, MATH-500, CNMO2024（中国数学オリンピック）などを評価。
- DeepSeek-R1はAIMEで79.8% (Pass@1)、MATH-500で97.3%と、OpenAI-o1-1217に肉薄または同等のスコア。
- DeepSeek-R1-ZeroですらAIMEで71%に達し、マジョリティ投票で86.7%とOpenAI-o1-0912を超える驚異的な強さ。
Coding系タスク
- LiveCodeBench, Codeforces, SWE-Bench Verified など多数。
- 特にCodeforcesでの「競技プログラミング」スコアは、DeepSeek-R1が96.3%の人間上位割合を達成（Eloレーティング2029相当）し、ほぼOpenAI-o1-1217に並ぶ。
- 一方、実務寄りの大規模ソフトウェア課題 (SWE-Bench Verified や Aider-Polyglotなど) では、まだOpenAI-o1に少し及ばないが、論文には「データ量が限られていた」「今後の拡充で改善可能」と記載あり。
知識・常識推論
- MMLU, GPQA Diamond, SimpleQA等で評価。
- MMLU: DeepSeek-R1が90.8%を記録し、DeepSeek-V3 (88.5%) を上回り、OpenAI-o1-1217 (91.8%) にほぼ接近。
- GPQA Diamond: DeepSeek-R1が71.5%と大幅に伸び、DeepSeek-V3の59.1%を大幅に超えた。
- 一方で中国語のSimpleQAなどでは、ハラスメント対策RLの影響か回答拒否が増えたせいでスコアが落ちる場合もあるとのこと。
オープンエンド評価 (AlpacaEval2.0, ArenaHard)
- GPT-4などをジャッジに用いて、文章生成・一般QAの良し悪しを評価。
- DeepSeek-R1はAlpacaEval2.0で87.6%の勝率、ArenaHardで92.3%を記録。
- これは“推論能力が高いモデルほど、論理的・整合的な文章を生成しやすい”という傾向を示唆している、と論文は語る。

総じて、「純粋な推論系タスク（数学・コード・論理QA）」で特に抜群の性能を示しつつ、一般タスクでもDeepSeek-V3以上の水準を発揮しているのが際立ちます。OpenAI-o1-1217やClaude-3.5などクローズドソースの強力モデルと比べても互角に戦えるのはすごいですね。

§課題と今後の展望

DeepSeek-R1論文の最後では、いくつかの失敗事例や課題も率直に挙げられています。

Process Reward Model (PRM)の難しさ
- 推論途中の各ステップに対して細粒度の報酬を与える方法も試したが、トークンレベルでの正誤判断が難しく、さらに「報酬ハッキング」が発生しやすい。
- 大規模RLにおいて、PRMを使うと訓練コストが大きく、うまく機能しないケースが多かった。
MCTS（Monte Carlo Tree Search）の難しさ
- AlphaGo, AlphaZeroのように手順を細かく探索する戦略をLLMに適用しようとしたが、自然言語生成の探索空間はチェスや碁と比べても膨大すぎて、うまくいかなかった。
- 小規模な問題ならMCTSの推論をオンラインで使うと精度が上がる場合もあるが、モデル自体を自己検索でブートストラップするのは難しかった模様。
推論時のプロンプト要件
- DeepSeek-R1は意外とFew-Shot Promptingが合わないらしく、ゼロショットでそのまま「問題文とフォーマット指示」だけを投げたほうが高スコアになりがち。
- 特にCoTの例示を入れると、学習してきたスタイルと衝突して逆効果となるケースがあるという。
小規模モデルへの直接RLは非効率
- 小さいベースモデルをいきなりRLで鍛えるより、大型モデルで推論力を付与 → 蒸留で小型化、の方が格段に強力かつ計算コストも安い。
- これは「Emergent Abilitiesは大型モデルでこそ自然に発現する」という一連の知見を裏付けるもの。

将来的には、さらなる汎用タスク能力をDeepSeek-R1へ付与するほか、多言語や長文読解、コード自動修正などにも応用範囲を広げる可能性が示唆されています。論文は「引き続き大規模研究が必要」と結んでいますね。

§まとめ

ここまで見てきたように、DeepSeek R1は「LLMの推論能力を強化学習のみで劇的に向上させる」という大胆な試みに成功した、非常に興味深い研究でした。ポイントを整理すると：

DeepSeek-R1-Zero：
- SFT一切なしで、純粋にルールベース報酬を与えて強化学習を行っただけで、数学・コーディングなどの推論問題を高精度で解く能力が芽生えた。
- CoTを長く書き出し、「再考」や「検証」などの人間的なステップも自然に発生。Emergent abilityの一種とも言える成果。
DeepSeek-R1：
- Cold Start（少量の高品質データ） + RL を段階的に進めることで、可読性や安全性にも配慮しつつ、高い推論性能を獲得。
- 最終的にはOpenAI-o1-1217に匹敵する精度を、数学・コード・知識タスクなど広範囲で達成。
Distillation（知識蒸留）：
- DeepSeek-R1の出力を下位パラメータ数のモデル（Qwen, Llamaなど）に蒸留し、7Bモデルですら既存の32Bモデルを超える推論力を実現。
- 小さいモデルを直接RLするより、大きいモデルで推論能力を育てて蒸留する方が圧倒的に有効。
まだ残る課題：
- 推論ステップごとの報酬設計（PRM）は大規模では難しい
- MCTSでの大規模自己探索はうまく機能しなかった
- Few-shotプロンプトが逆効果になるケース（独特のプロンプト最適化が必要）
- 多言語対応、SE(Software Engineering)タスクへの適用は今後の拡充で改善

全体として、チェスや碁のように人間の方が手本を作らなくても、勝手に自己進化できる可能性があるという点は非常にエキサイティングです。「少数の高品質サンプル + 大規模RL」という流れは、他の研究やサービス開発でも大いに参考になるでしょう。

§おわりに

以上、最新の論文「DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning」の内容を網羅的にまとめてみました。

個人的には、モデルが長い思考プロセスを自在に生成しながら、正答かどうかを自発的に検証・修正するという動きが非常に面白かったです。そこにCold Startデータを少量与えるだけで、グッと可読性と安定性が上がるというのも実践的に役立ちそうですし、大型モデルが持つ推論パターンを小型モデルに移植できるという「蒸留」の道筋も今後のLLM研究に大きな示唆を与えるものだと思います。

現在はまだソフトウェア開発タスクや多言語タスクで課題が残るようですが、純粋なRLでここまでできるというのは本当に驚き。これを起点に、さらに高度な推論・大規模推論・安全性強化を組み合わせた次世代モデルが出てくるのが待ち遠しいですね。

最後までお読みいただき、ありがとうございました！

🔑この記事のポイントまとめ