ゆっくり解説：STaRでAIが自ら書いた推論を再学習！？STaR手法でAIが自分を強化する仕組み

2025年1月12日

こんにちは！ゆずかきです。
今回は、「STaR（Self-Taught Reasoner）」という新手法を、ゆっくり霊夢（以下、霊夢）＆ゆっくり魔理沙（以下、魔理沙）との対話形式で解説していきます。
「AIが自分で書いた推論を再学習する」ってどんな仕組み？…そんな疑問を初心者向けにサクッとまとめてみました。

それでは…

ゆっくりしていってね！

はじめに
霊夢「こんにちは！今回はSTaR（Self-Taught Reasoner）っていう、AIが自分で書いた“思考過程”を使ってどんどん賢くなる仕組みを紹介するわよ！」
魔理沙「自分で書いた推論をまた学習する…まるでノートまとめを読み返して成績上げるみたいな感じか？」
霊夢「そう！要は、少ない手書き例からスタートして、AI自身が生成した解説を再利用し、段階的に推論力をブーストする手法よ。」

§STaRとは？

霊夢「STaRは、モデルの推論（Chain-of-Thought）を『自己生成→正解だけ再学習』というループで鍛える方法なの。
最初は数件の推論付きサンプルを見せるだけ。でも、モデルがいったん全データに対して“解説＋答え”を書いて、そのうち正しい答えになった解説だけを再学習するのよ。」
魔理沙「なるほど、間違えた推論は捨てちゃうわけだな。じゃあ、難しい問題はどうするんだ？」
霊夢「そこがRationalizationって仕掛け。間違えた問題に正解だけヒントで与えて逆算の推論を書かせるの。で、それも学習に追加するから難問にも対応できる！」

§背景：Few-ShotとCoTだけだと限界？

霊夢「従来、Few-ShotでChain-of-Thought例を見せるだけでも、算数とか常識推論の精度は上がる。でもさ、データ全体をフルに学習できるわけじゃないじゃない？そこをSTaRはうまくブートストラップするのよ。」
魔理沙「つまり、自分が書いた解説を“ラベル付きデータ”にしちゃうんだな。人間が大量の解説を作る手間がいらないわけか。」
霊夢「そのとおり。自己生成→正答だけ再利用だから、Annotationコストを削減して推論力をアップできる仕組みね。」

§STaRの流れ：基本ステップ

少数の推論付きサンプル（Few-ShotのCoT例）を用意
モデルに全部の問題を解かせる（解説＋答えを生成）
答えが合ってる部分だけ抽出→その解説でモデルをFine-Tuning
さらにRationalization（正解ヒントつきで再度解説生成）を追加→学習拡充
これをループして少しずつ性能向上

魔理沙「なるほど、やるたびに『正解の解説』だけを拾って強化してく感じか。『Rationalization』は答えを先に言うから、正しい推論を書きやすいんだな？」
霊夢「そういうこと。難問も「答えがコレだよ」ってわかってれば逆算しやすいでしょ？」

§実験でわかったこと

霊夢「論文では、算数タスクやCommonsense QA、GSM8K（小中学生向け算数）とかで検証してる。」

Arithmetic（加算）：

STaRループを回すほど正答率UP。Rationalizationありだと学習がよりスムーズ。

Commonsense QA：

GPT-J（6B）のベースラインは60%前後だけど、STaRで72.5%にアップ。GPT-3とほぼ同等。

GSM8K：

Few-Shotだと3～5%だけど、STaRで10%程度へ上昇。Rationalizationは限定的効果。

魔理沙「小さいモデルでもけっこう精度上がってるのか？」
霊夢「そうね。ただ『最初にある程度Few-Shot精度がないと進まない』って制約はあるみたい。」

§ポイントと課題

答えを外したサンプルからも学習できる：Rationalizationのおかげ。
RL的なアプローチ：正しいチェインだけ再学習するから、ポリシー勾配的にも近い。
ただし、初期Few-Shot精度が低すぎると学習が進まず、誤った推論に偏るリスク。
バイアス強化の懸念：もし正解かどうかの基準にデータの偏りがあれば、それを強化しちゃうかも。

§具体的なユースケース

霊夢「じゃあどこで活きるかっていうと、算数や論理推論が複雑なチャットボットで強そう。
あと学習データに解説が付いてない場合にも、STaRならモデルが自前で解説を作って強化できるから便利ね。」
魔理沙「たとえば、アプリで『解説付きの回答』をユーザーに見せながら、どんどん学習して賢くなるとか？」
霊夢「そうそう。ドキュメント要約やQAで推論を書かせる場面にも応用できそうだわ。“自分の解説を種に再度学習” する概念は、意外といろんな場面に使えるかもしれないね。」

§まとめ