Demystifying Language Model Forgetting徹底解説：低ランク行列で読み解くLLMの忘却

2025年1月15日

こんにちは、ゆずかきです。
今回は、「Demystifying Language Model Forgetting with Low-Rank Example Associations」 という2024年12月付のarXiv論文を取り上げてみます。
近年の大規模言語モデル（LLM）は、ファインチューニングを繰り返すと「元々学習していた前段の知識（アップストリーム）」を忘れてしまう、いわゆる「Catastrophic Forgetting（破滅的忘却）」の問題に直面します。これをどう緩和し、どう解明するかはLLM研究の大きな課題ですが、本論文は特に「新たに学習したタスク」と「忘れてしまうアップストリームの例」との関連性を、低ランク（行列分解的）な観点から丁寧に分析しています。

それでは、論文の概要からアプローチ、主要な実験結果、考察、今後の展望まで一気に深掘りしていきましょう。大規模言語モデルの忘却問題に興味をお持ちの中～上級者の方向けに、できるだけ丁寧かつ重厚に解説していきます。

§本記事の構成

はじめに: LLMの“忘却”問題とは？
論文の背景：なぜ「タスク × アップストリーム例」の行列を可視化？
Low-Rank Example Associations：本論文の核心アプローチ
実験概要と結果：多彩なモデル・タスクでの分析
深堀り：なぜ低ランク構造で近似できるのか？
忘却予測（Matrix Completion）で何ができる？
課題と今後の展望：まだ残る難しさ
まとめ：LLMの忘却に挑む新たな一歩

本記事はかなり分量が多いので、興味のあるセクションから読み進めていただいてもOKです。それではスタートです！

§はじめに: LLMの“忘却”問題とは？

大規模言語モデル（Large Language Models, LLM）は、近年様々な下流タスクに適用可能な“万能AI”として注目を浴びています。ところが、ファインチューニングを行うと、先に学習していた情報をどこかで“忘れて”しまうという課題が存在します。これをCatastrophic Forgetting（破滅的忘却）と呼びます。

例）事前学習でWikipediaから得た知識が、追加の安全性調整や新タスク学習のファインチューニングの途中で失われてしまう
例）モデルが本来正しく答えられていたQAへの回答を、別の領域データで再学習すると突然間違えるようになる

この忘却が顕在化すると、大規模言語モデルをオンライン環境で継続的に改善することが困難になり、サービスや研究における信頼性低下につながります。

この論文（以下、「本論文」と表記）は、こうした忘却を「何がどのように忘れられるのか」をより定量的かつ体系的に分析しようとした研究です。

§論文の背景：なぜ「タスク × アップストリーム例」の行列を可視化？

従来、忘却を軽減する方法としては、パラメータ正則化や勾配投影、リプレイ（過去データの再学習）など様々なアルゴリズムが提案されてきました。しかし、「具体的にどのアップストリーム例が、どの新タスクの学習で忘れられるのか？」を網羅的に明らかにした例は少ないといいます。

そこで本論文では、

アップストリーム（前段）で学習した例（N個）
新たに学習するタスク（M個）

のそれぞれに対して、「どの程度忘却が起こったか」を行列 Z（サイズ M×N）で可視化し、統計的に分析しました。その際の“忘却度合い”は、アップストリーム例に対する「log perplexity 増加量」で測定されます。つまり、ある新タスクT_iでファインチューニングした結果、アップストリーム例x_jのperplexityがどの程度上昇したかをz_ijに落とし込み、それらを大きな行列として並べたわけです。

さらに興味深いのは、その行列を細かく観察すると、「忘れられやすい例」は特定タスクと強く関連している可能性がある、という点です。本論文いわく、ここに「低ランク」な構造が潜んでいるとのこと。

§Low-Rank Example Associations：本論文の核心アプローチ

ここで本論文の肝となる主張があります。それは、「M×Nの忘却行列Zは、実はSVD（特異値分解）のような低ランク近似で表現できる」というもの。

具体的には、

という形で表され、特にr=1（Rank-1）やr=2,3あたりで大きな部分をカバーできることを実験的に示しています。これは、「あるタスク( T_i )が学習されると、アップストリームの例( x_j )がどれだけ忘れられるか」は、想像以上に単純なパターンで説明できる、という示唆です。

Rank-1モデル（乗法的モデル）:
z_ij ≈ α_i × β_j + バイアス
「タスク側の要因」と「アップストリーム例側の要因」だけで、忘却をそこそこ説明できる
例えば「アップストリーム例の固有の忘れられやすさ」「タスクの忘れやすさ度合い」が独立に存在しているイメージ
SVDの第2,3固有成分以降:
さらに微妙な依存関係（特定の種類のタスクが、特定の種類のデータを忘れがち）を捕捉

本論文では、この手法を「Low-Rank Example Associations」と呼び、それがLLMの忘却を読み解く鍵だと主張しています。

§実験概要と結果：多彩なモデル・タスクでの分析

実験対象モデル

OLMo-1B / OLMo-7B / OLMo-7B-Instruct / MPT-7B
OLMoシリーズは Dolma や Tulu などのデータセットで事前学習・微調整されたモデル
MPT-7B も多様なコーパスで学習されたオープンソースモデル

忘却を測定するアップストリーム例

大規模言語モデルのプリトレーニング（またはInstruction Tuning）に使われたコーパスを、サンプリングして N 個の「アップストリーム例」として定義
例：Dolma から数万～数十万単位で抽出した文書を “x_j” とする

学習する新タスク（M個）

FLAN系列、Dolly、Tulu、BBH、MMLU、TruthfulQA など多岐にわたる Instruction Tuning タスクを用意

ファインチューニング

これら M個のタスクを個別にファインチューニングして、M個の微調整後モデルを作る
それぞれのモデルについて、アップストリーム例 x_j の log perplexity を計測し、(fine-tuned後) – (元モデル) の差を z_ij と定義

こうして完成した行列 Z（サイズ M×N）を視覚化すると、非常に面白いパターンが見られる、と論文は報告しています。

1) Rank-1モデルでも40～70%程度の分散を説明

OLMo-1B, MPT-7B などでは特に単純な乗法的モデルが高い精度で Z を再現
「タスクごとに忘却が増える度合い」と「アップストリーム例が忘れられやすい度合い」の積

2) 複雑な例外的パターンも、SVDの上位3成分くらいまでで捕捉

例：ある特定のNLI系タスクを学習すると、StackOverflowドメインの文章だけが大きく忘れられる…など
全体としては低ランク、しかし部分的にはもう少し複雑な層がある

3) 勾配ベース・テキスト類似度ベースの近似ではダメ

忘却と「タスク＆例」のテキスト類似度や、勾配内積などは相関が低く、0.1以下とのこと
つまり、「表面的な単語の共通度が高い→忘れやすい」などの単純な図式は見られない

§深堀り：なぜ低ランク構造で近似できるのか？

本論文が示唆する最も興味深い点は、「LLMがどんな例を忘れるか」は意外なほど単純なパターンで構成されている というところにあります。仮説としては、以下のように考えられます。

“忘れやすい” 例の一般傾向が存在

たとえば長文すぎる、特殊ドメインすぎる、あるいは頻度が極端に少ないなど、アップストリーム例自身の特性が原因
こうした例は、どのタスクを新しく学んでも忘れられがち（Rank-1で言うと「β_j」が大きい）

“忘却を誘発しやすい” タスクの一般傾向が存在

例えば、新しいタスク学習時に大きくパラメータが変わりやすいタスク（安全性強化など）や、大量のステップが必要なタスク等
そうしたタスクではどのアップストリーム例も忘れがち（Rank-1で言うと「α_i」が大きい）

第2,第3の固有成分で捉えられる“特化パターン”

例えば「自然言語推論（NLI）タスクを学ぶときにだけ忘れる特定ドメイン」「算数系タスクとWikipediaページで起きる特殊相関」
こうした因子も数個（r=2~3）あれば全体の振る舞いを大部分再現できる

論文中でも、「なぜこうした単純構造が生まれるのか」はまだ解明の余地がありそうですが、結果としては「意外ときれいに低ランク近似が効く」ことをデータで示しています。

§忘却予測（Matrix Completion）で何ができる？

本論文では、単に「忘却が低ランク行列で説明できそうだ」という発見に留まらず、それを使って「予測」する応用も紹介しています。具体的には、新たなタスクTを学習するとき、アップストリーム例 x_j がどれだけ忘れられるかを事前に推定するというもの。

Matrix Completion（行列補完）

映画のレコメンド（協調フィルタリング）のように、これまでの学習タスク×忘却行列をもとに、見たことのないタスクに対しても忘却スコアを予測
実際に新タスクTを少しだけ試してみて（小さなシード例Sだけ忘却を測る）、残りの例の忘却を行列補完で当てる

これにより、全アップストリームデータを推論にかける手間を省きつつ、最も忘れられそうな例をピンポイントで抽出できるといいます。

リプレイ（再学習）戦略への応用

忘れられそうな例だけを優先的に再学習することで、全体の忘却を低減
論文ではKNNやSVDなど複数の行列補完手法を比較し、KNN・SVDベースの予測が既存手法より良好だったと報告

このように、「どの例が忘れられるか」を予測→再学習でケア、という流れが提案され、実際に忘却が減ったことを実験で検証しています。

§課題と今後の展望：まだ残る難しさ

本論文は非常に興味深い結果を示す一方で、いくつかの課題やオープンな疑問も提起しています。

なぜ本当に低ランクで説明できるのか？

論文ではSVDによる可視化と数値評価で「結構当てはまる」とは示したが、深い理論解析はこれから
モデルサイズ（1B,7B,それ以上）や学習率などのハイパーパラメータが変わると、どこまで同じ傾向が続くのかは未知

タスク間の順番が変わるとどうなる？

今回は「M個の新タスク」を個別に学習させた場合を対象にしているが、連続学習（連鎖的に複数タスクを順次学ぶ）」シナリオでは忘却が複雑化する
そこでの低ランク構造が保たれるか、さらに他のタスクが混じったときにどんな行列パターンになるか、など課題は多い

上流データ全体を把握できないケース

大規模LLMのプリトレーニングデータは数千億～数兆トークンにもおよび、論文のように行列Zを作ること自体が厳しい場合
本論文では「膨大なデータの一部サンプリング」で分析しているが、それでもコストは大きい。さらにモデルサイズが上がれば計算負荷がさらに増大

適切な再学習（リプレイ）をどこまで自動化できる？

「忘れられやすい例」を優先再学習するアプローチは有効だが、それが最適かどうか、モデル性能や推論速度とのトレードオフはまだ検討の余地がある

これらの点を踏まえて、著者らは「LLMにおける逐次学習・忘却問題を、さらに深く追求しよう」と総括しています。

§まとめ：LLMの忘却に挑む新たな一歩

以上、「Demystifying Language Model Forgetting with Low-Rank Example Associations」を駆け足で解説してきました。要点を整理すると：

M×N行列（タスク × アップストリーム例）の“忘却度”を可視化
意外にも低ランク（Rank-1～3程度）な構造で多くを説明可能
タスク側×アップストリーム例側がそれぞれ「忘却しやすさ」を乗法的に持つイメージ
それを活かして、「忘却予測（行列補完）」→「再学習（リプレイ）」というフローが有用
従来の勾配内積やテキスト類似度よりも、実際の忘却行列Zの統計量を活用するほうが精度高

論文が示す展望は、「忘却を理解してピンポイントで防ぐことが、LLMの連続アップデートを支える基盤技術になる」というもの。大規模言語モデルをオンライン運用するうえで、忘却がどのように発生するかを推定できるというのは大きな武器になりそうです。

とはいえ、理論的解明や超大規模モデルでの一般化、連続学習シナリオへの応用など、先述の通り課題はまだ山積しています。今後の研究進展が楽しみですね。

最後までお読みいただき、ありがとうございました！以上で本論文のご紹介を終わります。

🔑この記事のポイントまとめ

Catastrophic Forgetting：LLMがファインチューニングで上流知識を失う問題
行列Z (M×N)：新タスク(行) × アップストリーム例(列)の「忘却度」を並べたもの
低ランク近似：Rank-1～3程度で4～7割の分散を説明→「タスクごとの忘れやすさ × 例ごとの忘れられやすさ」
Matrix Completionによる忘却予測：忘れられそうな例を事前に特定し、リプレイに活用
理論的背景＆大規模検証：まだ道半ば。モデル規模や連続タスクでの再検証が今後の焦点

§参考文献（論文リンク）

Demystifying Language Model Forgetting with Low-Rank Example Associations: https://arxiv.org/abs/2406.14026

生成AI

Posted by yuzukaki-dialog

MP（Metacognitive Prompting）徹底解説：人間の“内省”をLLMに宿す！CoTを超える自己監視の実力とは

Evolutionary Model Merge徹底解説：SakanaAIが導く進化的アルゴリズムでLLMを“合体”させる新時代

コメント一覧

まだ、コメントがありません