Tuesday, July 29, 2025

302 ブースティング2(ランダムフォレストとブースティング)

302 ブースティング2(ランダムフォレストとブースティング)

ランダムフォレストとブースティングは、どちらも多数の決定木を組み合わせて予測精度を高めるアンサンブル学習の手法ですが、バイアスとバリアンスの観点から見ると、まったく異なる性質を持っています。

ランダムフォレストは、多数の決定木をそれぞれ独立に学習させ、最終的にその予測を平均化(回帰)や多数決(分類)することで出力を得る方法です。各木は異なるサンプルと特徴量を使って構築されるため、ばらつきのある個別モデルを作りますが、それを統合することで全体の予測の安定性が増し、バリアンス(予測の不安定さ)が抑えられます。ただし、このプロセスでは全体としてやや単純化される側面があり、バイアス(真の値とのずれ)は若干高くなる可能性があります。それでも、多くの場合において、過学習を防ぎつつ安定した結果が得られるという長所があります。

一方のブースティングは、ひとつひとつのモデルを順番に学習させていき、前のモデルがうまく予測できなかったデータに重点を置いて次のモデルを訓練するという方式を取ります。このため、複雑な関係を次第に捉えることができるようになり、全体として非常に低いバイアスを実現できます。特に多数の弱い学習器(たとえば深さ1の決定木)を積み重ねることで、柔軟性の高いモデルになります。しかしその反面、訓練データに対する敏感さが増すため、バリアンスが高くなりやすく、特にノイズを含むデータでは過学習が生じやすくなります。

つまり、ランダムフォレストは「バリアンスの抑制」を重視し、ブースティングは「バイアスの低減」を重視するという性質を持ちます。どちらを選ぶかは、データの特徴やモデルの目的、過学習のリスクなどを考慮して判断するのが望ましいと言えます。

No comments:

Post a Comment