Monday, July 28, 2025

366 ロジスティック回帰と超平面

366 ロジスティック回帰と超平面

ロジスティック回帰とは、ある出来事が起きる確率を予測する統計的な手法であり、実際には分類問題に用いられるモデルです。例えば、あるメールがスパムかどうか、ある患者が病気であるかどうかといった、2つの選択肢のいずれかに属するかを予測するのが典型的な用途です。「回帰」という名称がついているものの、これは数値を直接予測する回帰ではなく、確率を通じて最終的にクラス(0か1)を分類するためのモデルです。

このロジスティック回帰では、入力となる特徴量に対して重みをかけて合計する、いわゆる線形結合を計算し、その結果をシグモイド関数というS字型の関数に通して、0から1の間の確率に変換します。そして、この確率がある閾値(多くの場合0.5)を超えるかどうかによって分類が決まります。このようにして、ロジスティック回帰は特徴空間において、ある境界を引いてデータを2つのグループに分けるのです。

このときに登場する「超平面」という概念は、特徴空間を分割するための境界面を指します。2次元空間ではそれは1本の直線であり、3次元空間では平面になります。4次元以上でも同様の境界が存在し、それらをすべて総称して「超平面」と呼びます。ロジスティック回帰においては、重み付きの線形関数が0となるような点の集合がこの超平面であり、分類の境目になります。たとえば、「この超平面より上なら1、下なら0」というようにデータを二分する役割を果たします。

具体例として、年齢と年収という2つの特徴量を用いて「クレジットカードの審査に通るかどうか」を予測するとします。ロジスティック回帰は、この2次元空間にデータをマッピングし、それらを最もよく分ける1本の直線(=超平面)を見つけ出します。この直線の片側にある人は通過、もう片側の人は不通過と判定されるのです。

ただし、ロジスティック回帰は線形モデルであるため、直線や平面のような単純な超平面しか描けません。したがって、データが複雑に絡み合っているような場合には、より柔軟な境界を学習できる他のモデル、たとえばサポートベクターマシン(SVM)やニューラルネットワークなどの非線形モデルが必要になります。ロジスティック回帰の強みは、その単純さと解釈のしやすさにあり、特に特徴量と結果の関係を明示的に理解したい場面で有効な手法です。

No comments:

Post a Comment