コース: 人工知能(AI)の基礎:機械学習

回帰法とは

k 近傍法と k 平均法は、 インスタンスベースの怠惰学習で、 出せる答えを全部まとめて 一気に出す手法です。 データの一部変更でも、 全部をやり直す必要があります。 解析するデータがどんどん増えていく場合、 このような方法では対応が困難です。 インスタンスベースの アルゴリズムを使わず、 データのさまざまな部分について 連続的な関係性を把握したい場合に 役立つのが、回帰分析に 代表されるアルゴリズムです。 回帰分析は、予測変数と結果の 関係性を見るものです。 予測変数は、入力変数、 独立変数ともいいます。 リグレッサーと呼ばれることもあります。 ほかの教師あり学習と同様に、 アルゴリズムが訓練データを読み込み、 計算で出した予測値と 実際の結果を比べながら、 繰り返しの処理によって、 徐々に結果予測の精度を高めていく アルゴリズムです。 良質な結果を訓練データにすれば、 テストデータも正確に予測できます。 これは、教師あり学習を使う 強みの1つです。 正解出力にラベルをつけた 訓練データを用意し、 テストデータと一緒に処理します。 線形回帰は、非常に広く利用されている アルゴリズムです。 線形回帰という名前のとおり、 予測変数と結果の関係性を 1本の直線で表すことを目指します。 どのデータからも近いきれいな直線を 引くことができれば、 結果の予測も正確にできるというわけです。 例えばこんな場面です。 アイスクリームの店で、 1日の売上の実績を記録したデータが 20 件あるとします。 予測変数は、それぞれの日の最高気温です。 この訓練データを元に、 気温と売上の関係を2次元の グラフ上にプロットします。 このように、さまざまな日の気温と 売上が点で表されます。 グラフの縦軸は、その日の売上を、 横軸は、その日の最高気温を示しています。 単位は摂氏です。 最低気温は 15 度、 最高気温は 35 度で、 すべて図にプロットします。 この図の関係性を表す直線とは、 データをうまく分割する直線です。 専門用語で、超平面や トレンドラインとも呼ばれます。 この図では、比較的クリアな トレンドラインが出ています。 最高気温が高いほど、 アイスも売れるのです。 図のデータには、 直線から大きくはずれた点もありますが、 お祭りなど、客足を左右する気温以外の 要因があったのかもしれません。 直線から大きく外れたデータが 多くなるほど、 売れ行きの予測は難しくなりますが、 この例では多くないため、 図の直線を使っておおよその売上が 予測できるでしょう。 線上の点に注目します。 例えば、今週の予想気温が、 連日 35 度前後だとします。 トレンドラインを見ると、 35 度の気温に対応する アイスクリームの売上の値は、 この点の縦軸の値、 約3千ドルだとわかります。 これに限らず、線形回帰アルゴリズムは さまざまな用途に応用が可能で、 データの数が増えるほど、 正確なトレンドラインを 出すことができます。 線形回帰については、 機械学習とは呼べないのではないか という議論もあります。 確かに、線形回帰アルゴリズムは 機械に新しいことを 学習させるものではなく、 データから標準統計モデルを 作成させているにすぎません。 学習というより予測という方が 近いでしょう。 いずれにしても、回帰法は 将来予測に多用される手法です。 的確な予測変数を選んで、 結果とのきれいな関係性を 見出せるかがポイントです。

目次