第2章：識別規則と学習法の概要_01 - データサイエンスがやりたいSEの備忘録

識別規則は、入力データxからクラスCi = {C1.......Ck}への写像である。
代表的な識別規則は下記の通り

No	識別規則	概要	代表例
1	事後確率による方法	パターン空間に確率分布を仮定し、事後確率が最大のクラスに分類する。	ベイズの最大事後確率法
2	距離による方法	入力ベクトルxと各クラスの代表ベクトルとの距離を計算し、一番近い代表クラスに分類する	最近傍法
3	関数による方法	関数f(x)の正負または最大値でクラスを決める	パーセプトロン型学習回路／サポートベクトルマシーン
4	決定木による方法	識別規則の真偽に応じて次の識別規則を順次適用し、決定木の形でクラスを決める	決定木

入力データからクラスへの写像をy=f(x)という関数を用いて表現する
パラメータwと入力ベクトルxの線形関数を用いて表現される

y = f(x;w) = W1X1+..........+WdXd = W^tX

学習データを正しく識別できるWを求めること

2クラスの場合
正負の記号を用いて表現する

t = 1
t = -1

3クラス以上の場合

ダミー変数を用いて表現する

t = (0,0,1)^t
t = (0,0,0,0,0,1,0,0,0)^t

→このような符号化方式をK対1符号化と呼ぶ
f:id:fenruru:20190211194840j:plain

教師入力として上記のように{1, 0}の2値ではなく、関数値で与えられるものもある

概念	説明
関数近似	教師入力として与えられた関数値にできるだけ近似する識別関数f(x)を求めること
線形回帰	関数近似のうち、特に線形関数で近似する場合を指す

別名、自己組織型学習と呼ぶ。
クラスタリングが主目的になる。

概念	説明
学習	識別関数の出力値と教師データの誤差が最小になるように識別関数のパラメータを調整すること
汎化能力	未知のデータに対する識別能力
汎化誤差	学習データとテストデータの性能の差を指す