データサイエンスがやりたいSEの備忘録

機械学習とかPythonに興味があります。アウトプットをどうしようか悩んでとりあえず試験的に始めてみた。

第2章:識別規則と学習法の概要_01

識別規則の構成法

識別規則は、入力データxからクラスCi = {C1.......Ck}への写像である。
代表的な識別規則は下記の通り

No 識別規則 概要 代表例
1 事後確率による方法 パターン空間に確率分布を仮定し、事後確率が最大のクラスに分類する。 ベイズの最大事後確率法
2 距離による方法 入力ベクトルxと各クラスの代表ベクトルとの距離を計算し、一番近い代表クラスに分類する 最近傍法
3 関数による方法 関数f(x)の正負または最大値でクラスを決める パーセプトロン型学習回路/サポートベクトルマシーン
4 決定木による方法 識別規則の真偽に応じて次の識別規則を順次適用し、決定木の形でクラスを決める 決定木

教師付き学習

・識別規則

入力データからクラスへの写像をy=f(x)という関数を用いて表現する
パラメータwと入力ベクトルxの線形関数を用いて表現される

y = f(x;w) = W1X1+..........+WdXd = W^tX

・学習の目的

学習データを正しく識別できるWを求めること

・クラスラベル

2クラスの場合
正負の記号を用いて表現する

t = 1
t = -1

3クラス以上の場合

ダミー変数を用いて表現する

t = (0,0,1)^t
t = (0,0,0,0,0,1,0,0,0)^t

→このような符号化方式をK対1符号化と呼ぶ
f:id:fenruru:20190211194840j:plain

教師付き学習と線形回帰

教師入力として上記のように{1, 0}の2値ではなく、関数値で与えられるものもある

概念 説明
関数近似 教師入力として与えられた関数値にできるだけ近似する識別関数f(x)を求めること
線形回帰 関数近似のうち、特に線形関数で近似する場合を指す

教師なし学習

別名、自己組織型学習と呼ぶ。
クラスタリングが主目的になる。

汎化能力

概念 説明
学習 識別関数の出力値と教師データの誤差が最小になるように識別関数のパラメータを調整すること
汎化能力 未知のデータに対する識別能力
汎化誤差 学習データとテストデータの性能の差を指す