データサイエンスがやりたいSEの備忘録

機械学習とかPythonに興味があります。アウトプットをどうしようか悩んでとりあえず試験的に始めてみた。

第3章:ベイズの識別規則_02

条件付きベイズ誤り率とベイズ誤り率

識別クラスごとの境界が下記のように表される。

識別クラス 識別領域 正しく識別される確率 条件付きベイズ誤り率
C1 R1 P(C1|x) P(C2|x)
C2 R2 P(C2|x) P(C1|x)

表を図式化したもの。
f:id:fenruru:20190211222727j:plain

つまり条件付きベイズ誤り率は下記の式で表される。
f:id:fenruru:20190211222805p:plain

また、ベイズ誤り率は条件付きベイズ誤り率の期待値で表される。
f:id:fenruru:20190211222828p:plain

最小損失基準に基づくベイズの識別規則
誤りを起こすことによって生じる損失はクラス間で対称であるとは限らない。
真のクラスがCjのとき、Ciと判断することによって生じる損失を考えてみる。

No 数式 概要
1 f:id:fenruru:20190211222918p:plain 真がjのときにiと判断することによって生じる損失。前者が判断値、後者が真値。
2 f:id:fenruru:20190211222942p:plain 真がjのときにiと判断することによって生じる全体への損失(損失×事後確率)
3 f:id:fenruru:20190211223006p:plain iと判断することによって生じる全体への損失(真がiの場合の損失×事後確率+真がjの場合の損失×事後確率)
4 f:id:fenruru:20190211223045p:plain クラスijの識別の場合
iと判断することによって生じる全体への損失(真がiの場合の損失×事後確率+真がjの場合の損失×事後確率)
jと判断することによって生じる全体への損失(真がiの場合の損失×事後確率+真がjの場合の損失×事後確率)
これを損失行列と呼ぶ。

④の式を展開すると、下記のようになる。
損失の期待値が最小になるような識別をするには、各微分項が最小になるような領域に判断するのが良い。
f:id:fenruru:20190211223327p:plain

となると識別規則は、下記のように表現される。
f:id:fenruru:20190211223353p:plain
f:id:fenruru:20190211223412p:plain

これを整理すると、下記のようになる。 ←これが一番重要
f:id:fenruru:20190211223614p:plain
f:id:fenruru:20190211223635p:plain


損失関数によって識別境界がずれる様子。
f:id:fenruru:20190211223511j:plain

その他の識別規則の表現方法

識別規則は一般的に間違える方が損失が大きくなるため、Lij > Liiが成り立つ。
これを考慮すると、下記のように表現することもできる。
f:id:fenruru:20190211223438p:plain
f:id:fenruru:20190211223453p:plain

また尤度比を用いて表現することもできる。
f:id:fenruru:20190211224142p:plain
f:id:fenruru:20190211224156p:plain