データサイエンスがやりたいSEの備忘録

機械学習とかPythonに興味があります。アウトプットをどうしようか悩んでとりあえず試験的に始めてみた。

第3章:ベイズの識別規則_04

リジェクト

事後確率の比が一定以上近しい場合、判断を避けること。

(例)

C1の事後確率 C2の事後確率
0.6 0.4

⇒この場合、判断を誤る可能性が高いため、あえて判断をしない。

下記のように表す。
f:id:fenruru:20190303235515p:plain
(tはリジェクト境界値、Lrがリジェクト領域)

リジェクトの閾値をtとすると、各クラスのリジェクト領域は下記のように表現できる。

識別 C1の事後確率 C2の事後確率 リジェクトの閾値 リジェクトされるパターン(誤差) リジェクトされるパターン(識別)
f:id:fenruru:20190303233850p:plain 0.6 0.4 0.3 f:id:fenruru:20190303235749p:plain f:id:fenruru:20190303235808p:plain
f:id:fenruru:20190303233914p:plain 0.4 0.6 0.3 f:id:fenruru:20190303235835p:plain f:id:fenruru:20190303235857p:plain

ここから識別規則を整理すると、下記のようになる。
f:id:fenruru:20190303235928p:plain
f:id:fenruru:20190303235941p:plain

参考までにリジェクト領域を図で表す。
f:id:fenruru:20190304000012j:plain

リジェクトする閾値tを下げればりじ、リジェクト率は増加し、認識率は上昇、誤識別率は低下する。
なお、認識率、誤識別率は下記のように定義した。
f:id:fenruru:20190304000035p:plain
f:id:fenruru:20190304000046p:plain

リジェクト率と認識率、誤識別率の関係性は以下のようなリジェクト-誤識別率曲線を使って表せる。
f:id:fenruru:20190304000105j:plain