データサイエンスがやりたいSEの備忘録

機械学習とかPythonに興味があります。アウトプットをどうしようか悩んでとりあえず試験的に始めてみた。

第1章:はじめに

パターン認識とは?

概念 意味
識別 「何か」を判断すること
特徴抽出 「有効な特徴」を抽出すること
識別規則 「有効な特徴」と「何か」を結びつけること
特徴ベクトル 抽出された沢山の特徴を並べてベクトルの形にまとめたもの
識別規則 ある特定のクラスに分類するための識別規則
汎化能力 学習データでない未知のデータに対して正しくクラスを識別できる能力

特徴の型

No 尺度名 定義
1 名義尺度 分類のための単なる名前。クラスラベル 名前、住所
2 順序尺度 順序関係を表す。比較はできるが加減算などの演算ができない 大中小、優良可
3 間隔尺度 一定の単位で見積もられた量で等間隔性がある。原点があっても「無」ではない。加減算が意味をもつ 試験の成績、年月
4 比例尺度 原点が定まっている量 身長、体重、年齢

 

符号化とダミー変数

符号化:クラスに対応する変数のみを1とし、他を0とする
ダミー変数:符号化に用いる2値変数

(例)大中小の符号化

  β1 β2 β3
1 0 0
0 1 0
0 0 1

 

次元の呪い

・次元の呪い

未知の複雑な関数を学習するために必要なデータが、次元の増加と共に指数関数的に増加すること
特徴量ベクトルはその特徴量の数によってd次元線形空間を張るため、多いほどすさまじい計算量になる。

・d次元線形空間

1次元は直線、2次元は平面、3次元は立方体、4次元以降が立方体になる
d次元線形空間の頂点・辺・面の数は下記の通り。

次元 頂点
0次元 1  
1次元 2 1  
2次元 4 4 1
3次元 8 12 6
4次元 16 32 24
5次元 32 80 80

・4次元超立方体
画像ver                      

動画ver       
youtu.be




引用元:

はじめてのパターン認識 単行本(ソフトカバー) – 2012/7/31
平井 有三 (著)
森北出版 (2012/7/31)