- この本では例をたくさん出して学習を進めていく
- 異なるデータセットがそれぞれ新しい課題を示してくれる
- 異なるデータセットを検討することは重要だ。異なるアルゴリズムをテストするために、100程度のデータからなるコーパスがたくさん集められてきたくらいである。
- この節ではとても単純な例を出す。
- アルゴリズムを解説するには、そのエッセンスがわかるに十分な例があればよいから。
- 実用上の問題として、データの形式がプロプライエタリなことが挙げられる
- 最初からデータを共有するつもりでDB製品を選んだりはしない
天候問題
- Table 1.2 (p. 11) 参照
- データセットに含まれる各データは、そのデータインスタンスを表現する複数の属性(feature)からなる
- Tbl. 1.2 の例だと、属性は、概況・気温・湿度・風
- 属性は数値ではなく記号で表現されていて、組み合わせは36
- 順序がついていて、順番に解釈されるルールの集合のことを 決定リスト と呼ぶ
- もう少し複雑な例: Table 1.3
- 一部が数値になっている
- このようなデータに対しては、ルールの中に不等式が出てくる(数値属性問題もしくは混合属性問題と呼ぶ)
- 以上見てきたようなルールは、天候の例を "play" と "not play" の二つに分類するための classification rule である
- 結果を無視すれば、関連性の強い属性値を見つけるもの…と解釈することもでき、その場合は association rule と呼ぶ
理想的な問題の例: コンタクトレンズ処方
- Tbl. 1.1 (p. 6) を再度使う。
- 7 ではとてもシンプルなルールで表現していたが、Figure 1.1 はたくさんのルールからなる
- これでも分類は正しく行うことができる
- ルール同士が衝突することもあるので、ルールに重みをつける等で対応する
- Fig. 1.1 はもっと単純化できないか、と思うことだろう
- 実はこの例はデータを単にルールにしただけで何の要約にもなってない
- 機械学習の成功例の一つは、チェスの終盤局面のデータベースを圧縮すること
- そのとき使われたのはルールではなく 決定木
- Figure 1.2 がコンタクトレンズ処方の決定木
- このほうが簡潔明瞭
- ただし、この決定木は2例に対して誤った分類を行う
- 学習結果をどう表現するかに関する話題は第3章にて
あやめの萼・花弁: 古典的数値データセット
- 萼と花弁の長さ・幅からあやめを分類したデータ
CPU Performance
- ある値を別の値の線形結合で表現して、予測値を計算する(回帰方程式)
より現実的な例: 労使交渉
- 労働条件から、acceptable か unacceptable に分類する
- 現実データなので、欠損値があるし、正確な分類器は得られないこともある
- 決定木の例がふたつある (Figure 1.3)
- 片方 (A) は、ときどき分類を間違うものの、分類の内容は納得できるものになっている
- 片方 (B) は、より正確であるが細かく、分類が不自然。訓練データに過適応している。
- 実はAはBを枝刈りして作ったもの。詳細は第6章にて
古典的機械学習成功例: 豆の分類
- 豆の状態から、その豆の病気を判定するルール
- domain knowledge (事前知識) の役割がよくわかる例
- 「葉の状態が良好」と言った場合は「葉の奇形」というのはあり得ない、というのが事前知識
- であるから、実はこのルールは片方が片方の特殊例になっている。こういうことはルールだけを見てもわからない
- この例は1970年代の研究だが、実は機械学習による診断が97.5%対72%で、専門家の診断より正確だった