tmishina's blog

Data Mining 本を読む (2) 1.2 Simple examples: Thea weather problem and others

reading

この本では例をたくさん出して学習を進めていく
異なるデータセットがそれぞれ新しい課題を示してくれる
異なるデータセットを検討することは重要だ。異なるアルゴリズムをテストするために、100程度のデータからなるコーパスがたくさん集められてきたくらいである。
この節ではとても単純な例を出す。
アルゴリズムを解説するには、そのエッセンスがわかるに十分な例があればよいから。
実用上の問題として、データの形式がプロプライエタリなことが挙げられる
最初からデータを共有するつもりでDB製品を選んだりはしない

天候問題

Table 1.2 (p. 11) 参照
データセットに含まれる各データは、そのデータインスタンスを表現する複数の属性（feature）からなる
Tbl. 1.2 の例だと、属性は、概況・気温・湿度・風
属性は数値ではなく記号で表現されていて、組み合わせは36
順序がついていて、順番に解釈されるルールの集合のことを 決定リスト と呼ぶ
もう少し複雑な例: Table 1.3
一部が数値になっている
このようなデータに対しては、ルールの中に不等式が出てくる（数値属性問題もしくは混合属性問題と呼ぶ）
以上見てきたようなルールは、天候の例を "play" と "not play" の二つに分類するための classification rule である
結果を無視すれば、関連性の強い属性値を見つけるもの…と解釈することもでき、その場合は association rule と呼ぶ

理想的な問題の例: コンタクトレンズ処方

Tbl. 1.1 (p. 6) を再度使う。
1. 7 ではとてもシンプルなルールで表現していたが、Figure 1.1 はたくさんのルールからなる
これでも分類は正しく行うことができる
ルール同士が衝突することもあるので、ルールに重みをつける等で対応する
Fig. 1.1 はもっと単純化できないか、と思うことだろう
実はこの例はデータを単にルールにしただけで何の要約にもなってない
機械学習の成功例の一つは、チェスの終盤局面のデータベースを圧縮すること
- そのとき使われたのはルールではなく 決定木
Figure 1.2 がコンタクトレンズ処方の決定木
このほうが簡潔明瞭
ただし、この決定木は2例に対して誤った分類を行う
学習結果をどう表現するかに関する話題は第3章にて

あやめの萼・花弁: 古典的数値データセット

萼と花弁の長さ・幅からあやめを分類したデータ

CPU Performance

ある値を別の値の線形結合で表現して、予測値を計算する（回帰方程式）

より現実的な例: 労使交渉

労働条件から、acceptable か unacceptable に分類する
現実データなので、欠損値があるし、正確な分類器は得られないこともある
決定木の例がふたつある (Figure 1.3)
片方 (A) は、ときどき分類を間違うものの、分類の内容は納得できるものになっている
片方 (B) は、より正確であるが細かく、分類が不自然。訓練データに過適応している。
実はAはBを枝刈りして作ったもの。詳細は第6章にて

古典的機械学習成功例: 豆の分類

豆の状態から、その豆の病気を判定するルール
domain knowledge (事前知識) の役割がよくわかる例
「葉の状態が良好」と言った場合は「葉の奇形」というのはあり得ない、というのが事前知識
であるから、実はこのルールは片方が片方の特殊例になっている。こういうことはルールだけを見てもわからない
この例は1970年代の研究だが、実は機械学習による診断が97.5%対72%で、専門家の診断より正確だった