Data Mining 本を読む (2) 1.2 Simple examples: Thea weather problem and others

  • この本では例をたくさん出して学習を進めていく
  • 異なるデータセットがそれぞれ新しい課題を示してくれる
  • 異なるデータセットを検討することは重要だ。異なるアルゴリズムをテストするために、100程度のデータからなるコーパスがたくさん集められてきたくらいである。
  • この節ではとても単純な例を出す。
  • アルゴリズムを解説するには、そのエッセンスがわかるに十分な例があればよいから。
  • 実用上の問題として、データの形式がプロプライエタリなことが挙げられる
  • 最初からデータを共有するつもりでDB製品を選んだりはしない

天候問題

  • Table 1.2 (p. 11) 参照
  • データセットに含まれる各データは、そのデータインスタンスを表現する複数の属性(feature)からなる
  • Tbl. 1.2 の例だと、属性は、概況・気温・湿度・風
  • 属性は数値ではなく記号で表現されていて、組み合わせは36
  • 順序がついていて、順番に解釈されるルールの集合のことを 決定リスト と呼ぶ
  • もう少し複雑な例: Table 1.3
  • 一部が数値になっている
  • このようなデータに対しては、ルールの中に不等式が出てくる(数値属性問題もしくは混合属性問題と呼ぶ)
  • 以上見てきたようなルールは、天候の例を "play" と "not play" の二つに分類するための classification rule である
  • 結果を無視すれば、関連性の強い属性値を見つけるもの…と解釈することもでき、その場合は association rule と呼ぶ

理想的な問題の例: コンタクトレンズ処方

  • Tbl. 1.1 (p. 6) を再度使う。
    1. 7 ではとてもシンプルなルールで表現していたが、Figure 1.1 はたくさんのルールからなる
  • これでも分類は正しく行うことができる
  • ルール同士が衝突することもあるので、ルールに重みをつける等で対応する
  • Fig. 1.1 はもっと単純化できないか、と思うことだろう
  • 実はこの例はデータを単にルールにしただけで何の要約にもなってない
  • 機械学習の成功例の一つは、チェスの終盤局面のデータベースを圧縮すること
    • そのとき使われたのはルールではなく 決定木
  • Figure 1.2 がコンタクトレンズ処方の決定木
  • このほうが簡潔明瞭
  • ただし、この決定木は2例に対して誤った分類を行う
  • 学習結果をどう表現するかに関する話題は第3章にて

あやめの萼・花弁: 古典的数値データセット

  • 萼と花弁の長さ・幅からあやめを分類したデータ

CPU Performance

  • ある値を別の値の線形結合で表現して、予測値を計算する(回帰方程式)

より現実的な例: 労使交渉

  • 労働条件から、acceptable か unacceptable に分類する
  • 現実データなので、欠損値があるし、正確な分類器は得られないこともある
  • 決定木の例がふたつある (Figure 1.3)
  • 片方 (A) は、ときどき分類を間違うものの、分類の内容は納得できるものになっている
  • 片方 (B) は、より正確であるが細かく、分類が不自然。訓練データに過適応している。
  • 実はAはBを枝刈りして作ったもの。詳細は第6章にて

古典的機械学習成功例: 豆の分類

  • 豆の状態から、その豆の病気を判定するルール
  • domain knowledge (事前知識) の役割がよくわかる例
  • 「葉の状態が良好」と言った場合は「葉の奇形」というのはあり得ない、というのが事前知識
  • であるから、実はこのルールは片方が片方の特殊例になっている。こういうことはルールだけを見てもわからない
  • この例は1970年代の研究だが、実は機械学習による診断が97.5%対72%で、専門家の診断より正確だった