Data Mining 本を読む (1) 1.1 Data mining and machine learning

  • 機械学習の利用例
  • 人工授精では、成功しそうな受精卵を子宮に戻す必要があるが、選択基準になる要素が60ある。そこで機械学習の利用が検討されている。
  • ニュージーランドの酪農家は、季節の終わりに、乳牛を肉食用として売却するか残しておくかの判断をしなければいけない。牛一頭につき700以上の属性が記録されている。
  • WWWの普及で情報量が増えている
  • この本は、データからパターンを見出すのが主題
  • データマイニングでは、電子的に保存されたデータから自動的にパターンを検索する
  • データ量が20ヶ月で倍になるという勢いからして、データからパターンを見出したいという機会が増大している
  • 具体例: 顧客情報などを保管したデータベースの解析
  • 優良顧客になりそうな人や製品を切り替えてしまいそうな人を見つける
  • データマイニングの定義: データからパターンを発見するプロセスであって、全自動もしくは半自動のもの。
  • パターンはどう記述されるのか?
  • black box: 理解不能なもの
  • transparent box: パターンの構造を明らかにするもの
  • データから構造的パターンを発見・記述する技術についてこの本は取り上げる
  • ほとんどの技術は機械学習の分野で開発されたもの

構造化パターンの記述

  • 年齢や目の状態からコンタクトレンズ(ハード/ソフト/どっちもダメ)を決定する例
  • 本文では結果をルールとして記述している
  • この例は、極端に単純化した例になっている
  • データが全パターンをちょうど網羅している。ふつうのデータではこういうことはあり得ないので、観測できたデータを新しいデータにも適用できるように、「一般化」をする必要がある
  • 現実のデータでは、全要素をデータとして取得できないことがある(欠損)
  • ノイズデータの影響で、分類器の学習に使ったデータに対して誤分類することもある

機械学習

  • このパラグラフは、「そもそも学習とは何か?」というちょっと哲学的な話題
  • 学習とは単に何かを記憶することではない
  • 「将来における行動がよりよくなるように振る舞いを変えたとき、その主体は学習したと言う」(結構意訳)
  • "training" と "learning" は異なる
  • 目的なしに行われた learning は learning ではなく training である
  • intentional であることも重要

データマイニング

  • data mining とは実際上のトピックであって哲学的なものとは違う
  • 出力は新しい例を予言するような形になる
  • 未知の例を分類し、決定した理由を説明できるよう構造記述も含む
  • 知識とそれを利用する能力を獲得することが学習であり、それを明示的に表現したものが得られるということが有益
  • 多くの学習技術が、学習結果の構造的記述を目指している
  • 記述はそれなりに複雑であり、典型的にはルールの集合として表現される
  • それが人間にとって理解しやすいから
  • (重要)得られた明示的知識構造は、その構造記述は非常に重要である。新しい例に対する適応能力よりも記述のほうが重要である。なぜなら、人間はデータマイニングを将来の予測に使うだけでなく、知識を獲得することにも利用するからである。