Data Mining 本を読む (3) 1.3 Fielded applications

現実のアプリケーションでは、新しいデータに対してよい性能を出す(機械学習システムを作る)ことはもちろん重要だが、知識を習得することも同様か、もしくはそれ以上に重要である。

判定を含む決定

  • (見出しが直訳過ぎて自分でも笑ってしまう…あくまでメモなので意訳して自然な日本語にすることを半ば放棄している)
  • ローン審査の例: 機械学習でサポートしたとしても、最終的な決断は人間がする
  • 機械学習を併用することで、なぜ、ある結論に到達したのかを説明することができる

画像のスクリーニング

  • 衛星画像から石油が海上に漏洩していないかどうかを検査するアプリケーションの例
  • 人間が「真の油漏れ」「油漏れに見えるけど油漏れではない」という答えを学習機構に教え込む機能がついている
  • いくつか興味深い問題を知ることができる
  • 油漏れは希な事象なので、人力分類は非常に高コストになる
  • 訓練データ中の油漏れっぽい画像のほとんどが油漏れではない
  • (この一文は英語の意味がわからん)A third is that the examples group naturally into batches, with regions drawn from each image forming a single batch, and background characteristics vary from one batch to another. 3つめは、複数の例が自然にバッチに分類できる、領域を伴って、その領域は描画される、各イメージから、あるひとつのバッチを構成するような、そしてバッチごとに背景の特徴が異なっている。
  • フィルタのような動作であるから、誤認識率を変化させる快適な手段がユーザに提供されなけれあならない

負荷予測

  • 電力業界では、安定した電力供給のために、消費される電力を予測する必要がある
  • 過去15年の統計データ+当日の天気から、消費電力を機械で予測すると、よく訓練された人間が予測するより正確

診断

  • エキスパートシステムの一例
  • 機械に対する予防的メンテナンス
  • 当初作ったシステムは、専門家からは、彼らの知識と機械が生成したルールとの間に関連付けするのが困難であったために不評だった
  • 背景知識を追加して作ったら、ルールはより複雑になったが、専門家の満足度は向上した

マーケティングとセールス

  • この分野では、予測そのものがもっとも重要であって、それがどう作られたのかはほとんど完全に無関係(どうでもいい)
  • market basket analysis: 複数のアイテムをグループ化する(例の「木曜日は紙おむつとビールが一緒に売れる」というやつ)
  • 個人の識別が非常に重要。

その他のアプリケーション

  • 製造プロセス、intrusion detection など
  • (この段落はあまり重要ではない)