データサイエンスの始め方・データ分析のデザインパターンに行ってきた #ds2013

データサイエンスの始め方・データ分析のデザインパターンに行ってきた。

参考になったところ

  • データ neq 情報 neq 知識 neq 理解 neq 知恵 neq ビジネスの成功
  • ログは取れるだけ取得する
  • 1イベント 1レコードになるようにする(webアプリケーションの場合:アクセス)
  • 基本的なスキーマを決める
    • time,status,uri,ua,refferer ...
    • app, route, controller, process_time, device
  • アプリケーションの知りうる属性を非正規化して集める
    • sessoin_id, user_id, gender, age, device ...
    • 非正規化することのメリット:JOINせずに解析できる
    • user_id, session_id : hash化しておく
  • 楽天の商品ページの最長は20mある
  • 楽天の商品ページは感情に訴えるための構成になっている
  • 万が一のためのセキュリティ担保のために個人情報に関わる部分はhash化するのは大前提。

開場提供のリクルートさん、主催のTresureDataの皆さん、ありがとうございました!


データサイエンスの始め方・データ分析のデザインパターン on Zusaar