レオナルド・ディカプリオ主演の映画タイタニックをご覧になったことがある方はイメージがつくと思います。
テレビでもよく金曜ロードショーで放映されますね。
ヒノマルクは好きでもう何回も見ています。
Wikipediaのタイタニックの記事を一読してからもう一度映画を見ると細かな描写への理解が深まるのでおすすめです。
データマイニングプロセスについて
こんな手順で分析を進めていますという記事になります。
本記事はCRISP-DMの下記の部分を寄稿しています。
- ビジネスの理解
- データの理解
① ビジネスの理解
分析対象の事前知識をつける
今回はタイタニックの分析なので、事前にタイタニックとは何かをWikipediaで勉強しておくとか映画を見てどのようなことが起きたのか事前知識をつけておくと分析しやすくなる (分析対象に興味をもてる) と思います。
そもそも分析対象が何なのか分からない、専門用語が理解できない場合はビジネスの理解から始めるのがよいと思います。
すでにタイタニックについて知識がある場合はスキップ可能です。
タイタニック号を保有していたホワイト・スター・ライン社の気持ちになって考えると、どのような人たちが生存率が低かったのかなどを分析することによって事実を客観的に把握し、次回以降の海運業務への安全対策に繋げることが可能になるかもしれません。
タイタニック号沈没について
タイタニック号は1912年4月15日の処女航海中に氷山に衝突し沈没してしまった大型の乗客船です。
イギリスのサウサンプトンからアメリカのニューヨークまでの渡航途中で発生した事故のようです。
Wikipediaによると、約2224人の乗客のうち1500人以上が命を落としてしまったそうです。
RMS Titanic was a British passenger liner, operated by the White Star Line, which sank in the North Atlantic Ocean on 15 April 1912 after striking an iceberg during her maiden voyage from Southampton, UK, to New York City. Of the estimated 2,224 passengers and crew aboard, more than 1,500 died
引用: Wikipedia Titanic
タイタニック号の出発地と目的地のマップ (Open Street Map利用)
© OpenStreetMap contributors
(タイタニック沈没の後、会社がどうなったのか興味がある方はぜひWikipediaなどでお調べください)
② データの理解
データの取得元
Kaggleのタイタニックのコンペデータになります。
分析対象のデータの確認
カラム一覧
変数名 | 説明 | 内容 |
---|---|---|
survival | 生存フラグ | 0:生存していない、1:生存 |
pclass | 社会経済状況レベル | 1:1st(上級クラス)、2:2nd(中級クラス)、3:3rd(下級クラス) |
sex | 性別 | |
Age | 年齢 | |
sibsp | タイタニックに乗った兄弟・姉妹・配偶者の数 | |
parch | タイタニックに乗った両親・子供の数 | |
ticket | 乗船券番号 | |
fare | 旅客運賃 | |
cabin | 客室番号 | |
embarked | 乗船港 | C = Cherbourg, Q = Queenstown, S = Southampton |
今回のデータにはタイタニック号の乗船者の情報に加えて、生存の有無のフラグも付与されているようです。
KaggleのTitanicのデータを確認するときは何人分の乗客のデータなのかなどを確認する必要がありそうです。
(例: 全数なのか?一部の乗客データなのかなど)
乗船港は出発地のSouthampton以外にもCherbourgとQueenstownという名称もあります。
タイタニックはNew Yorkに向かう前に、Southampton → Cherbourg → Queenstown(現在Cobh)という順番で停泊したので各乗客がどの地域の港から乗船したかを判別できるようです。
Titanic had departed from Southampton on 10 April 1912, then stopped at Cherbourg, France, and Queenstown (now Cobh), Ireland, before heading west towards New York.
引用: Wikipedia Titanic
どのような分析ができそうか
まだ、データの中身は確認していませんが持っているデータで何か出来そうか考えてみます。
メインは乗客情報を利用した生存有無を判別するモデル作成になるのかなと思います。
明らかに上級クラスの人は生存率が高いなどは出てきそうですね。
まとめ
次回はデータの中身の確認をしていこうと思います。
「2. データの理解」の続きになります。