自分のキャリアをあれこれ考えながら、Pythonで様々なデータを分析していくブログです

(その1) タイタニックのデータセットの分析計画

Data Analytics
Data Analytics
ヒノマルク
ヒノマルク

レオナルド・ディカプリオ主演の映画タイタニックをご覧になったことがある方はイメージがつくと思います。
テレビでもよく金曜ロードショーで放映されますね。
ヒノマルクは好きでもう何回も見ています。
Wikipediaのタイタニックの記事を一読してからもう一度映画を見ると細かな描写への理解が深まるのでおすすめです。

スポンサーリンク

データマイニングプロセスについて

こんな手順で分析を進めていますという記事になります。

データマイニングのフレームワークであるCRISP-DMとは
ヒノマルクデータマイニングを教わったときにCRISP-DMが基本概念にありました。ClementineというIBMのSPSS Modelerの前身のデータイニングツールで分析キャリアを始めました。ClementineでCRISP-DMが導入...

本記事はCRISP-DMの下記の部分を寄稿しています。

  1. ビジネスの理解
  2. データの理解
スポンサーリンク

① ビジネスの理解

分析対象の事前知識をつける

今回はタイタニックの分析なので、事前にタイタニックとは何かをWikipediaで勉強しておくとか映画を見てどのようなことが起きたのか事前知識をつけておくと分析しやすくなる (分析対象に興味をもてる) と思います。

そもそも分析対象が何なのか分からない、専門用語が理解できない場合はビジネスの理解から始めるのがよいと思います。
すでにタイタニックについて知識がある場合はスキップ可能です。

タイタニック号を保有していたホワイト・スター・ライン社の気持ちになって考えると、どのような人たちが生存率が低かったのかなどを分析することによって事実を客観的に把握し、次回以降の海運業務への安全対策に繋げることが可能になるかもしれません。

タイタニック号沈没について

タイタニック号は1912年4月15日の処女航海中に氷山に衝突し沈没してしまった大型の乗客船です。
イギリスのサウサンプトンからアメリカのニューヨークまでの渡航途中で発生した事故のようです。

Wikipediaによると、約2224人の乗客のうち1500人以上が命を落としてしまったそうです。

RMS Titanic was a British passenger liner, operated by the White Star Line, which sank in the North Atlantic Ocean on 15 April 1912 after striking an iceberg during her maiden voyage from Southampton, UK, to New York City. Of the estimated 2,224 passengers and crew aboard, more than 1,500 died
引用: Wikipedia Titanic

タイタニック号の出発地と目的地のマップ (Open Street Map利用)

© OpenStreetMap contributors

(タイタニック沈没の後、会社がどうなったのか興味がある方はぜひWikipediaなどでお調べください)

スポンサーリンク

② データの理解

データの取得元

Kaggleのタイタニックのコンペデータになります。

分析対象のデータの確認

カラム一覧

変数名 説明 内容
survival 生存フラグ 0:生存していない、1:生存
pclass 社会経済状況レベル 1:1st(上級クラス)、2:2nd(中級クラス)、3:3rd(下級クラス)
sex 性別
Age 年齢
sibsp タイタニックに乗った兄弟・姉妹・配偶者の数
parch タイタニックに乗った両親・子供の数
ticket 乗船券番号
fare 旅客運賃
cabin 客室番号
embarked 乗船港 C = Cherbourg, Q = Queenstown, S = Southampton

今回のデータにはタイタニック号の乗船者の情報に加えて、生存の有無のフラグも付与されているようです。

KaggleのTitanicのデータを確認するときは何人分の乗客のデータなのかなどを確認する必要がありそうです。
(例: 全数なのか?一部の乗客データなのかなど)

乗船港は出発地のSouthampton以外にもCherbourgとQueenstownという名称もあります。
タイタニックはNew Yorkに向かう前に、Southampton → Cherbourg → Queenstown(現在Cobh)という順番で停泊したので各乗客がどの地域の港から乗船したかを判別できるようです。

Titanic had departed from Southampton on 10 April 1912, then stopped at Cherbourg, France, and Queenstown (now Cobh), Ireland, before heading west towards New York.
引用: Wikipedia Titanic

どのような分析ができそうか

まだ、データの中身は確認していませんが持っているデータで何か出来そうか考えてみます。

メインは乗客情報を利用した生存有無を判別するモデル作成になるのかなと思います。

明らかに上級クラスの人は生存率が高いなどは出てきそうですね。

スポンサーリンク

まとめ

次回はデータの中身の確認をしていこうと思います。

「2. データの理解」の続きになります。

タイトルとURLをコピーしました