自分のキャリアをあれこれ考えながら、Pythonで様々なデータを分析していくブログです
Data Analytics

データ分析のデータ加工パートでやる5つのこと

データの理解が進んだら次はデータの加工作業に入ります。具体的にやる事を洗い出してみました。主な作業としては下記が考えられます。欠損値処理 (missing value processing)外れ値処理 (outlier processing...
Data Analytics

(その2-3) タイタニックのデータ俯瞰 グラフ描画

これまで表形式でタイタニックのデータの中身を俯瞰してきましたが、今回はグラフで可視化をして確認したいと思います。グラフにすることによって色の違いや棒グラフの長さの違いなどが表現できることにより情報量が増え、よりデータ理解がしやすくなると思い...
Data Analytics

(その2-2) タイタニックのデータ俯瞰 クロス集計

データの理解の後半パートは目的変数と説明変数の関係性を中心にして集計や可視化をしていきたいと思います。今回は生存するかどうかを当てるモデルを作成するつもりなので、目的変数は生存有無フラグ(Survived)にします。分析の目的により対象変数...
Data Analytics

(その2-1) タイタニックのデータ俯瞰

前回の記事からの続きです。今回はタイタニックのデータの中身を俯瞰しようと思います。単純にクロス集計をして表を眺めるだけでもいいのですが、ヒストグラムや散布図などで可視化してあげるとより理解しやすくなると思います。タイタニックのデータぐらいの...
Python

seabornでヒストグラムを描いてみる

今日はseabornでヒストグラムを描いてみようと思います。ライブラリのインポートと描画設定ライブラリのインポートと描画設定import numpy as npimport pandas as pdimport seaborn as sns...
Python

seabornで棒グラフ作成 (大量データ対応)

今日はseabornで棒グラフを作成しようと思います。試してみましたが、大量データを表示すると重かったり、X軸がラベルで真っ黒になってしまうかと思います。対応方法としてデータを特定条件で間引いて表示するようにしました。今回は表示したいカラム...
Python

plotlyで棒グラフを描いてみる

今回はplotlyというライブラリを使って、データの可視化をしてみたいと思います。plotlyの特徴はインタラクティブに操作できるグラフを作成できるという点です。BIツールのように全体を表示した後、気になる箇所を拡大表示することが可能です。...
Python

Seabornでboxenplot (letter-value plot)を描く

今日はseabornのboxenplot(letter-value plot)を使ってpythonのグラフを描画してみようと思います。私はよくデータをセグメントごとに見るときに分布に違いがあるか確認するときに使います。boxenplotは大...
Python

PythonでExcelみたいなグラフを描いてみる

Pythonでグラフを描画するとどうしてももう少し綺麗にならないかなと常々考えていました。seabornという優秀なライブラリを使えば、見た目が綺麗なグラフを作成できますが、Excelと比べてしまうとどうしても違和感がありました。なので、な...
Data Analytics

(その1) タイタニックのデータセットの分析計画

ヒノマルクレオナルド・ディカプリオ主演の映画タイタニックをご覧になったことがある方はイメージがつくと思います。テレビでもよく金曜ロードショーで放映されますね。ヒノマルクは好きでもう何回も見ています。Wikipediaのタイタニックの記事を一...