Data Analytics (その3-4) タイタニックのデータセットの特徴量エンジニアリング 前回の記事ではタイタニックのデータセットの外れ値の処理をまとめていました。今回は 3 特徴量エンジニアリング (Feature Engineering)の作業をしようと思います。特徴量エンジニアリングに関してはKaggleの下記コードが参考... 2022.04.27 Data Analytics
Data Analytics (その3-3) タイタニックのデータセットの外れ値の処理 前回の記事ではタイタニックのデータセットの欠損値処理をまとめていました。今回は 2. 外れ値処理 (outlier processing)の作業をしようと思います。外れ値処理に関してはKaggleの下記コードが参考になりました。外れ値かどう... 2022.04.24 Data Analytics
Data Analytics Pythonで外れ値の検定を2種類試してみた 以前の記事にて外れ値の検定として下記三つを挙げました・Grubbs' Test・Tietjen-Moore Test・Generalized Extreme Studentized Deviate (ESD) Test今回、外れ値の検定とし... 2022.04.22 Data Analytics
Data Analytics (その3-2) タイタニックのデータセットの欠損値処理 前回の記事ではタイタニックのデータセットでのデータ加工案をまとめていました。今回は 1. 欠損値処理 (missing value processing)の作業をしようと思います。Embarkedは最頻値で補完し、Ageは回帰モデルで欠損値... 2022.04.11 Data Analytics
Data Analytics (その3-1) タイタニックのデータセットのデータ加工の計画 前回はそもそもデータの加工作業では何をするのかをまとめていました。手順として下記のような作業が発生すると書きました。欠損値処理 (missing value processing)外れ値処理 (outlier processing)特徴量エ... 2022.04.07 Data Analytics