自分のキャリアをあれこれ考えながら、Pythonで様々なデータを分析していくブログです

(その1) エイムズの住宅価格のデータセットの分析計画

Data Analytics
Data Analytics

住宅価格のデータセットは他に有名なものだとボストンの住宅価格のデータセットがあります。
旧ブログで取り上げているのでご一緒にご確認ください。

今回はエイムズの住宅価格のデータセットを分析していこうと思います。

House Prices - Advanced Regression Techniques | Kaggle
Predict sales prices and practice feature engineering, RFs, and gradient boosting
スポンサーリンク

データマイニングプロセスについて

こんな手順で分析を進めていますという記事になります。

データマイニングのフレームワークであるCRISP-DMとは
ヒノマルクデータマイニングを教わったときにCRISP-DMが基本概念にありました。ClementineというIBMのSPSS Modelerの前身のデータイニングツールで分析キャリアを始めました。ClementineでCRISP-DMが導入...

本記事はCRISP-DMの下記の部分を寄稿しています。

  1. ビジネスの理解
  2. データの理解
スポンサーリンク

① ビジネスの理解

分析対象の事前知識をつける

今回はエイムズの住宅価格の分析なので、事前にエイムズとは何を指しているのか(会社名?地名?人名?)を調べてるのがいいのかなと思います。(今回、エイムズは地名のようです)

そもそも分析対象が何なのか分からない、専門用語が理解できない場合はビジネスの理解から始めるのがよいと思います。
例えば住宅価格はどう決まるのか?どういうビジネスモデルなのか?などです。

「住宅価格 要因」などのキーワードで検索すると、宅建用語で「価格形成要因」という言葉が出てきました。

「価格形成要因」で調べると国土交通省の資料が出てきましたので、下記資料の第3章を一読しておくといいのかも知れません。(日本と海外では異なることがあるかも知れませんが何も知識がないよりはいいかなと思います。)

第3章 不動産の価格を形成する要因 ------------------------------------------- 6
第1節 一般的要因 -------------------------------------------------------- 6
第2節 地域要因 ---------------------------------------------------------- 7
第3節 個別的要因 -------------------------------------------------------- 9
引用| https://www.mlit.go.jp/kisha/kisha03/01/010421_2/18.pdf

他にも不動産鑑定士の試験項目に「不動産の鑑定に関する理論」がありました。

こちらの項目だけでも勉強しておくとより理解が深まるのかなと感じました。

スポンサーリンク

② データの理解

データセットですが、2006年から2010年のアメリカのアイオワ州にあるエイムズという都市の住宅販売価格のようです。

詳細はTruman State UniversityのDean De Cock教授が寄稿された記事に載っているのでご確認ください。

エイムズの場所

データの取得元

Kaggleのエイムズの住宅価格のコンペデータになります。

分析対象のデータの確認

説明変数が多いです。情報量が多いのでモデルの作成が楽しみです。

コード値の説明などはKaggleのデータ「data_description.txt」からご確認ください。

まずはどんなデータがありそうか変数を確認してみます。英訳しながら意味を考えていきます。

カラム一覧

変数名 説明 内容
SalePrice 目的変数。住宅価格(ドル)
MSSubClass 建物クラス DUPLEX(壁が2つのユニットで共有)など建てられ方の違いのようです。
MSZoning 一般都市計画分類 用途地域みたいなものでしょうか?
LotFrontage 間口距離 敷地が道路に接している直線距離(ft)
LotArea 土地面積(ft2)
Street 道路アクセスの種別 Gravel:砂利、Paved:舗装
Alley 路地アクセスの種別 Gravel:砂利、Paved:舗装、NA:路地なし
LotShape 敷地の形状
LandContour 敷地の平らさ 坂になっているのかなど
Utilities 公共設備の有無 電気、ガス、水道、下水道
LotConfig 敷地の位置 Inside lot:内地、Corner lot:角地、Cul-de-sac:奥地、Frontage on 2 sides:道路2面沿い、Frontage on 3 sides:道路3面沿いなど
LandSlope 敷地傾斜の具合
Neighborhood エイムズ市内の場所 アイオア州立大学の南西側など
Condition1 主要道路からのおおよその位置1
Condition2 主要道路からのおおよその位置2(もしあれば)
BldgType 住宅種別 1世帯用住宅、集合住宅など
HouseStyle 住宅様式 1階建、1.5階建、2階建など
OverallQual 住居の品質 1(最低)から10(最高)までの10段階評価
OverallCond 住居の状態 1(最低)から10(最高)までの10段階評価
YearBuilt 建築された年
YearRemodAdd リフォームされた年 リフォームされてなかったらYearBuildと同じ値
RoofStyle 屋根の種別
RoofMatl 屋根の素材
Exterior1st 住居の外観1
Exterior2nd 住居の外観2(もし2つ以上の素材がある場合)
MasVnrType 組積造の種別 レンガ、石など
MasVnrArea 組積造の面積(ft2)
ExterQual 外観素材の品質 5段階評価
ExterCond 現在の外観の状態 5段階評価
Foundation 住居基礎の種類 ブリックタイル、軽量コンクリートブロックなど
BsmtQual 地下室の高さ NA:地下室なし、他5段階評価
BsmtCond 地下室の状態 NA:地下室なし、他5段階評価
BsmtExposure 地下室の露出具合 外からどれくらい見えるかどうか
BsmtFinType1 地下室1(施工済)の品質 NA:地下室なし、他5段階評価
BsmtFinSF1 地下室1の面積(ft2)
BsmtFinType2 地下室2(施工済)の品質 (存在する場合) NA:地下室なし、他5段階評価
BsmtFinSF2 地下室2の面積(ft2)
BsmtUnfSF 未完了の地下室の面接(ft2)
TotalBsmtSF 全地下室の面積(ft2)
Heating 暖房設備の種類
HeatingQC 暖房設備の品質と状態 5段階評価
CentralAir 中央式エアコンの有無 Y:Yes、N:No
Electrical 電気システムの種類
1stFlrSF 1Fの面積(ft2)
2ndFlrSF 2Fの面積(ft2)
LowQualFinSF 低品質な仕上がり(ft2)
GrLivArea 地上全ての住宅面積(ft2) 地下室がある場合は除いた面積
BsmtFullBath 地下室のフル・バスルームの数 英辞郎によると浴槽・シャワー・洗面台・便器の4点が備え付けられた部屋
BsmtHalfBath 地下室のハーフ・バスルームの数 英辞郎によると便器と洗面台だけが備え付けられた部屋
FullBath フル・バスルームの数(地下室除く)
HalfBath ハーフ・バスルームの数(地下室除く)
Bedroom 寝室の数(地下室は除く)
Kitchen キッチンの数(地下室は除く)
KitchenQual キッチンの品質 (5段階評価)
TotRmsAbvGrd 総部屋数 (バスルーム、地下室は除く))
Functional 住宅機能の評価 (8段階評価)
Fireplaces 暖炉の数
FireplaceQu 暖炉の品質
GarageType ガレージの場所 ガレージは車庫のことです。
GarageYrBlt ガレージが建てられた年
GarageFinish ガレージの内装工事の完成度 NA:ガレージなし、Unf:未完成、RFn:だいたい完成、Fin:完成
GarageCars ガレージへの駐車可能台数
GarageArea ガレージの面積(ft2)
GarageQual ガレージの品質
GarageCond ガレージの状態
PavedDrive 舗装済みの車道かどうか
WoodDeckSF ウッドデッキの面積(ft2)
OpenPorchSF オープンポーチの面積(ft2) ポーチは玄関前の屋根付きのスペースのようです。
EnclosedPorch (囲まれた)ポーチの面積(ft2)
3SsnPorch 3シーズンポーチの面積(ft2)
ScreenPorch スクリーンポーチの面積(ft2)
PoolArea プールの面積(ft2)
PoolQC プールの品質 NA:プールなし、4段階評価
Fence フェンスの品質 NA:フェンスなし、4段階評価
MiscFeature その他存在するプロパティ テニスコートやエレベーターなど
MiscVal その他存在するプロパティの価値
MoSold 売れた月
YrSold 売れた年
SaleType 販売形態
SaleCondition 販売条件

目的変数がSalePriceになっています。

タイタニックのときは1か0を当てるモデルを作成する分類問題でしたが、今回は住宅価格を予測する回帰問題になります。

どのような分析ができそうか

住宅販売価格の予測はもちろんですが、どんな変数が販売価格に影響を与えているかなどの要因分析にも利用できそうです。

スポンサーリンク

まとめ

海外のデータセットで勉強すると副次的に英語の勉強にもなりますね 笑

次回はデータの中身の確認をしていこうと思います。

「2. データの理解」の続きになります。

スポンサーリンク

参考

  1. https://inria.github.io/scikit-learn-mooc/python_scripts/datasets_ames_housing.html
  2. https://www.kaggle.com/code/pavansanagapati/14-simple-tips-to-save-ram-memory-for-1-gb-dataset
  3. https://www.burlington.ca/en/services-for-you/resources/Initiative%20Projects/Shoreacres/FINAL_Shoreacres_Worksheets.pdf
  4. https://www.nta.go.jp/law/shitsugi/hyoka/03/08.htm
  5. https://en.wikipedia.org/wiki/Split-level_home
  6. https://ja.wikipedia.org/wiki/%E7%B5%84%E7%A9%8D%E9%80%A0
  7. https://adampillmore.wordpress.com/2010/02/15/basements/
  8. https://www.thisoldhouse.com/heating-cooling/21018992/read-this-before-you-install-central-air-conditioning
  9. https://www.nlc-jp.com/news/air-conditioner/
  10. https://www.clearcapital.com/resources/glossary-of-terms/above-grade-square-feet/
タイトルとURLをコピーしました