住宅価格のデータセットは他に有名なものだとボストンの住宅価格のデータセットがあります。
旧ブログで取り上げているのでご一緒にご確認ください。
今回はエイムズの住宅価格のデータセットを分析していこうと思います。
データマイニングプロセスについて
こんな手順で分析を進めていますという記事になります。
本記事はCRISP-DMの下記の部分を寄稿しています。
- ビジネスの理解
- データの理解
① ビジネスの理解
分析対象の事前知識をつける
今回はエイムズの住宅価格の分析なので、事前にエイムズとは何を指しているのか(会社名?地名?人名?)を調べてるのがいいのかなと思います。(今回、エイムズは地名のようです)
そもそも分析対象が何なのか分からない、専門用語が理解できない場合はビジネスの理解から始めるのがよいと思います。
例えば住宅価格はどう決まるのか?どういうビジネスモデルなのか?などです。
「住宅価格 要因」などのキーワードで検索すると、宅建用語で「価格形成要因」という言葉が出てきました。
「価格形成要因」で調べると国土交通省の資料が出てきましたので、下記資料の第3章を一読しておくといいのかも知れません。(日本と海外では異なることがあるかも知れませんが何も知識がないよりはいいかなと思います。)
第3章 不動産の価格を形成する要因 ------------------------------------------- 6
第1節 一般的要因 -------------------------------------------------------- 6
第2節 地域要因 ---------------------------------------------------------- 7
第3節 個別的要因 -------------------------------------------------------- 9
引用| https://www.mlit.go.jp/kisha/kisha03/01/010421_2/18.pdf
他にも不動産鑑定士の試験項目に「不動産の鑑定に関する理論」がありました。
こちらの項目だけでも勉強しておくとより理解が深まるのかなと感じました。
② データの理解
データセットですが、2006年から2010年のアメリカのアイオワ州にあるエイムズという都市の住宅販売価格のようです。
詳細はTruman State UniversityのDean De Cock教授が寄稿された記事に載っているのでご確認ください。
データの取得元
Kaggleのエイムズの住宅価格のコンペデータになります。
分析対象のデータの確認
説明変数が多いです。情報量が多いのでモデルの作成が楽しみです。
コード値の説明などはKaggleのデータ「data_description.txt」からご確認ください。
まずはどんなデータがありそうか変数を確認してみます。英訳しながら意味を考えていきます。
カラム一覧
変数名 | 説明 | 内容 |
---|---|---|
SalePrice | 目的変数。住宅価格(ドル) | |
MSSubClass | 建物クラス | DUPLEX(壁が2つのユニットで共有)など建てられ方の違いのようです。 |
MSZoning | 一般都市計画分類 | 用途地域みたいなものでしょうか? |
LotFrontage | 間口距離 | 敷地が道路に接している直線距離(ft) |
LotArea | 土地面積(ft2) | |
Street | 道路アクセスの種別 | Gravel:砂利、Paved:舗装 |
Alley | 路地アクセスの種別 | Gravel:砂利、Paved:舗装、NA:路地なし |
LotShape | 敷地の形状 | |
LandContour | 敷地の平らさ | 坂になっているのかなど |
Utilities | 公共設備の有無 | 電気、ガス、水道、下水道 |
LotConfig | 敷地の位置 | Inside lot:内地、Corner lot:角地、Cul-de-sac:奥地、Frontage on 2 sides:道路2面沿い、Frontage on 3 sides:道路3面沿いなど |
LandSlope | 敷地傾斜の具合 | |
Neighborhood | エイムズ市内の場所 | アイオア州立大学の南西側など |
Condition1 | 主要道路からのおおよその位置1 | |
Condition2 | 主要道路からのおおよその位置2(もしあれば) | |
BldgType | 住宅種別 | 1世帯用住宅、集合住宅など |
HouseStyle | 住宅様式 | 1階建、1.5階建、2階建など |
OverallQual | 住居の品質 | 1(最低)から10(最高)までの10段階評価 |
OverallCond | 住居の状態 | 1(最低)から10(最高)までの10段階評価 |
YearBuilt | 建築された年 | |
YearRemodAdd | リフォームされた年 | リフォームされてなかったらYearBuildと同じ値 |
RoofStyle | 屋根の種別 | |
RoofMatl | 屋根の素材 | |
Exterior1st | 住居の外観1 | |
Exterior2nd | 住居の外観2(もし2つ以上の素材がある場合) | |
MasVnrType | 組積造の種別 | レンガ、石など |
MasVnrArea | 組積造の面積(ft2) | |
ExterQual | 外観素材の品質 | 5段階評価 |
ExterCond | 現在の外観の状態 | 5段階評価 |
Foundation | 住居基礎の種類 | ブリックタイル、軽量コンクリートブロックなど |
BsmtQual | 地下室の高さ | NA:地下室なし、他5段階評価 |
BsmtCond | 地下室の状態 | NA:地下室なし、他5段階評価 |
BsmtExposure | 地下室の露出具合 | 外からどれくらい見えるかどうか |
BsmtFinType1 | 地下室1(施工済)の品質 | NA:地下室なし、他5段階評価 |
BsmtFinSF1 | 地下室1の面積(ft2) | |
BsmtFinType2 | 地下室2(施工済)の品質 (存在する場合) | NA:地下室なし、他5段階評価 |
BsmtFinSF2 | 地下室2の面積(ft2) | |
BsmtUnfSF | 未完了の地下室の面接(ft2) | |
TotalBsmtSF | 全地下室の面積(ft2) | |
Heating | 暖房設備の種類 | |
HeatingQC | 暖房設備の品質と状態 | 5段階評価 |
CentralAir | 中央式エアコンの有無 | Y:Yes、N:No |
Electrical | 電気システムの種類 | |
1stFlrSF | 1Fの面積(ft2) | |
2ndFlrSF | 2Fの面積(ft2) | |
LowQualFinSF | 低品質な仕上がり(ft2) | |
GrLivArea | 地上全ての住宅面積(ft2) | 地下室がある場合は除いた面積 |
BsmtFullBath | 地下室のフル・バスルームの数 | 英辞郎によると浴槽・シャワー・洗面台・便器の4点が備え付けられた部屋 |
BsmtHalfBath | 地下室のハーフ・バスルームの数 | 英辞郎によると便器と洗面台だけが備え付けられた部屋 |
FullBath | フル・バスルームの数(地下室除く) | |
HalfBath | ハーフ・バスルームの数(地下室除く) | |
Bedroom | 寝室の数(地下室は除く) | |
Kitchen | キッチンの数(地下室は除く) | |
KitchenQual | キッチンの品質 (5段階評価) | |
TotRmsAbvGrd | 総部屋数 (バスルーム、地下室は除く)) | |
Functional | 住宅機能の評価 (8段階評価) | |
Fireplaces | 暖炉の数 | |
FireplaceQu | 暖炉の品質 | |
GarageType | ガレージの場所 | ガレージは車庫のことです。 |
GarageYrBlt | ガレージが建てられた年 | |
GarageFinish | ガレージの内装工事の完成度 | NA:ガレージなし、Unf:未完成、RFn:だいたい完成、Fin:完成 |
GarageCars | ガレージへの駐車可能台数 | |
GarageArea | ガレージの面積(ft2) | |
GarageQual | ガレージの品質 | |
GarageCond | ガレージの状態 | |
PavedDrive | 舗装済みの車道かどうか | |
WoodDeckSF | ウッドデッキの面積(ft2) | |
OpenPorchSF | オープンポーチの面積(ft2) | ポーチは玄関前の屋根付きのスペースのようです。 |
EnclosedPorch | (囲まれた)ポーチの面積(ft2) | |
3SsnPorch | 3シーズンポーチの面積(ft2) | |
ScreenPorch | スクリーンポーチの面積(ft2) | |
PoolArea | プールの面積(ft2) | |
PoolQC | プールの品質 | NA:プールなし、4段階評価 |
Fence | フェンスの品質 | NA:フェンスなし、4段階評価 |
MiscFeature | その他存在するプロパティ | テニスコートやエレベーターなど |
MiscVal | その他存在するプロパティの価値 | |
MoSold | 売れた月 | |
YrSold | 売れた年 | |
SaleType | 販売形態 | |
SaleCondition | 販売条件 |
目的変数がSalePriceになっています。
タイタニックのときは1か0を当てるモデルを作成する分類問題でしたが、今回は住宅価格を予測する回帰問題になります。
どのような分析ができそうか
住宅販売価格の予測はもちろんですが、どんな変数が販売価格に影響を与えているかなどの要因分析にも利用できそうです。
まとめ
海外のデータセットで勉強すると副次的に英語の勉強にもなりますね 笑
次回はデータの中身の確認をしていこうと思います。
「2. データの理解」の続きになります。
参考
- https://inria.github.io/scikit-learn-mooc/python_scripts/datasets_ames_housing.html
- https://www.kaggle.com/code/pavansanagapati/14-simple-tips-to-save-ram-memory-for-1-gb-dataset
- https://www.burlington.ca/en/services-for-you/resources/Initiative%20Projects/Shoreacres/FINAL_Shoreacres_Worksheets.pdf
- https://www.nta.go.jp/law/shitsugi/hyoka/03/08.htm
- https://en.wikipedia.org/wiki/Split-level_home
- https://ja.wikipedia.org/wiki/%E7%B5%84%E7%A9%8D%E9%80%A0
- https://adampillmore.wordpress.com/2010/02/15/basements/
- https://www.thisoldhouse.com/heating-cooling/21018992/read-this-before-you-install-central-air-conditioning
- https://www.nlc-jp.com/news/air-conditioner/
- https://www.clearcapital.com/resources/glossary-of-terms/above-grade-square-feet/