지난 두달동안의 스터디에서 최종적으로 발표한 kaggle competition이다.
kaggle에 내가 관심있는 게임, 여행과 관련된 대회가 별로 없는듯 했다.
또한, https://www.kaggle.com/getting-started/78482 에서 이 대회를 추천했다.
마침, 주제도 흥미롭고 있어보이고 재밌어보여서 했다. 하지말았어야 했다.
대회 소개
이 대회는 2016년 데이터를 모델링하여 17년 1월 ~ 18년 6월까지의 에너지 사용량을 예측하는 대회이다.
세계 각국의 100개가 넘는 건물에서 생성된 3년간의 Electricity/Chilledwater/Steam/Hotwater 영역에서의 사용량을 기반으로 모델링을 하는 대회이다.
※ ASHRAE : 미국 냉난방 공조 협회 (American Society of Heating, Refrigerating and Air-Conditioning Engineers)는 난방, 환기, 냉방 및 냉장 시스템 설계 및 시공을 향상시키기 위해 노력하는 미국 전문가 협회
이 대회같은 경우 평가모델을 RMSLE를 사용한다.
데이터 분석
이 대회같은경우에는 train/building_meta/weather_train/weather_test/test 총 5개의 dataset이 주어진다.
여태까지 train/test 두개만 주어진 데이터만 보다가 이렇게 많은 데이터를 보게되어 매우 당황스러웠다.
이 대회는 Target 컬럼은 train에 있는 meter_reading이 된다.
train dataset에 building과 weather을 합치면 위와 같이 나온다.
뭔가 이상하지 않은가. 3월에 갑자기 급증하고 6월에 급락한다.
좀 더 살펴보기 위해 site_id에 따라 그래프를 그려보자
그래프를 그리면 13개의 site_id에 따라 그래프가 그려지는데 우리가 유심히 봐야될 것은 site_id가 0인것과 site_id가 13인 것이다.
0인것은 3월전까지 0이다. 따라서 3월전까지의 데이터는 필요없다고 보면된다.
13인것은 우리가 위에서 봤던 그래프와 비슷하다. 13인 것을 자세히 살펴보자
primary use에 따라 그래프를 그려보면 여러개가 나오는데 그중에서 잘봐야 하는것이 Education이다.
education에서 위에서 봤던 그래프와 비슷한 것을 알 수 있다.
meter에 따라 그래프를 그리면 meter가 2일때 위에서 봤던 그래프와 같은것을 알 수 있고 따라서 meter 2일때의 building들을 알아내야 한다.
building id가 1099인것이 outlier라는 것을 확인할 수 있고 이를 제거해야 한다는 것을 알 수 있다.
자세한 데이터 분석은 여기에 있다.
(렌더링 오류로 링크)
발표했던 자료