- 예측할 때 주요하게 사용할 컬럼이 무엇인지
- 아파트 단지 이름(apt)을 어떻게 이용할지
- 유명한 도급업체(브랜드)인지 아닌지
- 면적(exclusive_use_area)
- 시공년도(year_of_completion)
- 층수
- day_care_center, park 데이터를 어떻게 이용할지
- 아파트와 같은 동에 있는 공원과 주간보호시설의 퀄리티(면적, 설치 시설, CCTV, 통학차량 여부 등)을 통합하여 데이터셋에 merge하기
같은 아파트의 시간 별 거래 데이터 셋 만들기
- 데이터셋의 구조를 어떻게 구성해야하나?
- 아파트명, 층수, 면적, 거래일자, 거래가격 등
- 같은 아파트지만 층, 면적, 동이 다른 경우는?
전체 순서
- 데이터 전처리
- 화요일 오후 까지(6/25, 18:00)
- 모델 구축 및 학습
- 수요일 오전까지(6/26, 13:00)
- 모델 개선
- 수요일 오후까지(6/26, 18:00)
- 제출 및 발표준비
- 목요일 오전까지(6/27, 1:00)
해당 분야에 대한 이해도 필요함
데이터 전처리
-
데이터 확인
NO: 데이터의 id 값
시군구
번지: 번지 수 정보
본번: 첫번째 번지 수
부번: 두번째 번지 수
단지명
전용면적(㎡)
계약년월
계약일
거래금액(만원): 가격 -> 타겟데이터
동: 아파트의 동
층: 아파트의 층
매수자
매도자
건축연도
도로명
해제사유발생일
거래유형: 직거래? 중개거래?
중개사소재지
등기일자
주택유형: ONLY 아파트
- Drop할 컬럼
- 해제사유발생일에 대한 처리
- 시군구를 어떻게 숫자로 표현할 것인지
- 전용면적(㎡) 소수점 버리기
-
결측치, 이상치 처리
- 거래유형 column 데이터 존재 유무, 절반이 비어있음. (78966 / 177450)
- 동 column 데이터 존재 유무, 절반 이상 비어있음. (125318 / 177450)
- 해제사유발생일 (78966 / 177450)
- 너무 비싸거나 싼 거래가격 데이터를 어떻게 처리해야하는지
-
데이터 셋 병합