아파트 실거래가 예측 모델

예측할 때 주요하게 사용할 컬럼이 무엇인지
1. 아파트 단지 이름(apt)을 어떻게 이용할지
  1. 유명한 도급업체(브랜드)인지 아닌지
2. 면적(exclusive_use_area)
3. 시공년도(year_of_completion)
4. 층수
day_care_center, park 데이터를 어떻게 이용할지
1. 아파트와 같은 동에 있는 공원과 주간보호시설의 퀄리티(면적, 설치 시설, CCTV, 통학차량 여부 등)을 통합하여 데이터셋에 merge하기

같은 아파트의 시간 별 거래 데이터 셋 만들기

데이터셋의 구조를 어떻게 구성해야하나?
1. 아파트명, 층수, 면적, 거래일자, 거래가격 등
같은 아파트지만 층, 면적, 동이 다른 경우는?

전체 순서

데이터 전처리
1. 화요일 오후 까지(6/25, 18:00)
모델 구축 및 학습
1. 수요일 오전까지(6/26, 13:00)
모델 개선
1. 수요일 오후까지(6/26, 18:00)
제출 및 발표준비
1. 목요일 오전까지(6/27, 1:00)

해당 분야에 대한 이해도 필요함

데이터 전처리

데이터 확인

NO: 데이터의 id 값
시군구
번지: 번지 수 정보
본번: 첫번째 번지 수
부번: 두번째 번지 수
단지명
전용면적(㎡)
계약년월
계약일
거래금액(만원): 가격 -> 타겟데이터
동: 아파트의 동
층: 아파트의 층
매수자
매도자
건축연도
도로명
해제사유발생일
거래유형: 직거래? 중개거래?
중개사소재지
등기일자
주택유형: ONLY 아파트

Drop할 컬럼
해제사유발생일에 대한 처리
시군구를 어떻게 숫자로 표현할 것인지
전용면적(㎡) 소수점 버리기

결측치, 이상치 처리
1. 거래유형 column 데이터 존재 유무, 절반이 비어있음. (78966 / 177450)
2. 동 column 데이터 존재 유무, 절반 이상 비어있음. (125318 / 177450)
3. 해제사유발생일 (78966 / 177450)
4. 너무 비싸거나 싼 거래가격 데이터를 어떻게 처리해야하는지
데이터 셋 병합