1. 예측할 때 주요하게 사용할 컬럼이 무엇인지
    1. 아파트 단지 이름(apt)을 어떻게 이용할지
      1. 유명한 도급업체(브랜드)인지 아닌지
    2. 면적(exclusive_use_area)
    3. 시공년도(year_of_completion)
    4. 층수
  2. day_care_center, park 데이터를 어떻게 이용할지
    1. 아파트와 같은 동에 있는 공원과 주간보호시설의 퀄리티(면적, 설치 시설, CCTV, 통학차량 여부 등)을 통합하여 데이터셋에 merge하기

같은 아파트의 시간 별 거래 데이터 셋 만들기

  1. 데이터셋의 구조를 어떻게 구성해야하나?
    1. 아파트명, 층수, 면적, 거래일자, 거래가격 등
  2. 같은 아파트지만 층, 면적, 동이 다른 경우는?

전체 순서

  1. 데이터 전처리
    1. 화요일 오후 까지(6/25, 18:00)
  2. 모델 구축 및 학습
    1. 수요일 오전까지(6/26, 13:00)
  3. 모델 개선
    1. 수요일 오후까지(6/26, 18:00)
  4. 제출 및 발표준비
    1. 목요일 오전까지(6/27, 1:00)

해당 분야에 대한 이해도 필요함

데이터 전처리

  1. 데이터 확인

    NO: 데이터의 id 값
    시군구
    번지: 번지 수 정보
    본번: 첫번째 번지 수
    부번: 두번째 번지 수
    단지명
    전용면적(㎡)
    계약년월
    계약일
    거래금액(만원): 가격 -> 타겟데이터
    동: 아파트의 동
    층: 아파트의 층
    매수자
    매도자
    건축연도
    도로명
    해제사유발생일
    거래유형: 직거래? 중개거래?
    중개사소재지
    등기일자
    주택유형: ONLY 아파트
    
    1. Drop할 컬럼
    2. 해제사유발생일에 대한 처리
    3. 시군구를 어떻게 숫자로 표현할 것인지
    4. 전용면적(㎡) 소수점 버리기
  2. 결측치, 이상치 처리

    1. 거래유형 column 데이터 존재 유무, 절반이 비어있음. (78966 / 177450)
    2. 동 column 데이터 존재 유무, 절반 이상 비어있음. (125318 / 177450)
    3. 해제사유발생일 (78966 / 177450)
    4. 너무 비싸거나 싼 거래가격 데이터를 어떻게 처리해야하는지
  3. 데이터 셋 병합