본문 바로가기

TIL 통합

2/15 심화 프로젝트ing

프로젝트ing

부동산 월세 데이터 머신러닝 끝내고서 전세도 머신러닝 하려는데 메모리 초과라고 해서 막히는 중...ㅠㅠ

re_month = re.query('type == "월세"').reset_index()       #데이터를 월세랑 전세 나눠서 보기
re_whole = re.query('type == "전세"').reset_index()
re_month.head()

 

wst_sc1 = StandardScaler()
wst_sc2 = StandardScaler()

re_whole['size_sc'] = wst_sc1.fit_transform(re_whole[['size']])
re_whole['소득_sc'] = wst_sc1.fit_transform(re_whole[['월_평균_소득_평균']])



wle = LabelEncoder()

re_whole['le건물'] = wle.fit_transform(re_whole[['building']])

wmm_sc1 = MinMaxScaler()
wmm_sc2 = MinMaxScaler()
wmm_sc3 = MinMaxScaler()
wmm_sc4 = MinMaxScaler()
wmm_sc5 = MinMaxScaler()
wmm_sc6 = MinMaxScaler()
wmm_sc7 = MinMaxScaler()
wmm_sc8 = MinMaxScaler()

re_whole['mm여성비중'] = wmm_sc1.fit_transform(re_whole[['여성인구비중']])
re_whole['mm청년비중'] = wmm_sc2.fit_transform(re_whole[['청년인구비중']])
re_whole['mm청년중여성비중'] = wmm_sc3.fit_transform(re_whole[['청년중여성비중']])
re_whole['mm전체중청년여성비중'] = wmm_sc4.fit_transform(re_whole[['전체중청년여성비중']])
re_whole['mm총직장인구수'] = wmm_sc5.fit_transform(re_whole[['총_직장_인구_수']]) #좋은 분포는 아니나 큰 이상치도 없으므로 일단은 mm으로
re_whole['mm2030직장인비중'] = wmm_sc6.fit_transform(re_whole[['2030직장인구비중']])
re_whole['mm2030상주인구비중'] = wmm_sc4.fit_transform(re_whole[['2030상주인구비중']])
re_whole['mm인구밀도'] = wmm_sc4.fit_transform(re_whole[['인구밀도(명/㎢)']])

re_whole.describe(include = 'all')


re_whole_f = re_whole[['분기', 'add1', 'add2', 'type', 'deposit', 'le건물', 'name', 'size_sc', 'mm인구밀도', '전분기대비인구증감률', 'mm여성비중',	'mm청년비중',	'mm청년중여성비중',	'mm전체중청년여성비중',	'mm총직장인구수',	'소득_sc',	'mm2030직장인비중',	'mm2030상주인구비중']]


wX_features = ['le건물', 'size_sc', 'mm인구밀도', '전분기대비인구증감률', 'mm여성비중',	'mm청년비중',	'mm청년중여성비중',	'mm전체중청년여성비중',	'mm총직장인구수',	'소득_sc',	'mm2030직장인비중',	'mm2030상주인구비중']
wX = re_whole_ff[wX_features]
wy = re_whole_ff['deposit']



model_lorw = LogisticRegression()
model_dtw = DecisionTreeClassifier(random_state = 42)
model_rfw = RandomForestClassifier(random_state = 42)

model_lorw.fit(wX, wy)
model_dtw.fit(wX, wy)
model_rfw.fit(wX, wy)

y_lorw_pred = model_lorw.predict(wX)
y_dtw_pred = model_dtw.predict(wX)
y_rfw_pred = model_rfw.predict(wX)


get_score('lor', wy, y_lorw_pred)
get_score('dt', wy, y_dtw_pred)
get_score('rf', wy, y_rfw_pred)

'TIL 통합' 카테고리의 다른 글

02/20 Til  (0) 2024.02.20
2/19 수요일 TIL - 머신러닝 및 부동산 추천 알고리즘  (0) 2024.02.19
2/14  (0) 2024.02.14
02/13  (0) 2024.02.13
2/7 심화 프로젝트 2일차  (0) 2024.02.07