본문 바로가기

통계3

[통계] Python에서 MICE를 사용하여 결측치 대체하기 (Scikit-learn의 IterativeImputer) 이번 포스팅에서는 지난 MICE 기초 포스팅 내용에 이어,Scikit-learn의 IterativeImputer를 활용해 MICE(Multivariate Imputation by Chained Equations) 방식으로 결측치를 대체하는 구체적인 내용에 대해 다뤄보도록 하겠다.우선, 필자가 실제 데이터 분석에 사용했던 예시 코드는 아래와 같다.imputer = IterativeImputer(random_state=42)mice_result = imputer.fit_transform(mice_input_df)MICE를 적용하기 위해 간단한 전처리(수치형 + 범주형 데이터 분리, 원핫인코딩 등)를 거친 mice_input_df 데이터에 MICE 방식의 결측치 대체를 적용한 뒤, mice_result라는 변.. 2025. 7. 3.
[통계] MICE 결측치 대체법: 다중대입법을 활용한 결측치 대체 본 포스팅에서는 데이터 분석 과정에서 자주 마주치는 '결측치(missing value)' 문제와 이를 다루는 대표적인 방법 중 하나인 MICE(Multivariate Imputation by Chained Equations) 방식에 대해 설명할 예정이다.일반적으로 결측치는 평균값이나 최빈값으로 대체되는 경우가 대부분인데, 이는 변수 간의 관계를 무시한 채 단순히 값을 채워 넣는 방식이기 때문에 데이터의 구조를 왜곡하고 분석 결과에 편향을 초래할 수 있는 문제가 있다.그럼 본격적으로 결측치의 유형과 이를 대체하기 위한 다양한 방법들, 그리고 그 중에서도 MICE 결측치 대체법에 대해서 알아보자.01. 결측치의 유형결측치는 발생 방식에 따라 세 가지 유형으로 나뉜다. 각각의 개념은 결측치가 분석에 미치는 영.. 2025. 6. 28.
[통계] 시계열 분석과 회귀분석의 차이, 시계열 횡단면 데이터 분석, ARDL, LSTM 알아보기 유통데이터분석 공모전을 진행하던 중, 시계열 분석과 회귀분석의 차이를 명확히 할 필요가 있다고 판단하였다.그래서 오늘은 각각의 특징이나 대표적 기법들을 다루고, 이 두 가지 상황을 동시에 적용해야 할 때 적합한 모델/분석기법에 대해서 알아보려고 한다.1. 시계열 분석특징: 시간에 따른 데이터의 흐름을 분석하고 미래 값을 예측하는 데 중점을 둔다. 자기상관성(autocorrelation), 추세(trend), 계절성(seasonality), 주기성(cycle), 변동성(volatility) 등을 고려한다는 특징이 있다.대표적 기법:AR (AutoRegression): 과거 자신의 값들을 이용해 현재 값을 예측.MA (Moving Average): 과거의 예측 오차를 이용해 현재 값을 예측ARIMA (Aut.. 2024. 10. 10.