머신러닝이란 ? 데이터 속 숨어있는 규칙적인 패턴을 찾아내서 다양한 수리적 형태로 표현하는 것
1. 다음 중 지도학습(supervised learning)에 속하지 않는 것은?
A) 선형 회귀
B) 로지스틱 회귀
C) K-means
D) 의사결정나무
✅ 정답: C
💬 해설: K-means는 라벨 없는 데이터를 군집화하는 비지도학습이다.
2. Overfitting 방지를 위한 방법으로 가장 거리가 먼 것은?
A) Cross Validation
B) Regularization
C) Dropout
D) Feature Scaling
✅ 정답: D
💬 해설: 스케일링은 학습 안정화엔 도움되지만 과적합 방지 직접 수단은 아니다.
⚙️ 1. Min–Max Scaling
- 정의: 값들을 [0, 1] 혹은 [-1, 1] 같은 범위로 선형 변환.
- 장점: 직관적, 원래 분포의 형태를 그대로 유지함.
- 단점: outlier(이상치)에 매우 취약함. 하나만 튀어도 전부 쪼그라듦.
- 사용 예시: 이미지 픽셀, k-NN, K-means.
⚙️ 2. Z-score Standardization (StandardScaler)
- 정의: 평균 0, 표준편차 1로 변환.
- 장점: outlier에 덜 민감, 대부분의 선형 모델에서 안정적.
- 단점: 완전히 비정상적인 분포(예: log 분포)엔 잘 안 맞음.
- 사용 예시: 회귀, SVM, 신경망, PCA 등 거의 표준.
⚙️ 3. Robust Scaling
- 정의: 중앙값과 IQR(사분위 범위, Q3–Q1)을 기준으로 스케일링.
- 장점: 이상치(outlier)에 강함.
- 단점: 데이터가 아주 비대칭이면 효과가 제한적.
- 사용 예시: outlier가 많은 센서 데이터, 금융 데이터 등.
⚙️ 4. Log / Power Transformation
- 정의: 로그나 루트로 분포를 “덜 치우치게” 변환.
- 장점: skewed(비대칭) 분포를 정규분포에 가깝게 만듦.
- 단점: 음수값 있을 때는 바로 log 불가.
- 사용 예시: income, price, counts 등 양수 skewed 변수.
⚙️ 5. MaxAbs Scaling
- 정의: 최대 절댓값으로 나눔 → [-1, 1] 범위.
- 장점: 희소 행렬(sparse matrix) 형태 보존.
- 단점: outlier 영향 받음.
- 사용 예시: text TF–IDF, one-hot sparse 데이터
3. 머신러닝 파이프라인 순서로 옳은 것은?
A) 데이터 수집 → 전처리 → 모델학습 → 평가
B) 모델학습 → 전처리 → 데이터 수집 → 평가
C) 평가 → 모델학습 → 데이터 수집
D) 전처리 → 평가 → 모델학습
✅ 정답: A
💬 해설: 머신러닝의 기본 플로우.
4. Bias-Variance trade-off에 대한 설명으로 옳은 것은?
A) Bias가 낮으면 항상 좋은 모델이다.
B) Variance가 높으면 과소적합된다.
C) Bias는 단순모델, Variance는 복잡모델에서 크다.
D) 둘 다 동시에 낮출 수 있다.
✅ 정답: C
💬 해설: 단순모델은 Bias↑ Variance↓, 복잡모델은 그 반대.
- Bias ↑ → “모델이 둔함.” (패턴을 제대로 못 잡음)
- Variance ↑ → “모델이 예민함.” (데이터 조금만 바뀌어도 예측이 요동침)
- 결국 둘 다 잡는 게 목표지만, 현실은 항상 트레이드오프라
“적당히 똑똑하지만 과민하지 않은 모델”을 찾는 게 핵심.
5. Cross-validation의 목적은?
A) 테스트데이터 정확도 극대화
B) 데이터 분포 왜곡
C) 모델의 일반화 성능 추정
D) 학습 속도 개선
✅ 정답: C
💬 해설: 과적합 방지 및 모델 신뢰성 평가용이다.
'배움로그 > 오늘의 AI' 카테고리의 다른 글
| AI 복습 커리큘럼 (0) | 2025.10.23 |
|---|