k-최근접 이웃 회귀
예측하려는 샘플에 가장 가까운 샘플 k개를 선택하여 샘플의 수치의 평균을 구하여 새로운 예측값을 추정하는 회귀분석법
✍🏻회귀 : 두 변수 사이의 상관관계를 분성하는 방법, 임의의 값을 예측하는 분석법
데이터 준비


결정계수(R²)
R² = 1 - (타깃 - 예측)² 의 합 / (타깃 - 평균)² 의 합
종속변수의 분산 중에서 독립변수로 설명되는 비율, 모델이 타겟 변수를 얼마나 잘 예측 혹은 설명하는지 평가지표로 사용된다.
예측이 평균값만큼의 예측을 수행한다면 분자와 분모 값이 비슷해져서 결정계수 값이 0에 가까워진다.
예측이 타깃값에 가깝게 예측한다면 분자가 0에 가까워지기 때문에 결정계수 값이 0에 가까워진다.
과대적합 vs 과소적합
훈련한 모델의 점수를 산정하였을때 훈련 세트에서 점수가 좋고 테스트 세트에서 점수가 나쁘다면 과대적합
훈련한 모델의 점수를 산정하였을때 테스트 세트에서 점수가 좋고 훈련 세트에서 점수가 나쁘다면 과소적합
과대적합 | 과소적합 | |
훈련 세트 | 훈련 세트 점수 > 테스트 세트 점수 | 테스트 세트 점수 > 훈련 세트 점수 |
테스트 세트 |
✍🏻 과대적합시 새로운 샘플에 대한 예측이 잘 동작하지 않을 가능성이 높음
✍🏻 두 세트의 점수가 모두 너무 낮은 경우에도 과소적합이라고 하며 훈련모델이 단순하여 적절히 훈련되지 않았다고 판단
k-최근접 이웃 회귀의 경우 근처 샘플의 갯수 k를 조절하여 훈련하면 모델의 점수를 조절할 수 있다.
✍🏻 과대적합일 경우 n_neighbor 속성값을 늘리고, 과소적합은 반대로 값을 줄여 훈련하면 해결할 수 있다.
✍🏻 데이터의 크기가 크고 정교할수록 더욱 학습에 적합하다.
📃미션
Ch. 03(03-1) 2번 문제 출력 그래프 인증샷
문제) 과대적합과 과소적합에 대한 이해를 돕기 위해 복잡한 모델과 단순한 모델을 만들겠습니다. 앞서 만든 k-최근접 이웃 회귀 모델의 k 값을 1, 5, 10으로 바꿔가며 훈련해 보세요. 그다음 농어의 길이를 5에서 45까지 바꿔가며 예측을 만들어 그래프로 나타내 보세요. n이 커짐에 따라 모델이 단순해지는 것을 볼 수 있나요?


선형 회귀
특성이 하나인 경우 해당 특성을 잘 나타낼 수 있는 직선을 학습하는 알고리즘
✍🏻선형 회귀가 찾은 특성과 타깃 사이의 관계는 선형 방정식의 계수 또는 가중치에 저장된다.
모델 파라미터
선형 회귀가 찾은 가중치처럼 머신러닝 모델이 특성에서 학습한 파라미터를 말함,
많은 머신러닝 알고리즘의 훈련 과정은 최적의 모델 파라미터를 찾는 것과 같다. (이를 모델 기반 학습이라 한다.)
✍🏻 k-최근접 이웃에서는 모델 파라미터가 없으며 훈련 세트를 저장하는 것이 훈련의 전부였다. (이를 사례 기반 학습이라 한다.)
다항 회귀
다항식을 사용하여 특성과 타깃 사이의 관계를 나타낸다. 함수의 그래프가 비선형일 수 있지만 여전히 선형 회귀로 표현 가능
규제
머신러닝 모델이 훈련 세트를 너무 과도하게 학습하지 못하도록 훼방하는 것을 말함, 즉 훈련 세트에 과대적합되지 않도록 하는 것
릿지 회귀
규제가 있는 선형 회귀 모델, 선형 모델의 계수를 작게 만들어 과대적합을 완화시킨다.
라쏘 회귀
릿지와 같이 규제가 있는 선형 회귀 모델, 릿지와 다르게 계수 값을 아예 0으로 만들 수도 있다.
📃 선택미션
모델 파라미터에 대해 설명하기
머신러닝 모델이 특성에서 학습한 파라미터를 의미하며 학습된 모델의 능력을 결정하며 학습된 모델의 일부로 저장이 된다.
'혼공머' 카테고리의 다른 글
혼자 공부하는 머신러닝+딥러닝 7장 (0) | 2022.08.21 |
---|---|
혼자 공부하는 머신러닝+딥러닝 6장 (0) | 2022.08.14 |
혼자 공부하는 머신러닝+딥러닝 5장 (0) | 2022.07.31 |
혼자 공부하는 머신러닝+딥러닝 4장 (0) | 2022.07.24 |
혼자 공부하는 머신러닝+딥러닝 1, 2장 (0) | 2022.07.10 |