관리 메뉴

NineTwo meet you

[핸즈온 머신러닝] 1장 정리 본문

머신러닝

[핸즈온 머신러닝] 1장 정리

NineTwo 2021. 6. 27. 01:36
반응형
본 포스팅은 “Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow/오렐리앙 지롱 저/박해선 옮김” 을 읽고 학습한 내용을 정리한 것입니다.

머신러닝?

컴퓨터가 데이터를 통해 스스로 학습하여 예측이나 판단을 제공하는 알고리즘이나 기술을 의미한다.

인공지능, 머신러닝, 딥러닝 설명


머신러닝 종류

종류 설명
지도학습
Supervised
Learning
문제와 정답을 모두 알려주고 공부시키는 방법, label 포함 됨
회귀 regression 연속형 변수를 예측하는 것
분류 classification 이산형 변수를 예측하는 것
비지도학습
Unsupervised
Learning

답을 알려주지 않고 공부시키는 방법, label 포함 안됨
군집 분석 유사한 데이터끼리 그룹화하는 것
PCA 독립변수들의 차원을 축소하는 것
연관 규칙 학습 데이터 특성간의 흥미로운 관계를 찾는 것
준지도 학습
Semisupervised
Learning
지도학습과 비지도학습의 조합으로 이루어진 것
강화학습
Reinforcement
Learning
보상을 통해 상을 최대화하고 벌은 최소화하는 방향으로 학습하는 것

지도 학습 Supervised Learning

  • K-최접근 이웃
  • 선형 회귀
  • 로지스틱 회귀
  • 서포트 벡터 머신 SVM
  • 결정트리
  • 랜덤 포레스트
  • 신경망

비지도학습 Unsupervised Learning

  • 군집
    • K-평균
    • DBSCAN
    • 계층 군집 분석 HCA
    • 이상치 탐지와 특이치 탐지
    • 원 클래스
    • 아이솔레이션 포레스트
  • 시각화와 차원 축소
    • 주성분 분석 PCA
    • 커널 PCA
    • 지역적 선형 임베딩 LLE
    • t - SNE
  • 연관 규칙 학습
    • 어프라이어리
    • 이클렛

배치 학습 (오프라인 학습)

가용한 모든 데이터를 사용해 훈련하는 방식으로 시스템은 점진적으로 학습할 수 없다.

 

온라인 학습

미니 배치라 불리는 작은 단위로 시스템을 훈련하는 방식으로 점진적으로 학습한다.

제한된 컴퓨팅 환경에 유리하다.


사례 기반 학습

시스템이 훈련 샘플을 기억해서 학습을 진행하는 것을 의미한다.

유사도 측정을 활용하여 새로운 데이터와 학습 샘플을 비교하여 일반화를 진행한다.

 

모델 기반 학습

샘플을 모델로 만들어 예측에 사용하는 것을 의미한다.


주요 도전 과제

  • 나쁜 데이터
    • 충분하지 않은 양의 훈련 데이터
    • 대표성이 없는 훈련 데이터
      • 샘플링 잡음 : 샘플 크기가 작고 우연에 의한 대표성이 없는 데이터
      • 샘플링 편향 : 샘플의 크기는 크지만 잘못된 추출 방법으로 대표성이 없는 데이터
    • 낮은 품질의 데이터
      • 이상치
    • 관련 없는 데이터
      • 특성 선택 : 가장 유용한 특성 선택
      • 특성 추출 : 특성을 결합해 더 유용한 특성 생성
  • 나쁜 알고리즘
    • 과대적합 : 모델이 너무 복잡해서 훈련 데이터에는 너무 잘맞지만 일반성이 떨어지는 경우
    • 과소적합 : 모델이 너무 단순해서 훈련 데이터 역시 잘 학습하지 못하는 경우

Training Set (학습 세트)

알고리즘이 학습할 때 사용하는 데이터를 의미한다.

 

Validation Set (검증 세트)

훈련 세트의 일부를 떼어낸 세트로 모델의 예측 정확도나 분류 정확도를 계산할 때 사용하는 데이터를 의미한다.

개발 세트 또는 데브 세트로 불리기도 한다. 보통 학습 세트와 검증 세트는 8 : 2의 비율로 나눈다.

 

교차 검증

정확도를 높이고 데이터 부족으로 인한 과소적합을 방지하기 위해 학습 세트와 검증 세트를 나눠 검증하는 방식을 의미한다. 이는 데이터 편중을 막을 수 있다.

  • K-Fold Cross Validation ( k-겹 교차 검증 )
  • Stratified K-Fold Cross Validation ( 계층별 k-겹 교차 검증 )

 

Test Set (평가 세트)

모델을 테스트할 때 사용하는 데이터를 의미한다.

검증 세트와 비슷하다고 생각할 수 있지만 모델을 구축하거나 튜닝할때 한번도 사용되지 않았던 데이터라는 차이가 있다. 실제 값과 모델이 예측한 값을 비교해 정확도, 정밀도, 재현률 f1등을 계산해 얼마나 알고리즘이 수행되었는지 판단해 볼 수있다.

 

반응형
Comments