목록분류 전체보기 (104)
AI와 데이터 사이언스의 이론과 실전
보호되어 있는 글입니다.
CatBoost의 기본 개념 이름의 유래: "CatBoost"라는 이름은 'Categorical'과 'Boosting'의 합성어로, 범주형 데이터에 초점을 맞춘 부스팅 알고리즘이라는 의미를 담고 있습니다. 개발자: CatBoost는 Yandex, 러시아의 주요 검색 엔진 기업에 의해 개발되었습니다. CatBoost의 주요 특징 범주형 데이터 처리: CatBoost는 별도의 전처리 없이 범주형 변수를 효과적으로 처리할 수 있도록 설계되었습니다. 대부분의 다른 기계 학습 모델과 달리, 범주형 데이터를 수치형으로 변환하는 과정이 필요 없습니다. 자동 하이퍼파라미터 튜닝: CatBoost는 하이퍼파라미터 튜닝이 비교적 쉬운 편이며, 기본 설정만으로도 우수한 성능을 보여줍니다. 결측치 처리: 자체적으로 결측치를 ..
배깅(Bagging) 기본 원리: 배깅(Bagging, Bootstrap Aggregating의 줄임말)은 다수의 분류기가 훈련 데이터셋의 서로 다른 무작위 샘플에 대해 각각 학습을 수행하고, 이 분류기들의 예측을 평균화하여 최종 결과를 결정합니다. 목적: 배깅의 주 목적은 훈련 데이터의 무작위 샘플링을 통해 분류기의 분산을 감소시켜 과적합을 줄이는 것입니다. 작동 방식: 주로 부트스트랩 샘플링(복원 추출)을 사용하여 원래 데이터셋의 크기와 동일한 여러 서브셋을 생성합니다. 각 서브셋으로 모델을 개별적으로 훈련시키고, 이 모델들의 결과를 결합합니다. 대표적 모델: 랜덤 포레스트(Random Forest)가 대표적인 배깅 기반 모델입니다. 랜덤 포레스트는 다수의 결정 트리들로 구성되며, 각 트리는 데이터셋..

1. 단항 선형 회귀 실습 한개의 입력이 들어가서 한 개의 출력이 나오는 구조 y = Wx + b w는 weight, b는 잔차 x가 1개임으로 단항 선형 회귀 import torch import torch.nn as nn import torch.optim as optim import matplotlib.pyplot as plt import pandas as pd import numpy as np torch.manual_seed(2024) # manual_seed : 랜덤값 고정 # 이렇게 랜덤값을 고정하면 제 결과와 이 글을 보고 따라하시는 여러분들의 결과가 같아집니다 x_train = torch.FloatTensor([[1],[2],[3]]) y_train = torch.FloatTensor([[2]..