Summary
머신러닝 작업의 첫 번째 단계는 데이터를 불러오는 것입니다.
CSV 파일, SQL 데이터베이스 같은 다양한 소스에서 데이터를 적재하는 방법을 알아봅니다. pandas 라이브러리의 다양한 도구를 사용합니다. 모의 데이터 생성은 scikit-learn을 사용합니다.
* 토이 데이터셋 (2.1)
- load_boston: 보스턴 주택 가격에 대한 503개 샘플 데이터셋입니다. 회귀 알고리즘
- load_iris: 붓꽃 샘플 치수에 대한 150개 샘플 데이터셋입니다. 분류 알고리즘
- load_digits: 손으로 쓴 숫자 이미지 1,979개 샘플 데이터셋입니다. 이미지 분류 작업
* 모의 데이터셋 (2.2)
- 선형회귀: scikit-learn의 make_regression 함수 사용. 실수 특성 행렬과 실수 타겟 벡터를 반환
- 분류: scikit-learn의 make_classification 함수 사용. 실수 특성 행렬과 클래스의 소속을 나타내는 정수 타겟 벡터 반환
- 군집: scikit-learn의 make_blobs 함수 사용. 특성 행렬과 클래스의 소속을 나타내는 정수 타겟 벡터 반환
* 파일 적재
- csv: pandas 라이브러리의 read_csv 함수 사용 (2.3)
- excel: pandas 라이브러리의 read_excel 함수 사용 (2.4)
- json: pandas 라이브러리의 read_json 함수 사용 (2.5)
- SQL database: pandas 라이브러리의 read_sql_query 함수 사용 (2.6)