[Machine Learning with Python Cookbook] ch2. Data Load

Summary

머신러닝 작업의 첫 번째 단계는 데이터를 불러오는 것입니다.

CSV 파일, SQL 데이터베이스 같은 다양한 소스에서 데이터를 적재하는 방법을 알아봅니다. pandas 라이브러리의 다양한 도구를 사용합니다. 모의 데이터 생성은 scikit-learn을 사용합니다.

* 토이 데이터셋 (2.1)

- load_boston: 보스턴 주택 가격에 대한 503개 샘플 데이터셋입니다. 회귀 알고리즘

- load_iris: 붓꽃 샘플 치수에 대한 150개 샘플 데이터셋입니다. 분류 알고리즘

- load_digits: 손으로 쓴 숫자 이미지 1,979개 샘플 데이터셋입니다. 이미지 분류 작업

* 모의 데이터셋 (2.2)

- 선형회귀: scikit-learn의 make_regression 함수 사용. 실수 특성 행렬과 실수 타겟 벡터를 반환

- 분류: scikit-learn의 make_classification 함수 사용. 실수 특성 행렬과 클래스의 소속을 나타내는 정수 타겟 벡터 반환

- 군집: scikit-learn의 make_blobs 함수 사용. 특성 행렬과 클래스의 소속을 나타내는 정수 타겟 벡터 반환

* 파일 적재

- csv: pandas 라이브러리의 read_csv 함수 사용 (2.3)

- excel: pandas 라이브러리의 read_excel 함수 사용 (2.4)

- json: pandas 라이브러리의 read_json 함수 사용 (2.5)

- SQL database: pandas 라이브러리의 read_sql_query 함수 사용 (2.6)