[Machine Learning with Python Cookbook] ch2. Data Load

3월 29, 2021





Summary

 머신러닝 작업의 첫 번째 단계는 데이터를 불러오는 것입니다.
 CSV 파일, SQL 데이터베이스 같은 다양한 소스에서 데이터를 적재하는 방법을 알아봅니다. pandas 라이브러리의 다양한 도구를 사용합니다. 모의 데이터 생성은 scikit-learn을 사용합니다.

    토이 데이터셋 (2.1)
        - load_boston: 보스턴 주택 가격에 대한 503개 샘플 데이터셋입니다. 회귀 알고리즘
        - load_iris: 붓꽃 샘플 치수에 대한 150개 샘플 데이터셋입니다. 분류 알고리즘
        - load_digits: 손으로 쓴 숫자 이미지 1,979개 샘플 데이터셋입니다. 이미지 분류 작업

    모의 데이터셋 (2.2)
        - 선형회귀: scikit-learn의 make_regression 함수 사용. 실수 특성 행렬과 실수 타겟 벡터를 반환
        - 분류: scikit-learn의 make_classification 함수 사용. 실수 특성 행렬과 클래스의 소속을 나타내는 정수 타겟 벡터 반환
        - 군집: scikit-learn의 make_blobs 함수 사용. 특성 행렬과 클래스의 소속을 나타내는 정수 타겟 벡터 반환 

    파일 적재
        - csv: pandas 라이브러리의 read_csv 함수 사용 (2.3)
        - excel: pandas 라이브러리의 read_excel 함수 사용 (2.4)
        - json: pandas 라이브러리의 read_json 함수 사용 (2.5)
        - SQL database: pandas 라이브러리의 read_sql_query 함수 사용 (2.6)


Code