pandas란?
Pandas는 쉽고 직관적인 관계형 또는 분류된 데이터로 작업 할 수 있도록 설계된 빠르고 유연하며 표현이 풍부한 데이터 구조를 제공하는 Python 패키지입니다.
Python에서 실용적인 실제 데이터 분석을 수행하기 위한 고수준의 객체 형태를 목표로 합니다.
또한, 어떤 언어로도 사용할 수 있는 가장 강력하고 유연한 오픈 소스 데이터 분석 / 조직 도구가되는 더 넓은 목표를 가지고 있다고 합니다.
Pandas는 NumPy를 기반으로하며 다른 많은 타사 라이브러리와 잘 통합되도록 설계되어 있습니다.
Pandas는 다음의 종류의 데이터에 적합한 분석 패키지입니다.
- SQL 테이블 또는 Excel 스프레드 시트에서와 같이 이질적으로 유형이 지정된 열이있는 데이블 형식 데이터
- 정렬되고 정렬되지 않은 시계열 데이터
- 행 및 열 레이블이 포함 된 임의의 행렬 데이터
- 다른 형태의 관찰 / 통계 데이터 세트
Pandas 데이터 구조
차원 |
이름 |
설명 |
1차원 |
Series |
균일한 유형의 배열로 표시된 1차원 데이터 |
2차원 |
DataFrame |
잠재적으로 이질적으로 유형이 지정된 열이있는 크기가 가변적인 테이블 형식의 2차원 데이터 |
Numpy 란?
Numpy는 다차원 배열을 쉽게 처리하고 효율적으로 사용할 수 있도록지원하는 파이썬의 패키지입니다.
NumPy는 데이터 구조 외에도 수치 계산을 위해 효율적으로 구현된 기능을 제공합니다.
데이터 분석을 할때, Pandas와 함께 자주 사용하는 도구로 등장합니다.
데이터는 숫자의 배열로 볼 수 있습니다. 효율적으로 배열을 저장 및 조작할 수 있어야 하는데 이러한 요구사항으로 Numpy 패키지를 사용합니다.
파이썬의 내장 기능인 리스트도 배열을 처리하지만, 그 크기가 커지면 Numpy보다 효율성이 떨어지게 됩니다.
이러한 장점으로 파이썬의 Numpy 패키지는 Data Science에 핵심적인 도구로 인식이 되고 있습니다.
Reference
https://1000yun.tistory.com/2
https://brownbears.tistory.com/480