DataScience
Pandas

Pandas, Numpy 란? (Python 데이터 분석)

Jan. 31, 2023, 10:13 p.m.

 

pandas란?

Pandas logo.svg

Pandas는 쉽고 직관적인 관계형 또는 분류된 데이터로 작업 할 수 있도록 설계된 빠르고 유연하며 표현이 풍부한 데이터 구조를 제공하는 Python 패키지입니다.

Python에서 실용적인 실제 데이터 분석을 수행하기 위한 고수준의 객체 형태를 목표로 합니다.

또한, 어떤 언어로도 사용할 수 있는 가장 강력하고 유연한 오픈 소스 데이터 분석 / 조직 도구가되는 더 넓은 목표를 가지고 있다고 합니다.

Pandas는 NumPy를 기반으로하며 다른 많은 타사 라이브러리와 잘 통합되도록 설계되어 있습니다.

 

Pandas는 다음의 종류의 데이터에 적합한 분석 패키지입니다.
- SQL 테이블 또는 Excel 스프레드 시트에서와 같이 이질적으로 유형이 지정된 열이있는 데이블 형식 데이터
- 정렬되고 정렬되지 않은 시계열 데이터
- 행 및 열 레이블이 포함 된 임의의 행렬 데이터 
- 다른 형태의 관찰 / 통계 데이터 세트

 

Pandas 데이터 구조

 차원

이름 

설명 

 1차원

Series 

 균일한 유형의 배열로 표시된 1차원 데이터

 2차원

DataFrame 

 잠재적으로 이질적으로 유형이 지정된 열이있는 크기가 가변적인 테이블 형식의   2차원 데이터

 

 

Numpy 란?

Numpy는 다차원 배열을 쉽게 처리하고 효율적으로 사용할 수 있도록지원하는 파이썬의 패키지입니다.

NumPy는 데이터 구조 외에도 수치 계산을 위해 효율적으로 구현된 기능을 제공합니다.

데이터 분석을 할때, Pandas와 함께 자주 사용하는 도구로 등장합니다.

 

데이터는 숫자의 배열로 볼 수 있습니다. 효율적으로 배열을 저장 및 조작할 수 있어야 하는데 이러한 요구사항으로 Numpy 패키지를 사용합니다.

파이썬의 내장 기능인 리스트도 배열을 처리하지만, 그 크기가 커지면 Numpy보다 효율성이 떨어지게 됩니다.

이러한 장점으로 파이썬의 Numpy 패키지는 Data Science에 핵심적인 도구로 인식이 되고 있습니다.

Reference

https://1000yun.tistory.com/2

https://brownbears.tistory.com/480


Comments


Related Posts