데이터 분석시 사용되는 Pandas 라이브러리 API 등의 리턴타입이 Series와 DataFrame으로 나뉘는 경우가 있다.
Series와 DataFrame은 거의 유사하지만, 동시에 다른 점이 존재한다.
Series/DataFrame이란?
- Series: Pandas Series는 테이블의 열과 같다. 모든 유형의 데이터를 보유하는 1차원 배열이다.
- DataFrame: Pandas DataFrame은 2차원 배열 또는 행과 열이 있는 테이블과 같은 2차원 데이터 구조이다.
그래서 뭐가 다른가?
Series는 개념적으로 뿐 아니라 말그대로 DataFrame의 단일 열에 대한 데이터 구조이다. 즉, DataFrame의 데이터가 실제로 메모리에는 Series의 컬렉션으로 저장되는 것이다.
또한 행렬은 리스트로 구성되기 때문에 리스트와 행렬이 모두 필요하다. 단일 행 행렬은 기능상 리스트와 동일하지만 구성된 리스트 없이는 여전히 존재할 수 없다.
둘 다 매우 유사한 API를 가지고 있지만 DataFrame 메서드는 항상 둘 이상의 열이 있을 가능성을 충족한다는 것을 알 수 있다. 물론 DataFrame에 다른 Series(또는 이에 상응하는 객체)를 추가할 수 있으며 다른 Series에 Series를 추가하면 DataFrame이 생성된다.