판다스 2차원 데이터, 데이터 프레임 생성하기, pandas.DataFrame¶
판다스 2차원 데이터, 데이터 프레임은
딕셔너리안에 판다스 시리즈를 값으로 가지고 있으면 만들 수 있다.
아래의 예시를 봐보자
In [1]:
import pandas as pd
In [2]:
items = {'Bob' : pd.Series(data = [245, 25, 55], index = ['bike', 'pants', 'watch']),
'Alice' : pd.Series(data = [40, 110, 500, 45], index = ['book', 'glasses', 'bike', 'pants'])}
In [3]:
df = pd.DataFrame(data = items)
In [4]:
df
Out[4]:
Bob | Alice | |
---|---|---|
bike | 245.0 | 500.0 |
book | NaN | 40.0 |
glasses | NaN | 110.0 |
pants | 25.0 | 45.0 |
watch | 55.0 | NaN |
In [5]:
# 데이터프레임 용어정리
# 왼쪽 진한 글씨 : index
# 위에 진한 글씨 : 컬럼스 columns
# 가운데 글씨들을 : values
NaN 은 해당 항목에 값이 없음을 뜻합니다.(Not a Number)
그럼 판다스 데이터프레임에 대해서 조금 더 알아봅시다.
In [6]:
df
Out[6]:
Bob | Alice | |
---|---|---|
bike | 245.0 | 500.0 |
book | NaN | 40.0 |
glasses | NaN | 110.0 |
pants | 25.0 | 45.0 |
watch | 55.0 | NaN |
In [7]:
df.ndim
Out[7]:
2
In [8]:
df.shape # 인덱스랑 컬럼은 행과 열에 포함되지 않는다.
Out[8]:
(5, 2)
In [9]:
df.size
Out[9]:
10
In [10]:
df.index
Out[10]:
Index(['bike', 'book', 'glasses', 'pants', 'watch'], dtype='object')
In [11]:
df.columns
Out[11]:
Index(['Bob', 'Alice'], dtype='object')
In [12]:
df.values
Out[12]:
array([[245., 500.], [ nan, 40.], [ nan, 110.], [ 25., 45.], [ 55., nan]])
인덱스가 없더라도 데이터프레임을 만들 수 있다.¶
바로 예제를 봐보자
In [13]:
data = {'Bob' : pd.Series([245, 25, 55]),
'Alice' : pd.Series([40, 110, 500, 45])}
In [14]:
pd.DataFrame(data = data)
Out[14]:
Bob | Alice | |
---|---|---|
0 | 245.0 | 40 |
1 | 25.0 | 110 |
2 | 55.0 | 500 |
3 | NaN | 45 |
이렇게 인덱스 없이 데이터프레임을 만든다면 0부터 시작되는 인덱스가 자동으로 붙게된다.
'넘파이&판다스' 카테고리의 다른 글
[Pandas] 데이터 프레임에 Data accessing하기, loc, iloc, [대괄호] (0) | 2021.11.21 |
---|---|
[Pandas] csv 파일을 데이터프레임으로, 데이터프레임을 csv로 저장하기! (Unnamed: 0 해결하기), read_csv, to_csv (0) | 2021.11.21 |
[Pandas] 판다스 1차원 데이터, 시리즈에서 원하는 조건만 가져와보자!비교연산자 사용하기(<,>, <=, >=) (0) | 2021.11.21 |
[Pandas] 판다스 1차원 데이터, 시리즈에서 더하기 빼기 (0) | 2021.11.21 |
[Pandas] 판다스의 1차원 데이터, 시리즈(Series)의 Data Accessing, 데이터 가져오기 (0) | 2021.11.21 |