Pandas(パンダス)の基本情報
Pandas(パンダス)の基本情報を整理します。
概要
Pandas(パンダス)は、簡単に言えば、Pythonのデータ分析用ライブラリの一つです。データフレームなどの独自のデータ構造が提供されており、様々な処理が可能です。Pandas(パンダス)で出来ることを以下に挙げておきます。
- CSV・Excel・RDBへのデータの入出力
- データ前処理
- データの結合や部分的な取り出し・ピボット処理
- データの集約およびグループ演算
- データに対しての統計処理および回帰処理
(パンダス)を活用することで、データの前処理という工程を効率化することができます。
読み方
Pandasの読み方は、パンダスです。
Pandas(パンダス)のインストール方法
Pandas(パンダス)のインストール方法は以下の通り。
$ pip install pandas
続いて、以下のコマンドを打ち込むことで、Pandasをpdという名前で扱うようにします。
$ import pandas as pd
Pandas(パンダス)で良く使われるデータ型
Pandas(パンダス)で良く使われるデータ型は以下の通りです。
Series(シリーズ)型
Seriesは、1列のみのデータ型です。
Data Flame(データフレーム)型
データフレームは、2次元のラベル付きのデータ構造です。Pandas(パンダス)において、最も多く使われるデータ型です。
Panel(パネル)型
パネルは3次元のデータフレームに相当するデータ構造です。Pandas(パンダス)を扱う上では、それほど頻繁に登場することはありません。
Pandas(パンダス)で欠損値の処理
Pandasでは、欠損値の処理を行うメソッドがあります。具体的には、以下の通り。
dropna
指定の軸方向にデータ列を見て、欠損値(NaN)の有無に関して指定の条件を満たす場合に、そのデータ列を削除しま
fillna
fillnaは欠損値を指定の値もしくは、指定の方法で埋めることができます。
isnull
データの要素ごとにNaNはTrue、それ以外をFalseとして扱い、元のデータと同じサイズのオブジェクトを返します。
notnull
isnullとは逆の真偽値を返します。