機械学習

機械学習を学ぶ上で押さえておきたいPythonライブラリ「Pandas」の使い方とインストール方法を整理。

Pandas(パンダス)の基本情報

Pandas(パンダス)の基本情報を整理します。

概要

Pandas(パンダス)は、簡単に言えば、Pythonのデータ分析用ライブラリの一つです。データフレームなどの独自のデータ構造が提供されており、様々な処理が可能です。Pandas(パンダス)で出来ることを以下に挙げておきます。

  • CSV・Excel・RDBへのデータの入出力
  • データ前処理
  • データの結合や部分的な取り出し・ピボット処理
  • データの集約およびグループ演算
  • データに対しての統計処理および回帰処理

(パンダス)を活用することで、データの前処理という工程を効率化することができます。

読み方

Pandasの読み方は、パンダスです。

Pandas(パンダス)のインストール方法

Pandas(パンダス)のインストール方法は以下の通り。

$ pip install pandas

続いて、以下のコマンドを打ち込むことで、Pandasをpdという名前で扱うようにします。

$ import pandas as pd

Pandas(パンダス)で良く使われるデータ型

Pandas(パンダス)で良く使われるデータ型は以下の通りです。

Series(シリーズ)型

Seriesは、1列のみのデータ型です。

Data Flame(データフレーム)型

データフレームは、2次元のラベル付きのデータ構造です。Pandas(パンダス)において、最も多く使われるデータ型です。

Panel(パネル)型

パネルは3次元のデータフレームに相当するデータ構造です。Pandas(パンダス)を扱う上では、それほど頻繁に登場することはありません。

Pandas(パンダス)で欠損値の処理

Pandasでは、欠損値の処理を行うメソッドがあります。具体的には、以下の通り。

dropna

指定の軸方向にデータ列を見て、欠損値(NaN)の有無に関して指定の条件を満たす場合に、そのデータ列を削除しま

fillna

fillnaは欠損値を指定の値もしくは、指定の方法で埋めることができます。

isnull

データの要素ごとにNaNはTrue、それ以外をFalseとして扱い、元のデータと同じサイズのオブジェクトを返します。

notnull

isnullとは逆の真偽値を返します。