機械学習

機械学習ライブラリ「Scikit-learn(サイキットラーン)」の特徴

本日は、機械学習ライブラリのデファクトスタンダードの地位を確立している「Scikit-learn(サイキットラーン)」について紹介します。

基本情報

基本情報は以下の通り。

読み方

読み方は、サイキットラーンです。

インストール方法

インストール方法ですが、Anaconda(アナコンダ)をインストールしている場合、自動的にインストールされているはずです。

インストールされていない場合、以下のコマンドを叩きます。

$ pip install scikit-learn

Scikit Learn(サイキットラーン)が備えているアルゴリズム

サイキットラーンには、様々なアルゴリズムが備えられているので、好きな物を選ぶことができます。

SVM(サポートベクターマシン)

機械学習の手法で有名なものの一つ。パターン識別手法。1995年頃にAT&TのV.Vapnikが発表したパターン識別用の教師あり機械学習方法である。マージン最大化に特徴がある。

Random Forest(ランダム・フォレスト)

2001年にLeo Breimanによって、Decision Treeを発展させ、提案されたアルゴリズム。

回帰

調査中

クラスタリング

調査中

付属のデータセット

サイキットラーンには、インストールすることで始めから利用できるトイデータセットが付属されています。

トイデータセット

サンプル数の少ないデータセットのこと

具体的なデータセットは以下の通り。

ボストン市の住宅価格 load_boston()
アヤメの計測データ load_iris()
糖尿病患者の診断データ load_diabetes()
数字の手書き文字 load_digits()
生理学的特徴と運動能力 load_linnerud()
3種類のワインの化学的特徴 load_wine()
乳がんの診断データ load_breast_canser()

Scikit Learn(サイキットラーン)を活用した機械学習の事例

Scikit Learn(サイキットラーン)を活用した機械学習の事例を以下に紹介します。

手書き文字認識

手書き数字文字の画像データの文字認識を行います。画像に記載されている数字を認識するモデルを作って行きます。

まずは、必要なライブラリの読み込みを行います。

from sklearn import datasets

from sklearn import svm

from sklearn import metrics

import matplotlib.pyplot as plt

アヤメの品種分類

まずは、必要なライブラリの読み込みを行います。

from sklearn import datasets

from sklearn import svm

ボストンの住宅価格予測

まずは、必要なライブラリの読み込みを行います。

from sklearn import datasets

from sklearn import linear_model

import numpy as np

import matplotlib.pyplot as plt

from pandas import DataFlame