本日は、機械学習ライブラリのデファクトスタンダードの地位を確立している「Scikit-learn(サイキットラーン)」について紹介します。
基本情報
基本情報は以下の通り。
読み方
読み方は、サイキットラーンです。
インストール方法
インストール方法ですが、Anaconda(アナコンダ)をインストールしている場合、自動的にインストールされているはずです。
インストールされていない場合、以下のコマンドを叩きます。
$ pip install scikit-learn
Scikit Learn(サイキットラーン)が備えているアルゴリズム
サイキットラーンには、様々なアルゴリズムが備えられているので、好きな物を選ぶことができます。
SVM(サポートベクターマシン)
機械学習の手法で有名なものの一つ。パターン識別手法。1995年頃にAT&TのV.Vapnikが発表したパターン識別用の教師あり機械学習方法である。マージン最大化に特徴がある。
Random Forest(ランダム・フォレスト)
2001年にLeo Breimanによって、Decision Treeを発展させ、提案されたアルゴリズム。
回帰
調査中
クラスタリング
調査中
付属のデータセット
サイキットラーンには、インストールすることで始めから利用できるトイデータセットが付属されています。
トイデータセット
サンプル数の少ないデータセットのこと
具体的なデータセットは以下の通り。
ボストン市の住宅価格 | load_boston() |
---|---|
アヤメの計測データ | load_iris() |
糖尿病患者の診断データ | load_diabetes() |
数字の手書き文字 | load_digits() |
生理学的特徴と運動能力 | load_linnerud() |
3種類のワインの化学的特徴 | load_wine() |
乳がんの診断データ | load_breast_canser() |
Scikit Learn(サイキットラーン)を活用した機械学習の事例
Scikit Learn(サイキットラーン)を活用した機械学習の事例を以下に紹介します。
手書き文字認識
手書き数字文字の画像データの文字認識を行います。画像に記載されている数字を認識するモデルを作って行きます。
まずは、必要なライブラリの読み込みを行います。
from sklearn import datasets
from sklearn import svm
from sklearn import metrics
import matplotlib.pyplot as plt
アヤメの品種分類
まずは、必要なライブラリの読み込みを行います。
from sklearn import datasets
from sklearn import svm
ボストンの住宅価格予測
まずは、必要なライブラリの読み込みを行います。
from sklearn import datasets
from sklearn import linear_model
import numpy as np
import matplotlib.pyplot as plt
from pandas import DataFlame