目次

実験環境

この実験テーマでは、RとExcelを使う。

R

「統計工学」ではRという言語をデータ解析用の環境として用いる。Rは言うなれば、データ解析用の電卓である。次のような特徴があり、理系における統計教育用の環境に適している。

多少のコマンドを打つ必要があるが、多くのことは紹介したコマンドのバリエーション(変数名を変える程度)で済むので、慣れてくれるといいと思う。

Rのデータ格納

Rのデータ型は基本的には次の通りである。

またそれらのデータ型を格納するためのオブジェクトには、次元に応じては幾つかの種類がある。

同じ2次元配列でも、行列オブジェクトは数値しか格納できず、データ・フレームは上のすべてのデータ型のフィールドが混在していても構わない。

今週は様々なデータ型のフィールドからなるひとつのデータ・フレームのみを扱う。

まず

まずはさらっと、このウェブサイト

に目を通すこと。それぞれをRで実行する関数を、次で説明する。

Rでグラフを描く

Rでは様々なグラフを描くことができる。グラフ描画に用いる関数を例えば「graph()」とし、 グラフを描きたいオブジェクトを「bank」というデータ・フレームの中の「balance」というフィールド(変数)とする。 この時「関数graphでデータフレームbankの中のフィールドbalanceのグラフを描く」には、

graph(bank$balance)

というコマンドをRに入力し、実行させる。

グラフ描画に用いる関数には次のようなものがある。

関数名描くグラフデータ・フレームの指定とモデル式の利用データフレームの描画
barplot棒グラフ
plot散布図、折れ線グラフOK
histヒストグラム
boxplot箱ひげ図OK
pie円グラフ
mosaicplot分割表(クロス集計)の図示
pairs散布図行列 OK
image2次元配列の濃淡表示
persp2次元配列の3次元グラフ
contour2次元配列の等高線での図示

例えば、次のようなコマンドを順に実行すると、グラフの例を作れる。

barplot(bank$y)
plot(bank$balance)
hist(bank$balance)
boxplot(bank$balance)
pie(bank$y)

こんなグラフもある。

pairs(bank)

Rで集計する

各フィールドの集計方法は、フィールドのデータ型によって異なる。

関数できること得意なデータ型苦手なデータ型メモ
mean平均の計算数値文字、因子、論理変換してから平均を計算させることもできる
var分散の計算数値文字、因子、論理変換してから分散を計算させることもできる
sqrt平方根の計算数値文字、因子、論理分散の平方根は標準偏差
summary四分位(小さい方から25%、50%、75%の値)、最大最小、平均なんでも

フィールドの組み合わせは、連続な数値どうしなら散布図を用いるのがいい。 離散の数値(とびとびの値しかとらない)や因子、少ないバリエーションの文字列のみなら、table関数を用いると、クロス集計をしてくれる。

関数できること得意なデータ型苦手なデータ型メモ
cov共分散の計算数値文字列、因子、論理
cor相関係数の計算数値文字列、因子、論理
tableクロス集計数値(離散)、文字列、論理、因子数値(連続)

今週用いる関数

今週は、

などの関数を用いて、問題に取り組む準備をする。困ったら、竹澤先生のメモの中の

や、逆瀬川先生Rのページの中の

や、バイオスタティスティックス

などを参照するといい。

RjpWikiはもっと情報量があるが、欲しい情報に到達するのに検索力を問われるほど、大きくなってしまっている。

Rのプロキシの設定

経営情報学実験室はインターネットに直接は接続されていない。学外のウェブサイトを利用するには、

プロキシサーバ130.153.8.16, 130.153.8.17, 130.153.8.18, 130.153.8.19のいずれか
ポート8080
ユーザ認証なし
プロキシを経由せず直接に接続する先(Firefox)130.153.0.0/16, 172.21.0.0/16, 182.168.0.0/16, 127.0.0.1/8, localhost

をブラウザに教える必要がある。

Rはインストール済みだが、自宅ではR Projectもしくは近所のミラーサイトからダウンロードしてインストールできる。Excelは別に、Microsoft Office OnlineでもGoogle DriveでもApple iWork Onlineでも構わない。

Rに加えて、使えると便利なものは次の3つのいずれか、または全て。少なくともRコマンダーかEZRは、Rに慣れないうちはかなり便利に感じるはずで、それらがあれば実験に必要な作業は、マウスやメニューの操作でかなり進めることができる。

開発が進行中のソフトウェアの宿命で、Rのバージョンが変わったり、それぞれが依存しているパッケージのバージョンが変わったりすると、それに応じて挙動が変わることがある。こちらですべてのパッケージのバージョンの組み合わせをサポートするのは困難なので、紹介だけに留める。(以前に、日本語化されたRコマンダーを用いていたが、R本体や依存するパッケージのためにうまく日本語が表示されないなどのトラブルがあった。)

Rに追加パッケージをインストールするには、このページを参考に、Rにプロキシを教える必要がある場合もある。 この大学では130.153.8.16, 130.153.8.17, 130.153.8.18, 130.153.8.19の4台が負荷を分散しながら、全学のプロキシサーバを担っているので、それらのうちのいずれかを指定して、次のようにパッケージをインストールすることができる。

Sys.setenv("http_proxy"="http://130.153.8.19:8080/")
install.packages(c("Rcmdr", "RcmdrPlugin.EZR"), dependencies = TRUE)

これでうまくいく、かもしれない。

RのグラフをWordに貼るには

右クリックでコピーして、WordやExcelやPowerPointに貼れる。