|
1.1章
英国における1997年のAレベルテストの化学の試験結果を使ってLatticeのデモをする。
最初に頻度表の表示
[1] "mlmRev" "lme4" "Matrix" "lattice" "stats" "graphics" "grDevices" "utils" [9] "datasets" "methods" "base" [1] "mlmRev" "lme4" "Matrix" "lattice" "stats" "graphics" "grDevices" "utils" [9] "datasets" "methods" "base" |
score 0 2 4 6 8 10 3688 3627 4619 5739 6668 6681 score 0 2 4 6 8 10 3688 3627 4619 5739 6668 6681 |
1.1.1 グループ別ヒストグラム
最初にLatticeのパッケージを読み込む
[1] "mlmRev" "lme4" "Matrix" "lattice" "stats" "graphics" "grDevices" "utils" [9] "datasets" "methods" "base" [1] "mlmRev" "lme4" "Matrix" "lattice" "stats" "graphics" "grDevices" "utils" [9] "datasets" "methods" "base" |
以下の例では、scoreが平均gcsescoreに左右されるかを知るために、socreの値毎にgcsescoreのヒストグラムを表示する。
|
~ gcsescoreは、gcsescoreで回帰することを意味し、
| factore(score)は、条件変数で、変数を因子に変換と説明があるがこの部分がよくわからない。
2.1.3の説明によると条件変数は、ほとんどの場合カテゴリカル変数で、因子(factor)であると説明されている。
|
1.1.3 カーネル密度プロット
ヒストグラムの代わりにカーネル密度推定をプロットするのが、densityplot関数です。
|
1.2 重ね合わせ
groupsにグループ化する変数をセットして、カーネル密度推定を重ね合わせることができます。
|
1.4 複数の図を1枚に出力する
splitオプションで2つのプロットを1つのグラフに出力する例を示します。
|
[1] "MEMSS" "mlmRev" "lme4" "Matrix" "lattice" "stats" "graphics" "grDevices" [9] "utils" "datasets" "methods" "base" [1] "MEMSS" "mlmRev" "lme4" "Matrix" "lattice" "stats" "graphics" "grDevices" [9] "utils" "datasets" "methods" "base" |
[1] "Oats" [1] "Oats" |
|
[1] 3 6 [1] 3 6 |
$Variety [1] "Golden Rain" "Marvellous" "Victory" $Block [1] "I" "II" "III" "IV" "V" "VI" $Variety [1] "Golden Rain" "Marvellous" "Victory" $Block [1] "I" "II" "III" "IV" "V" "VI" |
[1] "Oats" [1] "Oats" |
Call: xyplot(yield ~ nitro | Variety + Block, data = Oats, type = "o") Number of observations: Block Variety I II III IV V VI Golden Rain 4 4 4 4 4 4 Marvellous 4 4 4 4 4 4 Victory 4 4 4 4 4 4 Call: xyplot(yield ~ nitro | Variety + Block, data = Oats, type = "o") Number of observations: Block Variety I II III IV V VI Golden Rain 4 4 4 4 4 4 Marvellous 4 4 4 4 4 4 Victory 4 4 4 4 4 4 |
|
|
layout引数の最初に0を指定すると、2番目の要素がページあたりの総パネル数と解釈される。
|
2.3 グループ化された画像
groupsを指定すれば、自動でグループ化された画像が作成される。
|
2.4.1 凡例の補足
|
2.5.1 縮尺と軸
タイタニックのデータで等級、性別、年齢のカテゴリ毎にクロス集計の結果をプロット
|
スケールをパネル毎に変更するには、scalesを指定する。
|
panelは関数として与えられるので、これに独自の関数を定義すると表示形式を変更することができる。
図2.10では背景に基準線を追加している。
|
3.1 密度プロット
間欠泉のfaithfulのデータで噴出継続時間の分布を表示する。
|
kernelとして矩形カーネル(rect)、バンド幅bwを指定する。
以下の図は、平均移動ヒスとブラムとも呼ばれる。
|
[1] "latticeExtra" "RColorBrewer" "MASS" "mlmRev" "lme4" "Matrix" [7] "lattice" "stats" "graphics" "grDevices" "utils" "datasets" [13] "methods" "base" [1] "latticeExtra" "RColorBrewer" "MASS" "mlmRev" "lme4" "Matrix" [7] "lattice" "stats" "graphics" "grDevices" "utils" "datasets" [13] "methods" "base" |
[1] "gvhd10" [1] "gvhd10" |
|
3.3 ヒストグラム
Fig3.3をヒストグラムで表示したもの、データ数が多いのでピン区間の数nintを50にセットしている。
|
3.4 正規Q-Qプロット
分位点-分位点(Q-Q)プロット(よくわからないが、大局的な特徴を判断するツールの一つで、観測データの分位点をプロットしたもので、直線からずれていたら、理論的な分布と適合していないと判断できるらしい)
|
|
3.4.1 正規性とボックス・コックス
|
3.5 経験累積分布関数
ECDFは、累積分布関数Fの最尤推定値であり、ecdfplot関数で作成できる。
|
3.6 2標本Q-Qプロット
二つの観測データの集合を比較するためにもQ-Qプロットが有効である。
女性の方が男性よりも平均が高いことが分かる。(分散が小さいことはどうすればこの図から分かるのだろうか?)
|
3.7 箱ひげ図
性別で条件付けした最終スコアごとの平均GCSEスコアの箱ひげ図、女性の方が平均点が高く、分散も小さいことがこの図では分かる。
|
|
3.7.1 バイオリン・プロット
分布が単峰ではない場合に、箱ひげ図よりもバイオリンプロットの方が、分布が分かりやすい。
|
|
|
|