データ解析といえば,データを使って計算を実行し,出てきた数字を見て何らかの結論を得る,というイメージがあるかと思います.このイメージは間違っていないのですが,ソフトウェアから出てきた数字のみを信頼してしまうのは非常に危険です.実行した計算方法が適切でないかもしれませんし,こちらが意図していた計算方法とソフトウェアが実行した計算方法とが異なっているかもしれません.
そこで,データ解析を行う前に,可能であればグラフを描くことをお勧めします.人間の視覚的パターン認識能力はパソコンよりもはるかに上なので,数値をにらむよりも,グラフを描いてみた方が確実な情報を得ることができます.まず最初にグラフを描き,データの特徴をざっくりと掴んでください.
次に,解析するデータの種類に応じたデータ解析を行っていきます.本書では,数式による説明は参考文献にゆずり,できる限りイメージがつかみやすいような説明を心掛けています.本書でデータ解析の流れをつかんでいただいた後は,各章の最後で紹介している参考文献をご覧いただき,数式による説明を読まれることをお勧めします.そして,グラフを描き,データ解析を行うソフトウェアとして,本書ではRを用いることにします.
Rには簡単な計算機能から数値計算関数,簡単なデータ解析手法から最新の統計解析手法,プログラムやシミュレーション用のツール,シンプルなプロット図から複雑なグラフィックス機能まで備わっています.また,新しい統計手法や新しいグラフなどの追加機能が「パッケージ」という形で配布されており,誰でも無料で「パッケージ」をダウンロードすることができ,ユーザーが自由に機能を拡張することができます.
一方,Rを使ったことのない方がRを使う際に障壁となるものが「Rのセットアップ方法が煩雑」「データの加工・ハンドリングがやや面倒」であると著者は考えています.
本書では,第1章で「Rのインストール」の説明を詳細に行い,これからRを使いはじめる方がいきなりつまづかないように努めました.第2章では「Rの概要」を掴みデータ解析の準備を整えた後,第3章以降でさまざまなデータ解析の例を見ていきます.「連続データ」「カテゴリデータ」「イベントが起こるまでの時間に関するデータ」「多重比較」「例数設計」「シミュレーション」について紹介します.Rは「データの加工・ハンドリングがやや面倒」であるため,本書では「読み込むだけですぐに解析ができるデータ」を用いることで,「データ解析を行う」ことになるだけ集中できるように工夫しました.最後に,おまけの内容として,Windosユーザーを対象にHTAアプリケーションというものを用いて「簡単な統計ソフトを自作する方法」も紹介したいと思います.