解析したいデータを表計算シートにまとめる際のヒント (2019-02-11)
解析したいデータを表計算シートにまとめる際に、やってはいけない例はよく知られています。では、データを表計算シートにまとめる際にどのようなことを積極的にするのが良いのでしょうか。
アメリカ統計学会の学会誌The American Statisticianに2017年に掲載された記事"Data Organization in Spreadsheets"には、まとめ方のヒントが紹介されています。このヒントが目指している主な目的は、データに関する間違いを減らすこと、および後々の解析をやり易くすることです。
その具体的なポイントを箇条書きにすると、以下のようになります。
- 一貫した記録に徹する。具体的には:
- カテゴリー変数には決まったコードを一貫して用いる。
- 欠損値について決まったコードを一貫して用いる。
- 一貫した変数名を用いる。
- 一貫した対象(サブジェクト)の識別子を用いる。
- 日付を表す上で必ずYYYY-MM-DD書式を用いる。
- 注釈にも一貫した言い回しを用いる。
- セル内の空白文字(スペース)に注意する。
- 適切な名前をつける。
- 日付はYYYY-MM-DD書式で記録する。
- 空のセルを無くす。
- つまり、全てのセルに入力する。データが無いなら、"NA"など欠損を表す共通のコードを用いる。こうすることで、意図せず未入力となることを防ぐ。
- 1つのセルには1つのデータだけ入れる。
- つまり、2つ以上のものを入れない。
- さらに、セルを連結(マージ)しない。連結すると見栄えが良くなるかもしれないが、「空のセルを無くす」というルールに違反しがちになる。
- データを矩形に配置する。
- 行が対象(サブジェクト)、列が変数に対応するような大きな1つの矩形(テーブル)にデータを配置するのが最善。
- データが1つの矩形にうまく納まらないなら、複数の矩形に分ける。
- 複数の矩形に分ける場合は、各ファイルに1つずつ矩形を1つのシートに保存する。複数のシートに分けることも考えられるが、1シートの複数ファイルにする方がデータをCSVファイルに保存しやすくなる。
- データについての辞書を作成する。
- 全ての変数について説明する別ファイルを用意すると有用。しかもそれも矩形にしておくと解析するときに利用しやすい。
- データについての辞書は以下のようなメタデータを含む:
- データファイルにある正確な変数名
- データの可視化に用いる変数の別名
- その変数が何を意味するかについてのより詳しい説明
- 計測で用いた単位
- 予想される最小値および最大値
- プロジェクトやデータについてのReadMeファイルも欲しい。
- 生データファイルでは計算をしない。
- 一次情報源となるデータファイルには、計算もグラフも入れない。計算やグラフを入れてしまうと、頻繁に開いたり入力しがちで、誤入力のリスクが増えるため。
- 一次情報源データファイルは、書き込み保護し、バックアップし、変更しない。
- 解析したければ、データファイルをコピーを作成し、その上で計算したりグラフを入れたりする。
- フォントの色やハイライトの情報をデータとして用いない。
- 疑わしいデータを含むセルや無視するべきデータを含む行をハイライトしたくなるかもしれない。また、フォントの色に意味をもたせたくなるかもしれない。そういうときは代わりに、そういった情報を表記するためのもう1つ別の列を追加する。
- 例えば、列"trusted"を追加し、TRUEやFALSEという値を与える。
- バックアップする。
- 定期的に、複数の場所にデータをバックアップする。
- 全てのバージョンのデータファイルを取っておく。
- 間違いを避けるために"データの検証"機能を用いる。
- 表計算ソフトの該当機能を用いて、どのような値が入るかの基準を列ごとに設定する。
- また、その列にどのような型のデータが入るかを設定する。
- データをテキストファイルに保存する。
- データファイルのコピーを、カンマまたは空白で区切られたプレーンテキストファイル(CSV等)として保存する。
- CSVファイルはそのまま閲覧するのには適していないが、どの表計算ソフトでも開ける。もっと重要なことに、プロプライエタリなファイル形式ではないので、特定のソフトウェアを必要とせずに済む。おまけにCSVはプログラムで扱いやすい。
上の記事はオープンアクセスになっているので、ヒントの詳細や理由を知りたい方は誰でも原文を読めます。
© 2006-2023 fixedpoint.jp