統計ソフトでの分析を目的としたSQL

SQL初心者の肌感覚が残っているうちに、「統計ソフトで分析するためのデータを取り出すSQL」を、「SQL全く知らん経済系の人」に向けての説明(効率が良い学習プロセス)を自分なりに書いてみます。
データベースの構築のSQLの話は一切出てきません。なお、SQLServer使ってます。

SQLとは

そのままインポートするには大きすぎるデータを、統計ソフトが扱える大きさにするための手段
どこまでSQLでやるかは分析環境によるので、与えられた環境で統計ソフトで使えるデータが取り出せればそこで終わりでよし

ステップ1:データを取り出す

select, from, where の組み合わせである月や地域について取り出してみる。
where の指定の際に、between や in も使ってみる(複数を指定する際に楽)。
order by 、名前の変更、case when による新しい変数の定義、declare でのローカル変数定義もここで。

ステップ2:集計して取り出す

group by での集計をしてみる。月ごとや地域ごとの集計など。
max, min, sum などのselect で指定するものもここで。

ステップ3:サブクエリ

マージ(join)する際に避けられないので

ステップ4:テーブルをマージ

left, right, inner, outer の違いを理解する。

ステップ5:全部合わせる

複数テーブルをマージして、集計したデータを取り出す。
回すのに時間がかかりそうなら、バッチファイルの作り方もここで。

これだけできればあとは R なり Stata なりでぶん回しライフを謳歌すればいいと思います。