【読書】10年戦えるデータ分析入門 SQLを武器にデータ活用時代を生き抜く
データ分析のためのSQL記述を中心に1から教えてくれる本。
通読は複数回終えていたのだけれど、「サンプルデータをインストールしてサンプルコードを始めから終わりまで試してみる」ということも含めて、少し前に終えることができた。
感想
本を読んだだけでも、データ分析に対象を絞って、かつ体系的に書いてくれているのでわかりやすいなと思っていたが、実際に手を動かしてようやくちゃんと読めたと感じた。
(後半の方は体得して使いこなせるレベルにまでは至っていないので、「理解できた」まで言ってしまうと語弊がある)
オンライン学習でも学べる部分はあるのだけれど、実際に自分の環境にデータを入れて分析すると、こうしたらどうなるんだろう?を試せたり、PostgreSQLのテーブルやカラムの見え方がわかったりしておもしろかった。また、興味のある任意のデータを分析することへのハードルが下がった。
良かった点
分析向きのPostgreSQLを使うことを前提としていて、ただ他のものと互換性が無い関数については、コラムで紹介する(またはPostgreSQL以外は〜と記載されている)形になっているのが親切。
「書き捨てのコードではpostgreSQL固有の関数を使っても良いけどバッチ用のSQLでは辞めよう」「クエリが動くかを小さいデータで試してから、徐々に大きいデータに適用しよう」など、現実的なアドバイスがあるのが良いと感じた。
サブクエリーの内容を1つ1つ解説してくれているのは、心が折れなくてありがたい。
所々、数個前の章の知識を引く部分があって、そこで戻るので良い復習になった。時々、前のクエリーを取って置かずに再度書き直すこともあった。
分析対象がECサイトのもので実際に行うこともあるかもなと思えてやる気が出た。
第1部の最終章が「アクセスログのセッション分析をする」という、これまでの内容を総動員して、クエリーを書くものなので、そこのコードを動かす部分までたどり着いた時は感慨深かった。
困った点
postgreSQLのインストール方法等を載せてくれているのはありがたい一方で、最新のバージョンがかなり進んでしまっているので実際のインストールに苦労した。検索してなんとか乗り越えたのだけど、WEB上にあるものはエンジニアの方の覚書が多く、書き手が想定外の所で躓いて大変だった。有料で良いのでサポートサイトで最新版の解説など引けると良いなと思った。
access_log_wideのデータが数行しかなかったけど、これは私の環境に依存した問題なのだろうか・・・。
サポートサイトに画面のキャプチャをつけて送ってみたけれど1週間以上経っても返信はないのでよくわからない。
10章でpv_signaturesテーブルに該当するものがなくて最後のコードを実際には動かせなかったのがとても残念だった。粘って、テーブルを作ろうとしたのだけれどrequest_pathもほとんど種類が無くてできなかった。サブクエリが多い箇所だったので、少しづつ区切って自分で動かしてみたかった。
まとめ
全てのコードを試すというストイックな読書だったが、任意のデータを好きに分析できるようになったのは嬉しい。