データ分析基盤の全体像を整理してみる

2019-05-19 12:44:00#bigdata#book

仕事ではインフラエンジニアとしてAWS上のサービスを保守・運用しているのだけど、いずれデータ分析基盤のような大規模なシステムにも関わってみたいと思うようになり、最近は「ビッグデータを支える技術」を読んでいる。

データ分析基盤と聞くと、データなんとかみたいな概念だったり、Hadoop界隈のさまざまな技術が頭に浮かぶんだけど、いまいち何をなんのために使うのかわかってない。そこで、この本を参考にデータが生まれて分析に利用されるまでの全体像を整理してみたい。

全体像

ユーザーがフォームから入力したデータ、Webサーバーのアクセスログなど。

定期的にまとまったデータを分散ストレージに保存すること。その際にCSVなどの標準的なフォーマットに変換したり、適切なサイズにデータをまとめたり分割することで効率的に保存できるようにする。

このプロセスで使われる技術として、Embulkがある。

リアルタイムに生成されるデータを分散ストレージに保存すること。高頻度に生成されるデータをそのまま分散ストレージに書き込もうとすると、書き込み性能の限界に到達してしまう。そこで、メッセージブローカという仕組みを使い、一時的にデータを溜めて、分散ストレージに書き込むデータの量を調整する。

このプロセスで使われる技術として、Apache Kafka、Amazon Kinesis、fluentdがある。

複数のコンピュータやディスクからなるストレージのこと。ストレージを追加することでデータ容量を増やすことができ、スケーラビリティがある。分散ストレージとして使われるのは、オブジェクトストレージやNoSQLデータベースがある。

分散ストレージに保存されるのは、アクセスログのような非構造化データ、CSVやJSONといった半構造化データとなる。

オブジェクトストレージとしてはAmazon S3やHDFSがあり、NoSQLデータベースとしてはApache CassandraやAmazon DynamoDBがある。

分散ストレージに保存された非構造化データや半構造化データを構造化データに変換したり、集計したり、列指向データベースに保存したりするために大規模分散処理フレームワークを使う。

この変換や集計やスキーマの定義にプログラムではなくSQLを使うためクエリエンジンを利用する。

分散処理フレームワークとしてはApache HadoopやApache Sparkがあり、クエリエンジンとしてはApache Hive、presto、Apache Impala、Spark SQLがあり、またマネージドな分散処理サービスではAmazon EMRやCloud Dataprocがある。

カラム単位でデータを圧縮するデータベースのことで、カラム単位での集計に最適化されている。一般的なRDBは行指向データベースで高速な集計処理には大量のメモリが必要になってしまう。

列指向データベースとして利用されるのは、Google BigQueryやAmazon RedshiftやTreasure Dataがある。

データを定期的にモニタリングしたり詳細なデータを探索するためにBIツールを使う。

BIツールとして利用されるのは、Tableauがある。

一連のデータ処理のプロセスを定期的に実行したり、タスク間の依存関係を解決して決められた順番で実行したり、エラー時にはリトライさせるためにワークフローエンジンを使う。

ワークフローエンジンとして利用されるのは、Rundeck、Apache Airflow、Luigi、Azkaban、digdagがある。