【まとめ】Professional Data Engineerの勉強で読むべき公式ドキュメント

GCP Professional Data Engineer 認定資格に合格するための勉強方法では、試験ガイドと公式ドキュメントを熟読することが一番大事だと書きました。

しかし、公式ドキュメントが多すぎて、どこを重点的に読めば良いか分からない方も多いのではないでしょうか?

本記事では、重点的に読むべき公式ドキュメントをまとめています。”どこから勉強すれば良いか分からない”という方はぜひ、参考にしてください。

認定試験ガイドを読む

まずは認定試験ガイドをしっかりと把握します。

出題される内容やサービス名が記載されていますので、関連するドキュメントやサービスのコンセプトを読む必要があることを認識します。

以下では、認定試験ガイドセクション1〜4に該当する読むべきドキュメントをまとめていきます。

データ処理システムの設計

適切なストレージの選択

どういう時にどのストレージ、データベースを使うかをざっくり把握します。Google Cloudデータベースも参考になります。

データパイプラインの設計

Google Cloudデータ基盤概要

データ基盤を構築する上でのコンポーネントをざっくりまとめていますので、ドキュメントの詳細を読む前にご覧ください。

BigQuery

BigQueryは探索・入門ガイド・データセキュリティとガバナンスすべてを読むことをおすすめします。出題範囲も広く、分析関数などクエリレベルで出題されます。

Dataflow、Apache Beam

コンセプトを読み込みます。ウィンドウ処理の種類と用途も把握します。

Dataproc

コンセプトを読み込みます。

Apache Spark、Hadoopエコシステム

Apache Spark、Hive、HBase、HDFS、Presto、Oozie、Zookeeperなど、ざっくりどういうものなのかが分かればOKです。

Pub/Sub、Apache Kafka

コンセプトを重点的に読みます。Apache Kafkaもストリーミング処理を実現するサービスです。Kafka から Pub/Sub への移行も読むと良いかと思います。

Composer

ドキュメントを重点的に読みます。DAGの定義方法なども把握しておきます。

データ処理ソリューションの設計

データパイプラインの設計で記載したDataflowやPub/Subなどのサービスドキュメントの熟読のほか、データ分析ソリューションの以下でリンクしているブログなどを読むと良いかと思います。

データウェアハウジングとデータ処理の移行

オンプレミスHadoopからGoogle Cloudへの移行Data Transfer ServiceTransfer Applenceネットワークあたりを把握します。

データ処理システムの構築と運用化

ストレージシステムの構築、運用

ストレージの決定木とあわせて、”どういうユースケースの場合にどのストレージを使うか”という観点をもってドキュメントを読み込みます。

Cloud Bigtable

ドキュメントの概要、プロビジョニングと管理、開発(特にスキーマの設計)、移行、統合を読み込みます。

Cloud Spanner

コンセプトを読み込みます。

Cloud SQL

コンセプトを読み込みます。

BigQuery

ドキュメントすべてを読み込みます。

Cloud Storage

コンセプトを重点的に読み込みます。入門ガイドにあるデータライフサイクルの管理なども大切ですので、入門ガイドも読み込みましょう。

Datastore

コンセプトを読み込みます。

Memorystore

コンセプトを読み込みます。

パイプラインの構築、運用を行う

DataflowやPub/Subのドキュメントを読み込みます。

Cloud Data FusionDataprepのドキュメントも読んでおくことをおすすめします。

処理インフラストラクチャの構築、運用を行う

プロビジョニングやモニタリングに関しては、Cloud Monitoringのコンセプトを読み込みます。

パイプラインの調整にはCloud Data FusionやComposer、テストと品質管理にはDataprepのドキュメントを読みます。

Dataformの概要も把握しておくと良いかもしれません。Dataformの使い方の記事を良ければ参考にしてください。

機械学習モデルの運用化

事前に構築されたMLモデルをサービスとして活用

ML APIでは、Speech-to-TextVision APIText-to-SpeechCloud TranslationCloud Natural LanguageVideo APIのコンセプトや入門ガイド、サービス概要を読みます。

ML APIのカスタマイズでは、AutoMLのドキュメントを読み込みます。

ML APIとML APIカスタマイズのどちらを使うべきかを理解しておくことが大切です。

Dialogflowの概要も掴んでおきます。

MLパイプラインをデプロイする

Vertex AIの概要コンセプトGoogle Cloudで機械学習を実装するためのベストプラクティスを読み込むことをおすすめします。

トレーニングとサービスを提供するインフラストラクチャを選択

Vertex AIの入門ドキュメントを読み込みます。

機械学習モデルの測定、モニタリング、トラブルシューティング

機械学習の基本的な用語を抑えます。

真陽性・偽陽性、適合率・再現率など、初心者向けガイドモデルの評価に出てくる用語を理解します。

線形回帰やロジスティック回帰など、基本的な学習モデルも抑えておきます。

ソリューション品質保証

セキュリティとコンプライアンスを考慮して設計

Cloud IAM

コンセプトを読み込みます。

Cloud Key Management Service

コンセプトを読み込みます。

Cloud Data Loss Prevention

何ができるかを把握します。

法令遵守では、HIPAA、COPPA、FedRAMP、GDPRなどのコンプライアンスにGCPは対応している、ということを把握します。

重要システムに求められるセキュリティ対策とコンプライアンスの動画で取り組み内容の大枠を把握することができます。

スケーラビリティと効率性を確保信頼性と忠実性を確保柔軟性とポータビリティを確保

これらの観点からどのサービスの組み合わせが適切かといった問題が問われます。

今まで紹介したサービスのコンセプトや入門ガイドを読み込んだうえで、ベストプラクティスなどを読むことをおすすめします。

各ドキュメントにリンクされているベストプラクティスや、Google Cloud アーキテクチャフレームワークを読むと良いかと思います。

カタログ化に関しては、Data Catalogの概要を把握しておきます。

Data Engineer 模擬試験を受ける

模擬試験を受けて理解度を把握します。

苦手な分野があれば、その部分に関連するドキュメントを読み込みます。

まとめ

Professional Data Engineer 認定資格の勉強で読むべきドキュメントをまとめました。

  • 上記で紹介したサービスのコンセプトを読み込む
  • コンセプトがない場合や分かりにくい場合は入門ガイドを読んで知識を定着させる
  • ベストプラクティスでシステム設計のポイントを把握する

という勉強方法で合格することができました。

この記事が資格勉強の活用となれば幸いです!