Best Practices für Dataplex

Dieses Dokument enthält Anleitungen und Best Practices für die Verwendung von Dataplex.

Projekt für den Lake auswählen

Berücksichtigen Sie bei der Auswahl des Projekts, in dem Ihr Lake gehostet werden soll, Folgendes: Faktoren:

  • Das Projekt muss zum selben VPC Service Controls-Perimeter da die Daten, die sich im Data Lake befinden sollen.

  • Das Lake-Dienstkonto erfordert Administratorberechtigungen für die Cloud Storage-Buckets oder BigQuery-Datasets. Dataplex erstellt externe Tabellen in BigQuery für Tabellen, die in Cloud Storage gefunden wurden. Dataplex verfügbaren BigQuery-Tabellenmetadaten und Tabellen, die im Cloud Storage-Bucket in einem Dataproc Metastore. Der Dataproc Metastore befindet sich im Data Lake-Projekt.

Cloud Storage-Einstellungen und -Einschränkungen

  • Region: Dataplex unterstützt einzelne Regionen und Multiregionale Buckets in einigen Google Cloud-Regionen

  • Speicherklasse: Cloud Storage-Buckets aller Speicherklassen werden unterstützt (Standard, Nearline, Coldline, Archive). Für den Zugriff auf oder das Scannen können zusätzliche Kosten für den Datenabruf anfallen Nearline-, Coldline- oder Archive-Daten

  • Bucket-ACL: Dataplex unterstützt nur Cloud Storage-Buckets mit einheitlichen Zugriffssteuerungen. Detaillierte Zugriffssteuerungen werden nicht unterstützt.

  • Anforderer bezahlt: Cloud Storage-Buckets mit dem Anforderer bezahlt aktiviert ist, nicht unterstützt.

Hinweise zu Sicherheit und Berechtigungen

Dataplex erfordert das Hinzufügen von Dataplex Dienstkonten als administratives Dienstkonto für verwaltete Buckets und Datasets.

Dataplex ermöglicht Analysten den Zugriff auf Cloud Storage-Buckets und BigQuery-Datasets für viele Projekte. Um diesen Zugriff zu ermöglichen, Dataplex erfordert das Hinzufügen des Dataplex-Dienstes Konten mit Administratorsteuerung auf diese Projekte zu übertragen.

Dataplex fügt für Discovery die Dataproc Metastore-Dienstkonto mit Cloud Storage Buckets. Wenn Sie einen eigenen Dataproc Metastore-Cluster haben, möchten Sie vielleicht, dass der Dataplex-Lake Ihre Dataproc Metastore-Dienst, eine Option, wenn Sie in Ihrem See.

Wenn Sie einem Data Lake einen Cloud Storage-Bucket mit detailliertem Zugriff hinzufügen, gewährt Dataplex über den Data Lake vollen Zugriff auf diesen Bucket, da Dataplex-Berechtigungen auf alle Objekte im Bucket angewendet werden. Wenn Sie einen detaillierten Zugriff benötigen, wird empfohlen, die Daten in Ihrem Bucket in mehrere Buckets aufzuteilen.

Nächste Schritte