Architettura e funzioni in un mesh di dati

Last reviewed 2024-09-03 UTC

Un mesh di dati è un framework architetturale e organizzativo che tratta i dati come prodotto (indicato in questo documento come prodotti di dati). In questo di elaborazione dei dati, i prodotti di dati sono sviluppati dai team che meglio comprendono e che seguono una serie di standard di governance dei dati a livello di organizzazione. Una volta i prodotti dati vengono distribuiti nel mesh di dati, i team distribuiti all'interno di un'organizzazione possono trovare e accedere più rapidamente ai dati pertinenti alle loro esigenze e in modo efficiente. Per ottenere questo mesh di dati ben funzionante, è necessario innanzitutto stabilire i componenti dell'architettura di alto livello e i ruoli dell'organizzazione che questo documento che descrive il problema.

Questo documento fa parte di una serie che descrive come implementare un mesh di dati su Google Cloud. Si presuppone che tu abbia letto e abbia familiarità con concetti descritti in Crea un moderno mesh di dati distribuito con Google Cloud.

La serie è composta dalle seguenti parti:

In questa serie, il mesh di dati descritto è interno a un'organizzazione. Sebbene sia possibile estendere un'architettura di mesh di dati per fornire dati di terze parti, questo approccio esteso non rientra nell'ambito del presente documento. L'estensione di un mesh di dati richiede ulteriori considerazioni oltre all'utilizzo all'interno di un'organizzazione.

Architettura

I seguenti termini chiave vengono utilizzati per definire i componenti dell'architettura descritti in questa serie:

  • Prodotto di dati:un prodotto di dati è un contenitore logico o un raggruppamento di una o più risorse di dati correlate.
  • Risorsa di dati: una risorsa di dati è un asset fisico in uno spazio di archiviazione che contiene dati strutturati o archivia una query che restituisce dati e i dati di Google Cloud.
  • Attributo dei dati: un attributo dei dati è un campo o un elemento di una risorsa di dati.

Il seguente diagramma fornisce una panoramica dei componenti di architettura chiave in un mesh di dati implementato su Google Cloud.

Componenti dell'architettura in un mesh di dati.

Il diagramma precedente mostra quanto segue:

  • I servizi centrali consentono la creazione e la gestione di prodotti dati, tra cui: Criteri dell'organizzazione che interessano i partecipanti al mesh di dati, i controlli dell'accesso (tramite i gruppi Identity and Access Management) e gli artefatti specifici dell'infrastruttura. Esempi di tali impegni e prenotazioni e l'infrastruttura che facilita il funzionamento del mesh di dati, Creare componenti e soluzioni della piattaforma.
  • I servizi centrali forniscono principalmente Data Catalog per tutte le prodotti dati nel mesh di dati e il meccanismo di rilevamento per potenziali clienti di questi prodotti.
  • I domini di dati espongono sottoinsiemi di dati come prodotti dati tramite interfacce di consumo dati ben definite. Questi prodotti dati possono essere tabella, visualizzazione, file strutturato, argomento o flusso. In BigQuery, si tratta di un set di dati, mentre in Cloud Storage si tratta di una cartella o di un bucket. Ci possono essere diversi tipi di interfacce che possono essere esposte sotto forma di prodotto dati. Un esempio di interfaccia è una vista BigQuery su una tabella BigQuery. I tipi di interfaccia più comunemente utilizzati utilizzate per scopi analitici sono discussi nei Creare prodotti dati in un mesh di dati.

Implementazione di riferimento del mesh di dati

Puoi trovare un'implementazione di riferimento di questa architettura in il repository data-mesh-demo. Gli script Terraform utilizzati nell'implementazione di riferimento dimostrano concetti di mesh di dati e non sono destinati all'uso in produzione. Eseguendo questi script, imparerai a:

  • Separa le definizioni del prodotto dai dati sottostanti.
  • Crea modelli di Data Catalog per descrivere le interfacce dei prodotti.
  • Tagga le interfacce dei prodotti con questi modelli.
  • Concedi le autorizzazioni ai consumatori dei prodotti.

Per le interfacce dei prodotti, l'implementazione di riferimento crea e utilizza i seguenti tipi di interfaccia:

  • Visualizzazioni autorizzate sulle tabelle BigQuery.
  • Stream di dati basati su argomenti Pub/Sub.

Per ulteriori dettagli, fai riferimento al file README nel repository.

Funzioni in un mesh di dati

Affinché un mesh di dati funzioni correttamente, è necessario definire ruoli chiari per le persone che eseguire attività all'interno del mesh di dati. La proprietà viene assegnata agli archetipi dei team o funzioni. Queste funzioni contengono i percorsi principali dell'utente per le persone che lavorano il mesh di dati. Per descrivere chiaramente i percorsi degli utenti, sono stati assegnati a ruoli utente. Questi ruoli utente possono essere suddivisi e combinati in base circostanze di ciascuna impresa. Non è necessario mappare i ruoli direttamente dipendenti o team della tua organizzazione.

Un dominio di dati è allineato con un'unità aziendale (BU) o una funzione all'interno di un per l'azienda. Esempi comuni di domini aziendali potrebbero essere il mutuo reparto di una banca o il reparto clienti, distribuzione, finanza o risorse umane di un'azienda. Concettualmente, in un data ci sono due funzioni legate al dominio mesh: i team di produttore di dati e i team di consumatori di dati. È importante capire che è probabile che un singolo dominio di dati svolga entrambe le funzioni contemporaneamente. Un team che si occupa del dominio dati produce prodotti dati dai dati di sua proprietà. Il team Inoltre, consuma prodotti di dati per insight aziendali e per produrre dati derivati per l'utilizzo di altri domini.

Oltre alle funzioni basate sul dominio, un data mesh dispone anche di un insieme di funzioni svolte da team centralizzati all'interno dell'organizzazione. Questi i team centrali consentono il funzionamento del mesh di dati fornendo servizi supervisione, servizi e governance. Riducono il carico operativo per i dati dominio per la produzione e il consumo di prodotti dati e agevolare relazioni interdominio necessarie per il funzionamento del mesh di dati.

Questo documento descrive solo le funzioni che hanno un ruolo specifico per il mesh di dati. Esistono diversi altri ruoli obbligatori in qualsiasi azienda, indipendentemente dall'architettura utilizzata per la piattaforma. Tuttavia, questi altri ruoli fuori dall'ambito di questo documento.

Le quattro funzioni principali in un mesh di dati sono le seguenti:

  • Team di producer basati sul dominio dati: Crea e gestisci i prodotti di dati durante il loro ciclo di vita. Questi team sono spesso definiti produttori di dati.
  • Team di consumatori basati sul dominio dei dati: Scoprire prodotti dati e utilizzarli in varie applicazioni di analisi. Questi i team potrebbero utilizzare prodotti di dati per crearne di nuovi. Queste squadre sono spesso definiti consumatori dei dati.
  • Team centrale per la governance dei dati: Definisce e applica i criteri di governance dei dati tra produttori, garantire ai consumatori un'elevata qualità e affidabilità dei dati. Questo viene spesso definito team di governance dei dati.
  • Team della piattaforma di infrastruttura di dati self-service centrale: fornisce una piattaforma di dati self-service per i produttori di dati. Questa squadra fornisce gli strumenti per centralizzare il rilevamento dei dati e il relativo prodotto l'osservabilità usata sia dai consumatori che dai produttori di dati. Questo team è spesso definito come team della piattaforma dati.

Una funzione extra facoltativa da considerare è quella di un centro di eccellenza (COE) per il mesh di dati. Lo scopo del COE è fornire la gestione dei dati mesh. Il COE è anche il team arbitrale designato che risolve qualsiasi conflitti generati da una qualsiasi delle altre funzioni. Questa funzione è utile per per aiutare a collegare le altre quattro funzioni.

Team di producer basato su dominio dati

In genere, i prodotti di dati si basano su un repository fisico di dati (uno o più data warehouse, data lake o flussi). Un'organizzazione necessita di ruoli tradizionali nelle piattaforme di dati per creare e mantenere questi repository. Tuttavia, questi ruoli tradizionali delle piattaforme dati non sono in genere le persone che creano il prodotto dati.

Per creare prodotti dati da questi repository fisici, un'organizzazione ha bisogno un mix di professionisti dei dati, come data engineer e data architect. La tabella seguente elenca tutti i ruoli utente specifici del dominio necessari nei team di produttori di dati.


Ruolo

Responsabilità

Competenze richieste

Risultati auspicati

Proprietario del prodotto dati
  • Agisce da punto di contatto aziendale principale per i dati prodotto.
  • È responsabile delle definizioni, delle norme, delle decisioni aziendali, e l'applicazione di regole aziendali per i dati esposti come prodotti.
  • Funge da punto di contatto per domande aziendali. Di conseguenza, proprietario rappresenta il dominio dei dati quando si incontrano i team dei consumatori di dati o i team centralizzati (governance dei dati e infrastruttura dati completamente gestita).

Analisi dei dati

Architettura dei dati

Product manager
  • Il prodotto di dati sta generando valore per i consumatori. È disponibile una gestione solida del ciclo di vita del prodotto per i dati, inclusa la decisione di ritirare un prodotto o rilasciare una nuova versione.
  • È presente la coordinazione degli elementi di dati universali con altri ambiti di dati.

Responsabile tecnico del prodotto dati
  • Rappresenta il punto di contatto tecnico principale per il prodotto.
  • Si occupa dell'implementazione e della pubblicazione delle interfacce dei prodotti.
  • Funge da punto di contatto per domande tecniche. Di conseguenza, il lead rappresenta il dominio dei dati durante l'incontro con i team di consumatori dei dati o i team centralizzati (piattaforma di governance dei dati e infrastruttura dati).
  • Collabora con il team di governance dei dati per definire e implementare i dati standard mesh presenti nell'organizzazione.
  • Collabora con il team della piattaforma dati per contribuire allo sviluppo della piattaforma in tandem con le esigenze tecniche generate dalla produzione e dal consumo.

Data engineering

Architettura dei dati

Ingegneria del software
  • Il prodotto dati soddisfa i requisiti aziendali ed è conforme alle standard tecnici del data mesh.
  • I team dei consumatori di dati utilizzano il prodotto dati e quest'ultimo viene visualizzato i risultati generati dall'esperienza di rilevamento dei prodotti dei dati.
  • L'utilizzo del prodotto dati può essere analizzato (ad esempio, di query giornaliere).


Assistenza per i prodotti dati
  • Agisce come punto di contatto per l'assistenza alla produzione.
  • Si occupa del mantenimento dell'accordo sul livello del servizio del prodotto (SLA).

Ingegneria del software

Site Reliability Engineering (SRE)
  • Il prodotto dati soddisfa lo SLA (accordo sul livello del servizio) dichiarato.
  • Le domande dei consumatori sui dati sull'utilizzo del prodotto di dati sono gestiti e risolti.

Esperto in materia (SME) per il dominio dei dati
  • Rappresenta il dominio dei dati durante le riunioni con PMI di altri dati domini per stabilire le definizioni e i confini degli elementi dati comuni a tutta l'organizzazione.
  • Aiuta i nuovi produttori di dati all'interno del dominio a definire il proprio prodotto ambiti.

Analisi dei dati

Architettura dei dati
  • Collabora con altre PMI di vari domini di dati per stabilire e mantenga una comprensione completa dei dati all'interno dell'organizzazione e i modelli di dati che utilizza.
  • Facilita la creazione di prodotti di dati interoperabili che e il modello dei dati complessivo dell'organizzazione.
  • Esistono standard chiari per la creazione dei prodotti di dati e la gestione del ciclo di vita.
  • I prodotti dati del dominio dati forniscono valore aziendale.

Proprietario dei dati
  • È responsabile di un'area di contenuti.
  • È responsabile della qualità e dell'accuratezza dei dati.
  • Approva le richieste di accesso.
  • Contribuisce alla documentazione dei prodotti di dati.
  • Qualsiasi abilità, ma deve avere una conoscenza approfondita della funzione aziendale.
  • Qualsiasi abilità, ma deve avere una conoscenza approfondita del significato dei dati regole aziendali pertinenti.
  • Qualsiasi abilità, ma deve essere in grado di determinare il meglio possibile i problemi di qualità dei dati.
  • I dati utilizzati in aree interfunzionali sono accurati.
  • Gli stakeholder comprendono i dati.
  • L'utilizzo dei dati è conforme alle norme di utilizzo.

Team dei consumatori basati sul dominio dei dati

In un data mesh, le persone che utilizzano un prodotto dati sono in genere utenti di dati al di fuori del dominio del prodotto dati. Questi utenti utilizzano un catalogo di dati centralizzato per trovare prodotti dati pertinenti alle loro esigenze. Poiché è possibile che più di un prodotto dati soddisfi le loro esigenze, i dati i consumatori possono abbonarsi a più prodotti di dati.

Se i consumatori dei dati non riescono a trovare il prodotto dati richiesto per il loro utilizzo in questo caso, è sua responsabilità consultare direttamente il COE del mesh di dati. Durante la consultazione, i consumatori dei dati possono aumentare le loro esigenze e cercare consigli su come soddisfare queste esigenze da uno o più domini.

Quando cercano un prodotto dati, i consumatori dei dati cercano dati che aiutino raggiungono vari casi d'uso, come dashboard di analisi permanente report, singoli report sul rendimento e altre metriche sul rendimento aziendale. In alternativa, i consumatori dei dati potrebbero essere alla ricerca di prodotti di dati che utilizzata nei casi d'uso di intelligenza artificiale (AI) e machine learning (ML). A a raggiungere questi vari casi d'uso, i consumatori dei dati necessitano di una combinazione utenti tipo dei professionisti, ovvero:


Ruolo

Responsabilità

Competenze richieste

Risultati auspicati

Analista di dati

Cerca, identifica, valuta e si iscrive Prodotti dati per un singolo dominio o interdominio per creare una base il funzionamento dei framework di business intelligence.

Ingegneria dell'analisi

Analisi dell'attività
  • Fornisce set di dati puliti, selezionati e aggregati per i dati esperti di visualizzazione da consumare.
  • Crea best practice su come utilizzare i prodotti dati.
  • Aggrega e seleziona i set di dati interdominio per soddisfare le esigenze analitiche del proprio dominio.

Sviluppatore di applicazioni

Sviluppa un framework applicativo per il consumo di dati su uno o più prodotti di dati, all'interno o all'esterno dominio.

Sviluppo di applicazioni

Data engineering
  • Crea, gestisce e gestisce le applicazioni che utilizzano dati da per uno o più prodotti di dati.
  • Crea applicazioni di dati per il consumo da parte degli utenti finali.

Esperto di visualizzazione dati
  • Traduce il gergo del data engineering e dell'analisi dei dati in informazioni che gli stakeholder aziendali possono comprendere.
  • Definisce i processi per compilare i report aziendali a partire dai prodotti dati.
  • Crea e monitora i report che descrivono le attività strategiche obiettivi.
  • Collabora con gli ingegneri dell'organizzazione per progettare set di dati aggregati dai prodotti di dati consumati.
  • Implementa soluzioni di generazione di report.
  • Trasforma i requisiti aziendali di alto livello in tecnici i tuoi requisiti.

Analisi dei requisiti

Visualizzazione dati
  • Fornisce set di dati e report validi e accurati agli utenti finali.
  • I requisiti aziendali vengono soddisfatti tramite le dashboard e i report sviluppati.

Data scientist
  • Cerca, identifica, valuta e sottoscrive i dati prodotti per casi d'uso di data science.
  • Estrae prodotti di dati e metadati da più domini di dati.
  • Addestra modelli predittivi ed esegue il deployment di questi modelli per ottimizzare i processi aziendali del dominio.
  • Fornisce feedback sulla possibile selezione e annotazione dei dati tecniche per più domini di dati.

ML engineering

Ingegneria dell'analisi
  • Crea modelli predittivi e prescrittivi per ottimizzare il business i processi di machine learning.
  • L'addestramento e il deployment del modello vengono eseguiti tempestivamente.

Team centrale per la governance dei dati

Il team di governance dei dati consente ai produttori e ai consumatori di dati di condividere, aggregare e calcolare i dati in modo sicuro e self-service, senza introdurre rischi di conformità per l'organizzazione.

Per soddisfare i requisiti di conformità dell'organizzazione, il team di governance dei dati è un mix di utenti tipo di professionisti dei dati, che sono i seguenti:


Ruolo

Responsabilità

Competenze richieste

Risultati auspicati

Esperto di governance dei dati
  • Offre supervisione e coordina un'unica visione della conformità.
  • Raccomanda norme sulla privacy a livello di mesh in materia di raccolta e dati protezione dei dati e conservazione dei dati.
  • Garantisce che i gestori dei dati conoscano i criteri e possano accedere che li rappresentano.
  • Fornisce informazioni e consulenze sulle più recenti normative sulla privacy dei dati obbligatorio.
  • Fornisce informazioni e consulenze sulle domande di sicurezza, se richiesto.
  • Esegue controlli interni e condivide report periodici sui rischi e piani di controllo.

SME legale

Esperto di sicurezza

SME sulla privacy dei dati
  • Le normative sulla privacy nelle norme sono aggiornate.
  • I produttori di dati vengono informati tempestivamente delle modifiche alle norme.
  • La direzione riceve report tempestivi e regolari sulle norme conformità per tutti i prodotti di dati pubblicati.

Gestore dati (si trova all'interno di ciascun dominio)
  • Codifica i criteri creati dagli esperti di governance dei dati.
  • Definisce e aggiorna la tassonomia utilizzata da un'organizzazione per annotare prodotti dati, risorse di dati e attributi dei dati con metadati relativi alla scoperta e alla privacy.
  • Coordina le varie parti interessate all'interno e all'esterno del il rispettivo dominio.
  • Garantisce che i prodotti dati nel loro dominio soddisfino i metadati e le norme sulla privacy dell'organizzazione.
  • Fornisce indicazioni agli esperti di governance dei dati su come progettare e dare la priorità alle funzionalità della piattaforma di dati.

Architettura dei dati

Stewardship dei dati
  • Sono stati creati i metadati obbligatori per tutti i prodotti dati in dominio e i prodotti dati per il dominio siano descritti con precisione.
  • Il team della piattaforma per l'infrastruttura dati self-service sta sviluppando i giusti strumenti per automatizzare le annotazioni sui metadati dei prodotti dati, le norme creazione e verifica.

Data governance engineer
  • Sviluppa strumenti che generano automaticamente annotazioni dei dati e possono essere utilizzati da tutti i domini di dati, quindi utilizza queste annotazioni per l'applicazione delle norme.
  • Implementa il monitoraggio per verificare la coerenza delle annotazioni e quando vengono rilevati problemi.
  • Garantisce che i dipendenti dell'organizzazione siano informati lo stato dei prodotti dati implementando avvisi, report e dashboard.

Ingegneria del software
  • Le annotazioni sulla governance dei dati vengono verificate automaticamente.
  • I prodotti dati sono conformi ai criteri di governance dei dati.
  • Le violazioni dei prodotti dati vengono rilevate in modo tempestivo.

Team della piattaforma per l'infrastruttura dati self-service centrale

Il team della piattaforma di infrastruttura dati self-service o semplicemente il team della piattaforma di dati è responsabile della creazione di un insieme di componenti dell'infrastruttura dati. I team dei domini di dati distribuiti usano questi componenti per creare e distribuire prodotti di dati. Il team della piattaforma dati promuove inoltre best practice e introduce strumenti e metodologie che aiutano a ridurre il carico cognitivo per da team distribuiti quando adottano nuove tecnologie.

L'infrastruttura della piattaforma deve fornire una facile integrazione con gli strumenti operativi per l'osservabilità globale, la strumentazione e l'automazione della conformità. In alternativa, l'infrastruttura deve facilitare tale integrazione per configurare in team distribuiti per il successo.

Il team della piattaforma dati ha un modello di responsabilità condivisa che utilizza i team di domini distribuiti e il team dell'infrastruttura sottostante. Il modello mostra le responsabilità che ci si aspetta dai consumatori della piattaforma i componenti della piattaforma supportati dal team della piattaforma dati.

Poiché la piattaforma dati è di per sé un prodotto interno, non supporta per ogni caso d'uso. Al contrario, il team della piattaforma dati rilascia continuamente nuovi servizi e funzionalità secondo una roadmap prioritaria.

Il team della piattaforma dati potrebbe disporre di un insieme standard di componenti sviluppo del prodotto. Tuttavia, i team dei domini di dati potrebbero scegliere di utilizzare un modello un insieme di componenti se le esigenze di un team non sono in linea con quelle fornite completamente gestita. Se i team del dominio dei dati scelgono un approccio diverso, devono garantire che qualsiasi infrastruttura della piattaforma creata e gestita sia conforme con criteri e sistemi di protezione a livello di organizzazione per la sicurezza e la governance dei dati. Per l'infrastruttura della piattaforma dati sviluppata al di fuori della rete di dati centrali team della piattaforma dati, può scegliere di co-investire o incorporare i propri ingegneri nei team del dominio. La scelta del team della piattaforma di dati di investire congiuntamente o di integrare gli ingegneri potrebbe dipendere dall'importanza strategica dell'infrastruttura della piattaforma di dominio dati per l'organizzazione. Restando coinvolti nello sviluppo dell'infrastruttura da parte dei team del dominio dati, le organizzazioni possono fornire l'allineamento e le competenze tecniche necessarie per rielaborare tutti i nuovi componenti dell'infrastruttura della piattaforma in fase di sviluppo per un riutilizzo futuro.

Potresti dover limitare l'autonomia nelle prime fasi della creazione di un mesh di dati se il tuo obiettivo iniziale è ottenere l'approvazione degli stakeholder per lo scale up dei dati mesh. Tuttavia, la limitazione dell'autonomia rischia di creare un collo di bottiglia ai dati centrali dal team della piattaforma Google Cloud. Questo collo di bottiglia può impedire la scalabilità del data mesh. Quindi, qualsiasi le decisioni di centralizzazione devono essere prese con attenzione. Per i produttori di dati, le scelte tecniche rispetto a una serie limitata di opzioni disponibili è preferibile valutare e scegliere tra un elenco illimitato di opzioni le istanze server autonomamente. Promuovere l'autonomia dei produttori di dati non equivale a creare una panorama tecnologico non regolamentato. L'obiettivo è invece promuovere la conformità e l'adozione della piattaforma trovando il giusto equilibrio tra libertà di scelta e standardizzazione.

Infine, un buon team di piattaforma dati è una fonte centrale di istruzione e offre per il resto dell'azienda. Di seguito sono riportate alcune delle attività più efficaci consigliate per i team delle piattaforme di dati centrali:

  • Promuovere regolari revisioni progettuali architettoniche per il nuovo funzionamento progetti e proporre modalità di sviluppo comuni tra i team di sviluppo.
  • Condividere conoscenze ed esperienze, per definire collettivamente le migliori pratiche e linee guida sull'architettura.
  • Assicurarsi che gli ingegneri dispongano degli strumenti giusti per la convalida e il controllo alla ricerca di inconvenienti comuni, come problemi di codice, bug e riduzioni delle prestazioni.
  • Organizzare hackathon interni in modo che i team di sviluppo possano far emergere per soddisfare le esigenze di strumentazione interna.

Esempi di ruoli e responsabilità per il team della piattaforma dati centrale include:

Role Responsabilità
Competenze richieste
Risultati auspicati

Proprietario del prodotto della piattaforma dati
  • Crea un ecosistema di soluzioni e infrastrutture di dati per consentire ai team distribuiti di creare prodotti di dati. Riduce le risorse tecniche barriera all'ingresso, garantisce l'integrazione della governance e minimizza debito tecnico collettivo per l'infrastruttura dei dati.
  • Si interfacce con la dirigenza, i proprietari dei domini di dati, la governance dei dati di sviluppo e piattaforme tecnologiche per stabilire la strategia e la roadmap la piattaforma dati.

Strategia e operazioni sui dati

Gestione prodotti

Gestione degli stakeholder
  • Crea un ecosistema di prodotti di dati di successo.
  • Esistono un numero elevato di prodotti di dati in produzione.
  • Si registra una riduzione del tempo richiesto per minimizzare il prodotto e i tempi di produzione per le release dei prodotti di dati.
  • Un portafoglio di infrastrutture e componenti generalizzati è luogo che risponda alle esigenze più comuni dei produttori di dati e i consumatori.
  • C'è un alto punteggio di soddisfazione da parte dei produttori di dati i consumatori.

Data Platform Engineer
  • Crea soluzioni e infrastrutture di dati riutilizzabili e self-service per l'importazione, lo stoccaggio, l'elaborazione e il consumo dei dati tramite modelli, blueprint di architettura di cui è possibile eseguire il deployment, guide per gli sviluppatori e altra documentazione. Crea anche modelli Terraform, modelli di pipeline di dati modelli di container e strumenti di orchestrazione.
  • Sviluppa e gestisce servizi e framework di dati centralizzati per standardizzare i processi per problemi interfunzionali come la condivisione dei dati, orchestrazione, logging e monitoraggio delle pipeline, governance dei dati, integrazione e deployment continui (CI/CD) con funzionalità integrate sistemi di protezione, reporting su sicurezza e conformità e reporting FinOps.

Data engineering

Software engineering
  • Esistono componenti dell'infrastruttura standardizzati e riutilizzabili soluzioni per produttori di dati per l'importazione dati, l'archiviazione, l'elaborazione cura e condivisione, oltre alla documentazione necessaria.
  • Release di componenti, soluzioni e documentazione per l'utente finale sono in linea con la roadmap.
  • Gli utenti segnalano un alto livello di soddisfazione del cliente.
  • Nei dati sono disponibili solidi servizi condivisi per tutte le funzioni mesh.
  • L'uptime per i servizi condivisi è elevato.
  • Il tempo di risposta dell'assistenza è breve.

Platform and Security Engineer (un rappresentante del reparto IT centrale come networking e sicurezza, che sono integrati nei dati del team della piattaforma)
  • Garantisce che le astrazioni della piattaforma di dati siano allineate i framework tecnologici a livello aziendale e le decisioni.
  • Supporta le attività di ingegneria sviluppando tecnologie di soluzioni e servizi al loro interno, che sono necessari per la gestione di distribuzione della piattaforma.

Ingegneria dell'infrastruttura

Ingegneria del software
  • I componenti dell'infrastruttura della piattaforma vengono sviluppati completamente gestita.
  • Release di componenti, soluzioni e documentazione per l'utente finale sono in linea con la roadmap.
  • I data engineer della piattaforma di dati centrale segnalano un alto livello di la soddisfazione.
  • L'integrità della piattaforma dell'infrastruttura migliora per i componenti utilizzate dalla piattaforma dati (ad esempio, logging).
  • I componenti tecnologici sottostanti hanno un tempo di attività elevato.
  • Quando i tecnici delle piattaforme di dati riscontrano problemi, la risposta dell'assistenza il tempo è breve.

Architetto aziendale
  • Allinea il mesh di dati e l'architettura della piattaforma dati con strategia tecnologica e per i dati a livello aziendale.
  • Fornisce consulenza e autorità di progettazione e garanzia sia per i dati architetture di prodotti di dati e piattaforme per garantire l'allineamento con la strategia e le best practice a livello aziendale.

Architettura dei dati

Iterazione delle soluzioni e problem solving

Aumento del consenso
  • Viene costruito un ecosistema di successo che include una considerevole quantità di prodotti di dati il cui tempo è ridotto per creare prodotti minimi utilizzabili e lanciarli in produzione.
  • Sono stati stabiliti standard di architettura per i percorsi dei dati critici, ad esempio definendo standard comuni per la gestione dei metadati e per l'architettura di condivisione dei dati.

Considerazioni aggiuntive per un mesh di dati

Esistono più opzioni di architettura per una piattaforma di dati di analisi, ciascuna con prerequisiti diversi. Per abilitare ogni architettura del mesh di dati, consigliamo alla tua organizzazione di seguire le best practice descritte in questo .

Acquisire finanziamenti per la piattaforma

Come spiegato nel post del blog, "Se vuoi trasformare inizia con la finanza", la piattaforma non termina mai: funziona sempre in base a una priorità la roadmap. Pertanto, la piattaforma deve essere finanziata come prodotto, non come progetto con un endpoint fisso.

I costi sono a carico del primo utilizzatore del mesh di dati. Di solito, il costo viene condiviso tra l'azienda che forma il primo dominio di dati che avvia il mesh di dati e il team tecnologico centrale, che generalmente ospita i dati centrali dal team della piattaforma Google Cloud.

Per convincere i team finanziari ad approvare i finanziamenti per la piattaforma centrale, di creare un caso aziendale per valore della piattaforma centralizzata realizzata nel tempo. Questo valore deriva reimplementare gli stessi componenti nei singoli team di pubblicazione.

Definire la piattaforma minima utilizzabile per il mesh di dati

Per aiutarti a definire la piattaforma minima utilizzabile per il mesh di dati, consigliamo di eseguire un progetto pilota e di eseguire l'iterazione di uno o più casi aziendali. Per pilota, trovare i casi d'uso necessari e i casi in cui c'è un consumatore pronto adottare il prodotto di dati risultante. I casi d'uso dovrebbero già disporre di finanziamenti sviluppare i prodotti dati, ma dovrebbe essere necessario l'input dei tecnici team di sicurezza.

Assicurati che il team che implementa il progetto pilota comprenda il mesh di dati operativo come segue:

  • L'azienda (ovvero il team del produttore dei dati) è proprietaria del backlog, assistenza e manutenzione.
  • Il team centrale definisce i pattern self-service e aiuta business crea il prodotto dati, ma lo passa allo l'attività da gestire e possedere quando sarà completata.
  • L'obiettivo principale è dimostrare il modello operativo di business (domini prodotti, domini consumati). L'obiettivo secondario è dimostrare l'efficacia modello operativo (pattern self-service sviluppati dal team centrale).
  • Poiché le risorse del team della piattaforma sono limitate, utilizza team trunk e ramo per mettere insieme le conoscenze ma allo stesso tempo consentire lo sviluppo di modelli di Google Cloud.

Ti consigliamo inoltre di procedere nel seguente modo:

  • Pianifica le roadmap invece di lasciare che servizi e funzionalità si evolvano in modo organico.
  • Definire le funzionalità minime della piattaforma utilizzabili tra importazione, archiviazione elaborazione, analisi e ML.
  • Incorpora la governance dei dati in ogni fase, non come un flusso di lavoro separato.
  • Implementare le funzionalità minime in termini di governance, piattaforma flusso di valore e la gestione dei cambiamenti. Le capacità minime sono quelle che per soddisfare l'80% dei business case.

Pianificare la coesistenza del mesh di dati con una piattaforma dati esistente.

Molte organizzazioni che vogliono implementare un data mesh probabilmente hanno già una piattaforma dati esistente, ad esempio un data lake, un data warehouse o una combinazione di entrambi. Prima di implementare un mesh di dati, queste organizzazioni devono fare un piano come la loro piattaforma di dati esistente può evolvere di pari passo con la crescita del mesh di dati.

Queste organizzazioni dovrebbero prendere in considerazione fattori quali:

  • Le risorse di dati più efficaci sul mesh di dati.
  • Gli asset che devono rimanere all'interno della piattaforma dati esistente.
  • Se gli asset devono essere spostati o se possono essere mantenuti sul piattaforma esistente e continuare a partecipare al mesh di dati.

Passaggi successivi