Apache Gobblin - Framework di acquisizione dati unificato

Blog

Cos'è Apache Gobblin?

Apache Gobblin è un framework di acquisizione dati unificato per l'estrazione, la trasformazione e il caricamento di un grande volume di dati da una varietà di origini dati. Può acquisire dati da diverse origini dati nello stesso framework di esecuzione e gestisce i metadati di diverse origini sul posto. Gobblin combinato con altre funzionalità come la scalabilità automatica, la tolleranza ai guasti, la garanzia della qualità dei dati, l'estensibilità e la capacità di gestire l'evoluzione del modello di dati. È un framework di acquisizione dati facile da usare, self-service ed efficiente.



c# basi pdf

Componenti Apache Gobblin

Gobblin fornisce sei diverse interfacce di componenti, quindi è facile scalare e personalizzare lo sviluppo:

  • Fonte
  • Estrattore
  • Convertitore
  • Controllore di qualità
  • scrittore
  • Editore

Fonte - È principalmente responsabile dell'integrazione dei dati di origine in una serie di unità di lavoro e dell'indicazione dell'estrattore corrispondente.



Estrattore - Extractor specifica le informazioni sull'origine dati tramite l'unità di lavoro, ad esempio Kafka, indicando l'offset iniziale di ogni partizione nell'argomento, utilizzato per questa estrazione. Gobblin utilizza il concetto di filigrana per registrare la posizione iniziale di ogni dato estratto.

Convertitore – Che esegue alcune operazioni di filtraggio e conversione sui dati estratti, come la conversione di array di byte o dati in formato JSON in un formato che deve essere emesso. Un'operazione di conversione può anche mappare una parte di dati in zero o più parti di dati.



Controllore di qualità – È un rilevatore di qualità con due tipi di controlli: criteri a livello di record e a livello di attività. I dati selezionati vengono emessi in un file esterno o ricevono un avviso da un criterio standard o da un criterio opzionale.

Scrittore - Writer scrive i dati esportati, ma non vengono scritti direttamente nel file di output, bensì in una directory di staging. Quando tutti i dati sono stati scritti, vengono scritti nel percorso di output per la pubblicazione da parte dell'editore. Il percorso del Sink può essere in HDFS o Kafka o S3 e il formato può essere Avro, Parquet o CSV. Allo stesso tempo, il writer può inviare il file di output alla directory denominata ora o giorno in base al timestamp.

Editore – Publisher si basa sul percorso scritto dal writer per l'output dei dati nel percorso finale. Allo stesso tempo, fornisce due tipi di meccanismi di invio: commit completo e commit parziale; se si tratta di un commit completo, è necessario attendere fino a quando non ha esito positivo prima della pubblicazione. Se si tratta di una modalità di commit parziale, quando l'attività fallisce, alcuni dati nella directory sono stati pubblicati.

restituisce 2 valori javascript

Perché Apache Gobblin?

Apache Gobblin è un framework di acquisizione dati generico, facilmente configurabile per l'acquisizione di dati da diversi tipi di origini e facilmente estensibile per nuove origini dati. Gobblin gestisce l'attività di routine comune richiesta per tutti gli ETL di acquisizione dati, inclusa la pianificazione di lavori/attività, il partizionamento delle attività, la gestione degli errori, la gestione dello stato, il controllo della qualità dei dati, la pubblicazione dei dati, ecc. Ingerisce dati da diverse origini dati nello stesso framework di esecuzione e gestisce i metadati di varie fonti di dati in un unico posto. Caratteristiche Gobblin-

prezzo cripto moneta diarrea
  • Scalabilità automatica
  • Tolleranza ai guasti
  • Garanzia della qualità dei dati
  • Estensibilità
  • Gestire l'evoluzione del modello di dati

Ciò rende Gobblin un framework di acquisizione dati facile da usare, self-service ed efficiente.

Alcune sfide affrontate da Gobblin

  • Integrazione sorgente – Gobblin fornisce adattatori pronti all'uso per tutte le origini dati a cui si accede comunemente come S3, Kafka, Google Analytics, MySQL e Salesforce
  • Paradigma di elaborazione – Supporta piattaforme sia standalone che scalabili, inclusi Yarn e Hadoop. Filato Offre la capacità di eseguire l'acquisizione continua oltre ai lotti programmati.
  • Estensibilità - I propri adattatori possono essere integrati con il framework Gobblin e renderlo sfruttabile per altri sviluppatori nella comunità.
  • Self service - È una modalità di supporto standalone, quindi il flusso di acquisizione e trasformazione dei dati può essere composto in modalità self-service, testare localmente utilizzando la modalità standalone e distribuire il flusso in produzione utilizzando la modalità scale-out senza modificare il codice.

#insights #apache

www.xenonstack.com

Apache Gobblin - Framework di acquisizione dati unificato

Guida alle soluzioni di acquisizione di Big Data con architettura di lavoro Apache Gobblin, vantaggi e strumenti e procedura di implementazione. Apache Gobblin è un framework di acquisizione dati unificato per l'estrazione, la trasformazione e il caricamento di un grande volume di dati da una varietà di origini dati.