Data Profiling: Essencial para endereçar ações de qualidade dos dados e seus respectivos metadados – Planejamento…

È indiscutível atualmente que, entender claramente as características dos dados que precisamos carregar em nossas bases é tarefa prioritária. Os processos e ferramentas de “data profiling” surgem como ferramentas indispensáveis quando no levantamento dos metadados e para conhecer inicialmente o nível de qualidade e integridade dos dados que precisamos carregar.

Pois bem, agora, quais são os principais objetivos do data profiling? Se você está simplesmente executando uma ferramenta e obtendo as estatísticas das análises automáticas é importante saber: Isso é o começo…

O resultado principal é: Identificar anomalias e relacionamentos/características de integridade entre os elementos de dados.

Problema: Ao iniciar um processo como este sem um escopo bem definido, alinhado ao nível de resultado que se espera, podemos nos achar num loop de análises sem nunca concluir definitivamente o profiling.

Exemplificando o conceito do processo de data profiling e seus potenciais resultados, o que seriam os resultados mais comuns deste processo:

DataQualityAssessement

Na parte de Metadados, os resultados esperados são:

MetadataDiscovery

Agora que recapitulamos onde podemos chegar com este processo, vamos usar um pouco de experiência e a matemática para nos organizar melhor, planejando o esforço para executar as análises.

Podemos dividir os elementos de dados em dois grupos:

 

Elementos de Dados

Tendo por base experiências anteriores, é muito importante estabelecer uma média de tempo gasto em cada tipo de elemento de dados e sua frequência média de ocorrência:

ED Comum: 10 minutos, aproximadamente 80% dos elementos de dados

ED Questionável: 90 minutos, aproximadamente 20% dos elementos de dados

Desta forma temos:

(0.8 x 10) + (0.2 x 90) = 26 minutos

Para as primeiras rodadas, sejamos conservadores considerando 30 minutos para cada elemento de dados.

Aplicando esta forma de organização e planejamento, cabe a cada um melhorar de acordo com suas necessidades estas métricas.

Até o próximo artigo!

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s