Práticas recomendadas do Tableau Prep Builder: projetando com desempenho em mente
Anteriormente vimos como o Tableau Prep Builder nos ajuda a criar fluxos eficientes nos modos nativos. Pode ser útil ler essa postagem para entender alguns dos termos mencionados abaixo, como modo interativo e modo de execução. Neste post, desenvolvemos essa base e discutimos as práticas recomendadas de design que você pode implementar ao criar fluxos de dados para garantir o desempenho ideal.
Práticas recomendadas para criar seu fluxo de preparação de dados
Trazer os dados certos
Quanto mais dados você fornecer ao Prep Builder enquanto estiver no modo interativo, mais computacionalmente “caro” será o seu fluxo. Embora não haja limite de linhas para trabalhar com conjuntos de dados no Prep Builder, há considerações para otimizar o desempenho – afinal, grande poder traz grande responsabilidade.
Uma maneira simples, porém, poderosa, de garantir alto desempenho é trabalhar apenas com os dados necessários. Quando você executa seu fluxo, seja no Prep Builder ou no Prep Conductor, as alterações sempre são aplicadas a todo o conjunto de dados e não apenas à amostra, para que você possa sair com um conjunto de dados limpo e pronto para analisar.
Amostragem
Muitas vezes, seus dados precisam apenas de reestruturação de alto nível, o que não exige informações sobre cada linha de dados individual. Digamos que você só precise dinamizar linhas para colunas ou unir algumas tabelas. Em cenários como esse, você pode experimentar para acelerar as coisas.
O Prep Builder começará a amostrar seus dados automaticamente em pouco mais de um milhão de registros, mas você pode configurar seu fluxo para amostrar, independentemente de esse limite ter sido atingido. Menos dados levarão a uma experiência de criação mais rápida!
Você notará que tem dois métodos de amostragem disponíveis: uma amostra de seleção rápida e uma amostra aleatória. A amostragem aleatória fornecerá uma representação de todos os valores no conjunto de dados, enquanto a amostragem de seleção rápida trará o primeiro número de (x) linhas do seu conjunto de dados, com base no tamanho da amostra. Qualquer um pode ser eficaz, dependendo do que você precisa realizar.
Filtrar cedo
Você sabia que pode filtrar dados na etapa Entrada antes de começar a limpar, integrar e remodelar seus dados? Ao filtrar os dados que não são cruciais para o seu fluxo de trabalho, você reduz o escopo do que o Prep deve processar. O uso de um conjunto de dados menor, quando possível, quase sempre garante melhor desempenho, porque o Prep Builder possui menos dados para armazenar em cache e consultar.
Pausar seu fluxo
Às vezes, você pode não precisar de feedback interativo ao criar seu fluxo. Se você precisar adicionar uma operação ou adicionar transformações de dados em massa, pause seu fluxo. Esteja ciente de que você não verá os resultados imediatamente. Quando seu fluxo é pausado, as atualizações interativas são pausadas e as consultas não são geradas. A pausa do fluxo permite que você faça rapidamente o que precisa para limpar seus dados e chegar à saída final mais rapidamente.
Considere o seu tipo de dados
Qualquer dado que você trouxer para o Prep Builder receberá um tipo de dado. O Tableau faz um palpite, mas você tem a liberdade de alterar essa classificação. Considere que um número ou tipo de dados booleano é mais fácil de consultar do que um tipo de dados de cadeia, porque há menos valores possíveis a serem analisados.
Por exemplo, digamos que você tenha um ID numérico em seus dados que o Prep Builder tenha classificado como um tipo de dados de sequência, em vez de um tipo de número. Você pode alterar o tipo de dados de uma sequência de caracteres para um tipo de dados número (inteiro) para reduzir o tempo de consulta.
Design com desempenho em mente
Identifique os objetivos do fluxo
Ao projetar um fluxo do Prep Builder, concentre-se em alguns objetivos principais. Considere dividir suas etapas em fluxos separados para organizar seu trabalho, se não for necessário que as operações de limpeza vivam em um único fluxo. Etapas individuais ou mesmo fluxos inteiros podem ser reunidos posteriormente através de etapas de junção ou etapas de união, ou através de etapas de cópia e colagem, quando apropriado.
Filtrando na etapa Limpar
A etapa “Limpar” permite que você veja um resumo com perfil de todo o seu conjunto de dados e identifique e corrija facilmente os problemas. Também é um ótimo local para filtrar dados desnecessários para garantir melhor desempenho. Lembre-se: menos dados significa fluxo mais rápido. Aqui está um dos exemplos:
Etapas reutilizáveis (versão 2019.3.2 ou posterior)
Se você aplicar as mesmas operações de limpeza ou escrever cálculos complexos repetidamente em vários fluxos, use o recurso de etapas reutilizáveis. Você pode salvar uma ou mais etapas conforme o fluxo individual local na sua máquina ou publicá-las para compartilhar com outras informações de dados no Tableau Server ou Tableau Online.
Prova futura
Economize tempo revisando seus fluxos no futuro. A prova futura ajudará você a organizar seu trabalho e deixar informações sobre quais tarefas foram realizadas e onde elas estão em um fluxo. Se você compartilhar seu fluxo com outras pessoas ou publicá-lo através do Prep Conductor, um fluxo limpo e organizado dará visibilidade a outras pessoas na organização, promovendo confiança.
Nomear suas etapas
Organize seu fluxo nomeando etapas conforme você constrói. Isso ajuda você e seus colegas a entender por que uma etapa foi adicionada e quais tarefas foram realizadas nela.
Deixe comentários
No Prep Builder, você pode deixar comentários sobre etapas, alterações no painel Alterações e dentro dos campos calculados. Ajude seus colegas de equipe a entender como os dados foram limpos adicionando rapidamente comentários explicando o que você fez – especialmente se você planeja publicar seus fluxos no Tableau Server ou Online com Prep Conductor. Esses comentários também podem servir como sinalizações e lembretes úteis para você quando revisitar seu próprio trabalho.
Personalizar cores da etapa
Clique com o botão direito do mouse em qualquer etapa do painel de fluxo para alterar a cor da etapa. A alteração das cores das etapas pode ajudá-lo a organizar visualmente as etapas, especialmente em fluxos maiores e mais complexos. Por exemplo, convém codificar por cores com base no tipo de etapa, para ajudá-lo a identificar rapidamente todas as instâncias de junções.
Em outros momentos, pode fazer sentido codificar por cores com base na tarefa, como quando dois fluxos separados são eventualmente unidos para criar uma única saída.
Práticas recomendadas para executar seu fluxo de preparação de dados
Saída apenas o que você precisa
Uma etapa de saída permite trazer seus dados preparados do Prep Builder para o restante da plataforma. Adicione uma etapa Limpeza antes da etapa Saída para remover quaisquer colunas ou linhas estranhas. Lembre-se, quando você executa seu fluxo, o banco de dados inteiro é consultado.
Você pode reduzir o tempo de consulta e a carga que está colocando nos computadores e bancos de dados, produzindo apenas os dados necessários. Embora algumas colunas estranhas não afetem o desempenho de maneira séria, o fluxo resultante será mais limpo e fácil de trabalhar para você e outras pessoas da organização.
Considere o seu tipo de arquivo de saída
Na etapa Saída , você pode configurar o Prep Builder para gerar os dados como uma extração do Tableau ou um arquivo CSV. Nos testes, descobrimos que um conjunto de dados grande e idêntico levava 2 horas e 47 minutos para ser produzido como CSV, mas apenas 11 minutos para ser produzido como um extrato Hyper.
As extrações estão melhor equipadas para lidar com grandes conjuntos de dados e, a menos que seu fluxo de trabalho exija um arquivo simples, recomendamos o uso de uma extração Hyper. A saída para uma extração também permitirá que você publique e mantenha uma única fonte de verdade para seus dados no Tableau Server ou no Tableau Online se você estiver usando o Prep Conductor para publicar seus fluxos.
A partir de 2020.3, o Prep Builder também poderá gravar de volta no seu banco de dados.
Aproveite o poder do Tableau Server com Prep Conductor
Em vez de confiar no seu computador pessoal para gerar grandes resultados, você pode aproveitar o poder do Tableau Server. O Tableau Server é dimensionado e configurado para lidar com a geração de grandes resultados.
Use o Prep Conductor para executar um fluxo publicado completo, em vez do seu computador. Em seguida, você pode gerar manualmente a primeira saída e agendar atualizações futuras em uma programação. (Aprenda a isolar cargas com blocos de recursos.)
Aproveite os extratos incrementais (2020.2.1)
Com a introdução de extrações incrementais, você pode configurar seus fluxos para atualizar de forma incremental, o que significa que somente novas linhas serão recuperadas quando os dados forem atualizados. Atualizações incrementais economizam tempo e recursos, especialmente em saídas maiores. Você também pode agendar uma atualização completa da extração – em uma cadência semanal ou mensal, por exemplo.
Digamos que você tenha dados transacionais – meses de pedidos de vendas diários coletados em um conjunto de dados históricos que são atualizados com novos dados todos os dias.
Você não precisa atualizar os dados históricos em seu fluxo; em vez disso, você só precisa processar as novas linhas. O Prep Builder pode economizar tempo e recursos por meio de extrações incrementais, processando apenas os novos dados todos os dias, em vez de todo o conjunto de dados toda vez que o fluxo é atualizado.
Armado com essas práticas recomendadas de design, você pode criar fluxos de preparação de dados de alto desempenho com confiança. Em seguida, não deixe de compartilhar este post caso tenha gostado, e caso queira saber mais sobre como podemos lhe ajudar com nossas análises de dados clique aqui e um especialista entrará em contato.
Obrigada pela atenção e lhe vejo na próxima!