Refletindo sobre uma década de ciência de dados e o futuro das ferramentas de visualização
A ciência de dados explodiu na última década, mudando a maneira como conduzimos os negócios e preparamos a próxima geração de jovens para os empregos do futuro. Mas esse rápido crescimento foi acoplado a uma compreensão ainda em evolução do trabalho da ciência de dados, o que gerou muita ambiguidade em relação a como podemos usá-la para obter insights acionáveis de nossas pilhas de dados.
Hoje iremos nos aprofundar nas questões do que é ciência de dados, o que é o trabalho de ciência de dados e quem são os cientistas de dados. Pesquisei a literatura para puxar os fios de vários estudos e análises sobre a referida ciência e seus cientistas para tecer respostas a essas perguntas, que veremos a seguir.
Parte da motivação deste estudo foi servir como base de pesquisa e desenvolvimento, para que eu pudesse identificar áreas onde as ferramentas de análise visual conseguissem abranger a uma necessidade não atendida. No entanto, outra motivação foi uma reflexão pessoal sobre um campo que ainda não existia há pouco mais de uma década, quando comecei meus estudos avançados em ciência da computação. Nesta postagem do blog, eu resumo várias das principais conclusões deste artigo de pesquisa e compartilho minhas ideias sobre como suas descobertas podem nos ajudar a construir a próxima geração de ferramentas de visualização de dados para a ciência de dados.
O que é ciência de dados?
Acontece que a ciência de dados são coisas diferentes para pessoas diferentes. Para alguns indivíduos, a ciência de dados não é nenhuma novidade e é apenas a aplicação prática de técnicas estatísticas que existem há muito tempo. Para outros, essa visão é muito estreita, pois a ciência de dados requer não apenas o conhecimento de métodos estatísticos, mas também de técnicas de computação para tornar prática a aplicação desses métodos.
Por exemplo, não é suficiente que um cientista de dados entenda a regressão linear, ele também precisa saber como aplicá-la em escala a grandes quantidades de dados – algo que não faz parte do ensino de estatística tradicional. Ainda assim, mesmo aqueles que argumentam que a ciência de dados é mais do que estatísticas aplicadas podem hesitar em dizer que é algo novo.A prática de coletar e analisar dados, mesmo em grandes quantidades, há muito faz parte da pesquisa científica, por exemplo, em biologia ou física; muitos acham que a ciência de dados é apenas uma extensão do que já está acontecendo na ciência empírica.
Três perspectivas principais sobre o que é ciência de dados.
Mas também há uma terceira perspectiva aqui, que é a de que a ciência de dados é realmente algo novo e diferente tanto das estatísticas quanto das abordagens que os cientistas usaram ao estudar átomos e genes. Reunir estatísticas e ciência da computação com a experiência necessária no assunto resultou em novos desafios que são tratados de forma exclusiva pela ciência de dados e que são enfrentados por cientistas de dados.
Além disso, o trabalho realizado por cientistas de dados é diferente de outros tipos de análise de dados, porque requer uma amplitude mais ampla de habilidades multidisciplinares. Nossa pesquisa, e de outras, assume essa perspectiva de que a ciência de dados é realmente algo novo e diferente e, a partir disso, criamos uma definição que serve como base para o nosso trabalho:
Esta definição é importante porque nos ajuda a entender os desafios e as necessidades não atendidas dos trabalhadores da ciência de dados, que se originam principalmente dos desafios de trabalhar com dados reais, em oposição aos simulados, e os desafios que acompanham a aplicação de métodos estatísticos e de computação para esses dados em escala.
O que é trabalho de ciência de dados?
Destilar o trabalho de ciência de dados em quatro processos de ordem superior (preparação, análise, implantação e comunicação) e 14 processos de ordem inferior. Os processos destacados em vermelho são aqueles em que a visualização de dados é usada predominantemente, mas isso não impede seu uso em outros aspectos do trabalho de ciência de dados.
É importante ressaltar que uma definição funcional de ciência de dados restringe o escopo da pesquisa. Em vez de considerar todos os tipos possíveis de análise de dados que se pode desejar realizar, examinamos de perto os tipos de análises que os cientistas realizam. Essa distinção é importante porque as etapas específicas que, digamos, um físico experimental executa para analisar dados são diferentes, embora compartilhem semelhanças, das etapas analíticas que um cientista de dados pode executar. O que leva a um importante seguimento: o que exatamente é o trabalho da ciência de dados?
Existem vários padrões da indústria para decompor o trabalho de ciência de dados. O primeiro foi o método KDD (ou Conhecimento em Descoberta de Dados), que com o tempo foi modificado e expandido por outros. A partir dessas derivações, bem como de estudos que entrevistam cientistas de dados, criamos uma estrutura que possui quatro processos de ordem superior (preparação, análise, implantação e comunicação) e 14 processos de ordem inferior. Usando o contorno do traço vermelho, também destacamos as áreas específicas onde a visualização de dados já desempenha um papel proeminente no trabalho de ciência de dados. Em nosso artigo de pesquisa, fornecemos definições detalhadas e exemplos desses processos.
Quem são os trabalhadores da ciência de dados?
Nove funções de ciência de dados que encontramos em doze estudos aprofundados com cientistas de dados
Ao longo desses anos, ouvi muitas interpretações diferentes do que é um cientista de dados. Uma coisa que eu gosto é que um cientista de dados é alguém que é “melhor em engenharia de software do que um estatístico, e melhor em estatística do que um engenheiro de software”. Uma reclamação mais recente que ouvi é que um cientista de dados é um “estatístico da costa oeste”.
No entanto, conforme investigávamos os estudos existentes sobre cientistas de dados, algo que não esperávamos encontrar, mas que surgiu como consistente e importante, foi a diversidade dos ‘cientistas de dados’ e como suas funções mudaram em relação a processos específicos de ciência de dados. Você deve ter notado a ascensão do engenheiro de dados, por exemplo, como uma função distinta, mas ainda adjacente da ciência de dados. À medida que o trabalho de ciência de dados cresceu em complexidade, os cientistas de dados se tornaram menos generalizados e mais especializados, frequentemente envolvidos em aspectos específicos do trabalho de ciência de dados. Entrevistas conduzidas por Harris et al. em 2012 já identificou esta tendência, que só se acelerou ao longo do tempo. Astutamente, eles observaram que essa diversidade entre as funções da ciência de dados leva a “falhas de comunicação entre os cientistas de dados e aqueles que buscam sua ajuda”.
Com base nos resultados do trabalho de Harris, examinamos doze estudos, totalizando milhares de indivíduos identificados como cientistas de dados. A partir de nossa meta-análise desses estudos, fomos capazes de identificar 9 funções de dados distintas. Esses indivíduos tinham diferentes conjuntos de habilidades e experiências, que ilustramos ao longo de um eixo de estatística, ciência da computação e experiência de domínio. Também incluímos o design centrado no ser humano em nossa caracterização das habilidades de ciência de dados, pois considerar o impacto dos produtos de dados, como um aplicativo de reconhecimento facial, é de importância crescente. Queremos enfatizar que esses papéis não são categorias absolutas, há fluidez em seus limites e com a força de habilidade técnica desses indivíduos que ocupam esses papéis.
Como isso muda a maneira como construímos ferramentas de visualização e análise de dados?
Obviamente, a consideração mais importante é como nossa definição de ciência de dados e nossa estrutura de trabalho e os funcionários da mesma, podem nos ajudar a construir melhores ferramentas de visualização de dados. Em primeiro lugar, ajuda a tornar a diversidade do trabalho e dos trabalhadores da ciência de dados explícita e fundamentada em evidências. Já usamos essa estrutura para criar critérios mais nítidos para analisar as experiências dos clientes do Tableau nessa ciência.
Podemos apontar com maior precisão exatamente o que eles estão tentando fazer e podemos fazer perguntas mais investigativas sobre esses processos. Sabendo que a função de ‘cientista de dados’ em si incluía uma grande diversidade, podemos identificar melhor quem está realizando o trabalho, classificando os indivíduos com quem estamos falando em nossas nove funções de ciência de dados. Essa classificação torna mais fácil entender as tarefas que nossos sistemas de visualização precisam suportar e em que nível. Por exemplo, um analista técnico e um engenheiro de ML / AI, que são duas funções de ciência de dados que caracterizamos, podem estar envolvidos em uma tarefa comum de construção de modelo, mas têm necessidades drasticamente diferentes; se ignorarmos essas diferenças, corremos o risco de construir a ferramenta errada para ambas as funções.
Mas talvez o mais importante para mim, essa estrutura também me ajuda a pensar sobre o que está faltando no ecossistema atual de ferramentas de análise visual. Uma conclusão preocupante que tirei foi o foco estreito das ferramentas existentes para a visualização de modelos de aprendizado de máquina e a falta de ferramentas que ofereçam suporte a outros aspectos críticos do trabalho de ciência de dados, como preparação, implantação ou comunicação de dados.
Essa falta de ferramentas não apenas adiciona sobrecarga ao trabalho de ciência de dados, mas também torna mais difícil para os cientistas de dados, em qualquer função que desempenhem, ter seu trabalho de impacto nas práticas e tomadas de decisões organizacionais. Essa pesquisa sobre o trabalho e os funcionários da ciência de dados me ajudou a descobrir esses desafios e definir oportunidades para construir ferramentas melhores que ajudem as pessoas a ver e compreender seus dados.
Se você gosta deste tipo de conteúdo não deixe de compartilhar, e caso queira saber mais sobre como podemos lhe ajudar com nossas análises de dados, ou receber algum de nossos dashboards, clique aqui e um especialista entrará em contato.
Obrigada pela atenção e lhe vejo na próxima!