Machine learning e processamento de linguagem natural com Tableau
Machine learning e processamento de linguagem natural prometem traduzir melhor a curiosidade humana em respostas pertinentes. Se isso for verdade, esses recursos inteligentes ampliarão o uso de análises e alcançarão pessoas menos confortáveis lidando com dados. Tudo começa com o auxílio de máquinas que aprendem a interpretar a intenção humana. A chave é semântica.
Às vezes, a intenção é simples e explícita, como perguntar ao Siri ou ao Alexa se o vôo está atrasado. Essa questão tem uma intenção clara e uma resposta simples – retornar o status do voo responde à pergunta. Tal simplicidade raramente é o caso quando se trata de análise de dados. As perguntas geralmente são mais sutis, dificultando assumir corretamente o que o usuário realmente está procurando. A linguagem natural é ainda mais complicada quando termos ambíguos são comuns.
Também é difícil para uma máquina entender nossa intenção dentro de um contexto limitado. A máquina tem os dados em si, mas não consegue captar a imagem maior da mesma forma que uma pessoa com conhecimento de domínio pode. Perguntar “Como estão as minhas vendas no Nordeste?” É muito mais ambíguo do que o exemplo do status de voo acima.
Ambiguidade não é um novo desafio na análise de dados. Diferentes grupos dentro de uma organização podem ter diferentes definições ou cálculos para as mesmas palavras: por exemplo, o termo “lucratividade”. Algumas organizações usam dicionários centrais (também chamados de catálogos de dados) para reduzir a ambigüidade e criar consistência em toda a organização. Essas ferramentas podem ajudar a fornecer aos usuários o contexto que precisam entender mais profundamente.
Como a semântica pode ajudar
A semântica é essencialmente a busca de significado na linguagem. A prática da governança semântica envolve o enriquecimento de dados com metadados que descrevem aspectos como classificações, relacionamentos, sinônimos e referências externas. Esse enriquecimento ajuda as pessoas a fazer perguntas de dados sem se preocupar com a estrutura subjacente dos dados.
Gerações anteriores de tecnologias de linguagem natural começaram a mapear palavras-chave para cabeçalhos de coluna, ajudando os usuários a pesquisar seus dados sem a necessidade de entender como eles eram categorizados. Mas isso tem suas limitações. Como se baseia em um índice limitado de sinônimos que ainda podem ter vários significados, a intenção pode ser facilmente perdida. Uma consulta por “loja de ferragens de cidade” pode pesquisar uma coluna de cidades procurando por uma chamada “Loja de ferragens” quando o usuário estava procurando locais de loja de hardware dentro de uma cidade.
Governança semântica e o machine learning permitirão mapeamento de sinônimos e compreensão contextual mais poderosos, estendendo as associações que o sistema pode fazer. Por exemplo, quando solicitado a “mostrar os apartamentos mais baratos”, o sistema pode se conectar “mais barato” a uma coluna com o rótulo “preço” ou “taxa” e até classificar valores de baixo a alto para atender à intenção do usuário. Onde a semântica é mais ambígua, ou a linguagem é específica para organizações ou indústrias, as máquinas precisam aprender a intenção ao longo do tempo.
Com sinônimos, um usuário pode perguntar sobre “tamanho do pedido” e o sistema saberá consultar o campo “Quantidade”.
Por que devemos abraçar a ambiguidade
Ao usar linguagem natural para análise de dados, a ambigüidade serve como uma excelente maneira de as máquinas aprenderem sobre as intenções do usuário. Um usuário pode pedir ao sistema para mostrar “grandes terremotos”, e pode retornar resultados de acordo com a magnitude. Embora essa seja uma interpretação razoável, talvez o usuário realmente quisesse ver os dados em termos do custo dos danos. Se o sistema fornece um mecanismo de feedback – “Você pediu X, mas você quis dizer Y?” – o usuário pode corrigir e orientar o sistema. Igualmente importante é a capacidade de a pessoa ajustar a pergunta, seja através de esclarecimentos. ou acompanhamento.
Por meio do comportamento de uso monitorado e do feedback do usuário, as máquinas aprenderão as preferências das pessoas. Uma plataforma de análise pode aprender linguagem coloquial que carrega nuances específicas de uma organização ou até mesmo de uma pessoa. A definição de “cliente superior” pode variar dentro de uma organização: uma equipe pode atribuir maior peso ao valor da vida útil do cliente, enquanto outra pode examinar mais de perto a lucratividade. Aqui, o significado é mais subjetivo do que os “apartamentos mais baratos”. Esse tipo de aprendizado de máquina ajuda o sistema a antecipar melhor as necessidades ao longo do tempo.
Com uma compreensão do comportamento organizacional e do usuário e uma visão dos dados, os sistemas podem desviar-se de forma mais inteligente do que é mais popular ou previsível. Talvez exista uma fonte de dados ou um conteúdo publicado diferente, usado com menos frequência, que levaria a novas e interessantes informações. Embora seja difícil criar um “acidente feliz” em um algoritmo, essa ideia de exploração assistida é muito promissora e, de outra forma, podemos aceitar a ambigüidade. Em vez de continuar às vezes reforçam os mesmos caminhos, tanto o usuário quanto a máquina podem se beneficiar de uma chance.
Para maior impacto, comece pequeno
Com novas ideias arrojadas, o melhor caminho a seguir é começar com um teste de escopo e não procurar ferver o oceano com o sistema perfeito. Entender verdadeiramente as intenções das pessoas e ajudá-las a responder melhor às perguntas relacionadas aos seus dados ainda é relativamente incipiente. É desafiador ter um sistema para entender a intenção profundamente diferenciada em um amplo conjunto de dados. Comece com um escopo muito específico, como um determinado departamento ou caso de uso. Com um conjunto mais restrito de tokens e semântica conhecidos, o sistema pode navegar pelo contexto e aprender a intenção do usuário com muito mais facilidade.
À medida que a plataforma e o ser humano se tornam mais familiarizados entre si e as máquinas aprendem mais sobre o comportamento de uso, o contexto pode crescer e se tornar mais generalizado. Com uma base sólida de governança semântica, o machine learning e a linguagem natural trarão análises poderosas e acessíveis, além de insights mais rápidos para mais usuários.
Confira a interface de linguagem natural do Tableau, Ask Data – parte de nossa versão 2019.1.
Fonte: Tableau