22 minutos de leitura

Compartilhe com seus amigos!

Em um momento de mudanças e inovações, várias profissões surgem como oportunidades. Mas uma profissão vêm chamando mais atenção que todas as outras. Ela é a “carreira de cientista de dados” ou “data science”! Não à toa, a Harvard Business Review publicou um artigo com o título “Data Scientist: The Sexiest Job of the 21st Century” (“Cientista de dados: A profissão mais sexy do século 21”).

Chegou então a hora de você se aprofundar nesse assunto, vamos lá:

 

  1. Mas o que faz um cientista de dados?
  2. Qual é o perfil de um Cientista de dados
  3. As habilidades técnicas que um Cientista de dados irá desenvolver
  4. Ferramentas do dia a dia
  5. Dia a dia de um cientista de dados
  6. Quais empresas estão contratando?
  7. Salários
  8. Aplicações práticas
    7.1 Segmentação comportamental de clientes (Case: Facebook)
    7.2 Mecanismo de recomendação sugerindo produtos aos clientes
    7.3 Análise de Marketing sugerindo novos pacotes de vendas
    7.4 Otimização de preços
    7.5 Análise de funil/Priorização de potenciais clientes
    7.6 Atribuição de modelos de campanhas de marketing
    7.7 Mineração de feedbacks dos clientes
    7.8 Bots para atendimento aos clientes (Case: Microsoft)
    7.9 Previsões de churn (Case: American Express)
    7.10 Otimização de roteamento
    7.11 Otimização de estoque
    7.12 Simulação de cenários para linhas de produção
    7.13 Mecanismo de negociação para compras
    7.14 Visualização de métricas principais
    7.15 Melhorando produtos com inteligência artificial (Case: Intel)
    7.16 Melhorando arquitetura de banco de dados
    7.17 Modelagem de perda de funcionários
    7.18 Detecção de fraudes
    7.19 Previsão financeira (Case: Uber)
    7.20 Automação de processos existentes
  9. Como começar

Mas o que faz um cientista de dados?

Já perceberam a quantidade enorme de dados que são gerados atualmente? Segundo o IDC, o universo digital está dobrando a cada dois anos. Em 2013 eram 4,4 trilhões de gigabytes no planeta. Esse número deve ser multiplicado por 10 até 2020.

Cada ação que você faz deixa um dado registrado. O tempo que você está lendo esse artigo, o assunto, a movimentação do seu mouse, a sua localização, enfim, tudo gera informação de forma consciente e inconsciente.

E esses dados estão distribuídos em várias bases, as quais podem ser usadas para se extrair informação, gerar previsões e iniciar automatizações.

Qual é o perfil de um Cientista de dados

O papel desse profissional dentro de uma empresa exige uma série de características para que ele consiga organizar o mar de dados e transformá-los em resultado.

Analítico

Para poder lidar com dados de uma empresa é importante que você já tenha um perfil de naturalmente se preocupar com informação e de basear as suas decisões sobre eles. Isso já é nato em perfis analíticos e pragmáticos. Geralmente pessoas que se interessam por profissões relacionadas a exatas como engenharias, estatísticas, programação, administração, matemática possuem esse perfil.

Foco em resultado

Apesar de ter o termo “cientista” no nome, esse profissional estará atuando em empresas que possuem objetivos e metas a serem atingidas. Por isso, o perfil desse profissional precisa ter claro a importância de resultados e ter faro para oportunidades de negócio.

Comunicação

Mesmo tendo um perfil de exatas, esse profissional irá lidar com todas as áreas da empresa. Assim, ter clareza em sua comunicação e saber escutar todos irá ser fundamental para auxiliar na sua tomada de decisão de quais ações executar. Essa habilidade também irá ajudar no momento de levar o resultado e “vender” os projetos de dados para o restante da empresa.

As habilidades técnicas que um Cientista de dados irá desenvolver

Programação

Tratar dados e processá-los exige conhecimentos em programação. Mesmo com o avanço de tecnologias que permitem tratamento de dados de uma forma mais intuitiva como Excel, Google Sheets e Zapier, ainda existem várias demandas que necessitam de um conhecimento mais profundo de programação para tarefas mais complexas e aplicações que usam inteligência artificial. Linguagens como Python e Sql são as mais usadas entre os profissionais. Segundo Pietro Oliveira, Data Engineer no EBANX, “linguagens como Python já possuem diversas bibliotecas que facilitam o trabalho de estatística e manipulação de dados como Pandas e Numpy que já realizam média, mediana, desvio padrão e outras métricas de estatísticas com 2 linhas de código”.

Matemática / Estatística

Pior do que não saber a resposta é achar que sabe. Por isso, o trabalho de um cientista de dados exige bastante acurácia nas informações que são repassadas, pois elas podem mudar totalmente o rumo da empresa. Para dar essa assertividade é primordial entender de técnicas estatísticas como Clustering, Redução de Dimensionalidade, Análise Variável Latente, Regressão linear, Análise de Efeitos Causais, Modelagem Preditiva entre outras.

Negócio

Dados sem contexto não dizem nada. Essa acaba sendo uma habilidade bastante exigida do Cientista de Dados. Ele precisa conhecer toda a cadeia do negócio desde a geração de clientes, até o pós venda, passando pelo produto oferecido e pelas áreas de suporte da empresa como TI, financeiro entre outras. Somente assim será possível entender os dados gerados e saber interpretá-los de forma correta.

Atuando como líder da área de dados da Madeira Madeira, um dos principais e-commerces do Brasil, Rafael Dias cobra essa habilidade da sua equipe. Segundo ele, “A principal característica é sobre alguém que sempre está embasado em dados para tomada de decisões (data driven). Precisa também ser curioso e interessado sobre como funciona o negócio ou a dinâmica da empresa/instituição em que está inserido.”.

Ter conhecimentos em Ferramentas e técnicas como design thinking, Business model canvas, Personas, Planejamento estratégico e matriz de valor podem dar base para as decisões.

Machine learning / Big data

A complexidade de se trabalhar com técnicas mais avançadas tem diminuído bastante. Tanto em relação ao poder de processamento que vêm aumentando exponencialmente até ao acesso de algoritmos complexos que podem ser consumidos por qualquer profissional através do IBM Watson, Microsoft Bots, entre outras bibliotecas. Ferramentas também são usadas no dia a dia como R Project para análises de computação estatísticas.

Tratamento de dados

O cenário ideal de um cientista de dados, é de chegar em um ambiente com dados estruturados e prontos para serem analisados. Mas esse é um ambiente que não é a realidade das empresas, principalmente no Brasil, onde a carência de uma estrutura profissional de dados é enorme. Por isso, o dia a dia de um profissional será muito relacionado a estruturação para poder preparar o terreno antes de poder gerar grandes resultados.

Ferramentas do dia a dia

Sobre as ferramentas utilizadas, Rafael conta que é grande a diversidade de ferramentas utilizadas pelo Cientista de Dados: Linguagem para Banco de Dados (MySql, PostgreSql, NoSql), visualizadores de dados (Tableau, Qlik, R, Phyton), ferramentas de ETL (Pentaho), ferramentas para análise de dados e modelagens Machine Learning / Artificial Intelligence (R, Phyton, Scala) e servidores locais e computação em nuvem (Google Cloud, Linux, AWS), assim como ferramentas para computar grandes Bancos de Dados (Hadoop, Spark).

Já Vinicius de Paula, Business Inteligence na EBANX, alerta que ferramentas sim como SQL e Python são fundamentais para o dia a dia, porém, mais que ferramentas, é necessário entender qual problema está tentando resolver.

Dia a dia de um cientista de dados

Como é a rotina diária de um Cientista de Dados? Montamos um exemplo de cronograma da semana para você se enxergar dentro desses desafios. Para esse cenário, consideramos uma startup com 200 funcionários.

Segunda-feira: Ao chegar na empresa, você observa os dashboards para ver como foram os números da semana em relação a vendas. Para isso, observa os dados do Tableau, uma ferramenta de análise de dados.

Apesar de ter mantido as vendas, o CAC (Custo de Aquisição de Cliente) subiu consideravelmente nesse final de semana. Com essa informação, você entra em contato com o Coordenador de Marketing e marca um bate papo para quarta às 14h para discutir a situação.

Às 10h você inicia a reunião com a equipe para ter um feedback das ações que estão acontecendo e avaliar novos projetos. Vários departamentos levam demanda ao seu setor, porém a equipe aproveita essa reunião para avaliar qual dos projetos é mais importante nesse momento. O projeto escolhido foi de usar os dados para sugerir os preços, pois existem indícios de que a precificação atual está fazendo com que a empresa esteja perdendo bastante dinheiro. Assim, você se compromete a tratar as informações e montar o modelo para analisar os dados.

No período da tarde, você conversa com o marketing para entender se as variáveis que impactam o preço estão devidamente mapeadas e levanta informações para começar a extrair os dados e gerar o ETL.

Terça-feira: Uma das tarefas que já está em andamento na empresa é a de automatização de operações. Você se dedica nesse período a criar através do Zapier um novo fluxo para dar feedbacks de forma automática aos clientes sobre o status da entrega. Essa tarefa é importante, pois a equipe não estava dando conta e as reclamações estavam crescendo por parte dos clientes.

Você finaliza a tarefa e se encontra com o responsável de CS (Customer Success) para que ele valide a ferramenta antes de lançarmos.

Após o almoço, você se encontra com a equipe de TI para analisar uma nova solução de processamento do servidor, tendo em vista que a demanda está crescendo. Vocês escolhem os parâmetros que devem ser mantidos e os que precisam ser incrementados.

No final da tarde, após o café, você se dedica ao projeto da semana e continua desenvolvendo a modelagem para auxiliar na precificação.

Quarta-feira: O dia começa bem com um e-mail do analista financeiro agradecendo o relatório que o sistema passou a enviar automaticamente para ele sobre a previsão de gastos por centro de custos.

A tarde teremos uma reunião com a equipe de marketing para falar sobre o CAC. Assim, você se prepara e analisa os dados para levantar as hipóteses que devem estar impactando nesse aumento. Nesse momento, você notou que o link patrocinado teve um aumento de 20% no custo devido a entrada de um player forte que elevou os preços dos leilões. Como ainda a empresa depende desse canal, ele acabou impactando o custo de aquisição.

Às 14h você inicia a reunião justamente para trazer esses dados e avaliar alternativas. Junto com o Coordenador de Marketing você avalia ações de curto prazo como manutenção do investimento entre as campanhas, mas fica claro que a longo prazo a empresa precisa analisar canais mais baratos. O Coordenador de Marketing combinou de avaliar alternativas para a equipe ir trabalhando e diminuir a dependência deste canal.

Quinta-feira: No início da manhã você finaliza a ETL e começa a carregar a base. Outro profissional ficou responsável por desenvolver em Python o algoritmo de sugestão de preços. Ele está em dúvida sobre os modelos matemáticos que mais se encaixam com o desafio. Vocês conversam e tiram todas as dúvidas.

Um outro projeto que está fazendo bastante sucesso é do Chatbot para solucionar chamados. O chatbot consegue solucionar 3% das necessidades, o restante é passado para o call center. Porém, existe um fluxo que está tomando muito tempo dos atendentes e que pode ser automatizado. Você anota para levar ele para a reunião de segunda e sugerir como uma possível melhoria.

A tarde você começa a testar o algoritmo de previsão de preços. Alguns ajustes ainda precisam ser realizados, pois em alguns casos ele sugeriu preços muito fora do padrão de mercado. Mas já foi um começo.

No meio da tarde você recebe um alerta do sistema que travou um envio repentino de 1.200 e-mails do fluxo de feedbacks. Ao analisar o que aconteceu, você percebe que foi realizada uma carga de informações no sistema de compras com dados não preenchidos de data de entrega o que gerou um fluxo não mapeado anteriormente por você. Exceções são raras, mas acontecem. E nesse momento você percebe o quanto foi importante fazer com que o sistema avise quando uma carga grande entra para ser processada.

Sexta-feira: A semana está acabando. Foi positiva, mas também teve emoções. A manhã é dedicada ao projeto de sugestão de preços. Vocês irão treinar o algoritmo usando machine learning e analisar a carga necessária para isso. Sabendo que precisará de bastante processamento, você conversa com a equipe de TI para agilizar a contratação do novo servidor. Mas por enquanto, terão que trabalhar com o que tem.

Após o almoço, o Coordenador de Marketing diz que a equipe conseguiu melhorar o índice de qualidade das páginas o que baixou o preço gasto nos anúncios. As metas das empresas continuam avançando bem. Você usa uma hora para preparar a apresentação que fará no final da tarde para o Diretor de Operação. Os ganhos conquistados te deixam animado para a reunião. E a reunião de fato ocorre bem, com elogios que te deixam orgulhoso. Para comemorar, você marca um happy hour com a equipe. Agradece as pequenas vitórias mas sabe que semana que vem teremos mais desafios.

Quais empresas estão contratando?

Por ser uma área nova e relacionada a tecnologia, as empresas que estão com necessidades imediatas desse perfil de profissional são as startups. Em Curitiba, você já encontra várias vagas de Data Scientist, Cientista de Dados, Data Engineer e Machine learning com facilidade.

Em São Paulo, por ter um grande número de empresas com esse perfil, consequentemente as vagas são muitas.

No entanto, empresas mais tradicionais de grande porte já começaram a entender a importância desse profissional e já começaram a estruturar departamentos com essa finalidade. As empresas de segmentos relacionados a indústria, financeiro, tecnologia e seguros já possuem grandes bases de dados para serem exploradas. Mas a tendência é que os outros segmentos já venham na sequência.

Salários

Nos Estados Unidos, a demanda por esse profissional já está muito mais consolidada. Segundo o site GlassDoor, o salário anual de um Cientista de Dados em média é de $117.345 (pesquisa realizada em 11 de junho de 2019). No Brasil, a média é de R$ 7.337 mensais.

Uma Fintech que cresce a passos largos e já sabe o valor de um cientista de dados é a NuBank. Além de todos os benefícios de se trabalhar em uma das principais Startups do país e de estar em um ambiente diferenciado, a empresa chega a oferecer R$ 25.000 de salário para um profissional da área.

A profissão tende a ganhar demanda e importância fazendo com que o salário se valorize ainda mais.

Aplicações práticas

Um artigo de David Foster da Applied Data Science mostra 20 projetos que podem ser desenvolvidos por cientista de dados dentro de uma empresa com essa imensidão de dados que são gerados:

Segmentação comportamental de clientes

Como se comporta o cliente ideal do seu produto? Hoje a internet possui uma infinidade de dados pessoais e profissionais. Essas informações podem ser processadas para entender características que apontam quem é o seu cliente. Assim fica fácil achar mais deles.

Case: Uma grande base de dados comportamentais são as redes sociais. Para o Facebook, quanto mais assertivo você for no seu anúncio, melhor para todos. Por isso, ela disponibiliza ferramentas abertas como o Audience Insights. Ela permite, por exemplo, você saber que homens que gostam de desenvolvimento web e musculação em Curitiba tem uma grande afinidade com airsoft, Mercadão suplementos, Salto duplo curitiba entre outros.

Mecanismo de recomendação sugerindo produtos aos clientes

Aumentar o valor gasto por cliente é algo muito valioso. Principalmente hoje em que o custo para se adquirir um cliente se torna cada vez mais caro. Achar o produto certo para ser sugerido e aumentar o ticket médio é um grande trunfo para a empresa além de melhorar a experiência do cliente.

Análise de Marketing sugerindo novos pacotes de vendas

As empresas quebram a cabeça todos os dias para pensar em quais produtos desenvolver para ir de encontro com a dor do cliente? Qual é a funcionalidade nova que você vai implementar e pela qual o cliente irá pagar um valor alto? Rastrear por exemplo quais os principais termos de reclamação em reviews de determinado produto e descobrir que um aspirador silencioso seria o sonho de todos pode fazer a diferença entre o sucesso e fracasso de um novo produto.

Otimização de preços

Quem já passou pelo desafio de precificar um produto sabe. Se você colocar um preço alto, você perde clientes. Se colocar um preço baixo perde lucratividade. Qual é o valor ideal? Imagine para empresas como e-commerces que possuem centenas e milhares de produtos, onde centavos são multiplicados e podem fazer grande diferença no resultado. Gerar um algoritmo com base nos dados de compra para formar o preço ideal é o sonho de toda a empresa.

Análise de funil/Priorização de potenciais clientes

O comercial é o coração de toda a empresa. Sem vendas, não existe negócio. Mas o fato é que essa é uma área que demanda custos altos. Por isso, ser assertivo em quais prospects tem reais potenciais de compra permitem que seu time comercial tenha grande eficiência. Nesse sentido, os dados de marketing e CRM são um prato cheio para um cientista de dados.

Atribuição de modelos de campanhas de marketing

São várias as alternativas de ações de marketing que o mercado oferece. Facebook, Linkedin, SEO, Inbound, marketing de afiliados e tantas outras. Isso, englobando apenas o marketing digital. Em um mar de possibilidades, fica difícil para o time saber quais ferramentas e ações deverão ser priorizadas? Ter o apoio de um cientista de dados na criação desses modelos, faz com que campanhas de marketing possam ser certeiras e lucrativas.

Mineração de feedbacks dos clientes

Os canais de comunicação entre clientes e empresa nunca foram tantos e tão importantes. Juntar todas essas informações e saber atribuir pesos faz com que a empresa tenha uma visão unificada e clara dos pontos de melhoria.

Bots para atendimento aos clientes

Os bots já são uma realidade no atendimento ao cliente. Mas para funcionar, os bots precisam ser “inteligentes” e integrar dados em tempo real para responder aos clientes. Além de saber avaliar o tipo de problema do cliente de forma rápida, ele precisa varrer os sistemas da empresa consolidando dados e apresentando as melhores soluções.

Case: A Microsoft relata que possui 53 milhões de incidentes de atendimento por ano apenas em relação ao Xbox. Atualmente, grande parte desse atendimento é realizado por bots trazendo economias drásticas para a empresa. No início os bots conseguiam atender apenas 5% dos chamados. Os demais eram direcionados para a equipe. Com o tempo, os bots foram aprendendo através de machine learning e atualmente eles já resolvem a maioria dos chamados e com alto índice de satisfação dos clientes.

Previsões de churn

Antes de pedir o cancelamento de um produto, o cliente realiza diversos comportamentos que são padrões e que podem ser identificados. Muito provavelmente, quem cancelou uma conta do Netflix, antes de tomar essa decisão, passa a usar o produto com menos frequência. Ou então procura filmes e séries, mas acaba não se interessando por nenhuma opção. São suposições, mas que um trabalho estatístico de um cientista de dados poderá responder com grande precisão e permitir a empresa se antecipar a esse movimento.

Case: A American Express busca indicadores para prever a lealdade de seus clientes e um modelo preditivo que usa 115 variáveis para analisar potenciais churn. A empresa acredita que pode prever 24% das contas que irão fechar nos próximos 4 meses.

Otimização de roteamento

Logística é um grande desafio para várias empresas. Esse ramo avançou muito nos últimos anos coletando dados de sistemas e de GPS, permitindo aprendizados e tomadas de decisões. Responder perguntas como “Qual rota é a melhor?” ou “Como reduzir o impacto financeiro logístico na operação?” são pontos que já podem ser solucionados por Cientistas de dados.

Otimização de estoque

Todos sabemos que estoque é “dinheiro parado” para as empresas. Por outro lado, a disponibilidade do produto na hora da compra é fundamental. Usar os dados para prever qual deve ser o melhor fluxo impacta muito no resultado financeiro.

Simulação de cenários para linhas de produção

Montagens de linhas de produção são caras. Ainda mais quando se tomam decisões erradas, o que é muito fácil de acontecer em um contexto novo. Prever cenários e consequências é um papel valioso nesse momento. Ao montar uma linha de produção por exemplo, você pode prever que se você fizer parte da instalação elétrica da porta do carro, antes de acoplar no conjunto, você reduziria em 15 min a produção. Aqui você vai incluir exemplo de como o cientista faz essa previsão?

Mecanismo de negociação para compras

Negócios grandes envolvem grandes negociações. Saber até quando dar descontos, deixa de ser somente com base em feeling e passa a ser apoiado por históricos de diversos dados.

Visualização de métricas principais

As empresas estão seguindo o conceito de data-driven, ou seja, decisões com base em dados. E para engajar o time, manter dados atualizados e claros funcionam como um propulsor mantendo o foco da equipe e deixando claro o avanço das ações.

Melhorando produtos com inteligência artificial

A manutenção de produtos é um grande ralo de dinheiro para a indústria. Coletar dados e fazer predições de pontos para serem melhorados podem reduzir grandes custos de manutenção além de melhorar a satisfação do cliente.

Case: A Intel precisa testar todos os chips que saem da sua linha de produção. Um simples chip passa por cerca de 19 mil testes até ser considerado aprovado. Assim ela começou a usar big data e análises preditivas para reduzir o número de testes sem perder a qualidade. O resultado foi uma economia de US $ 3 milhões em custos de fabricação para uma única linha de processadores Intel Core. Com a expansão do programa para outras linhas, a empresa espera economizar mais US $ 30 milhões.

Melhorando arquitetura de banco de dados

O excesso de informação pode gerar também uma grande carga de processamento, resultando em demora ou até inviabilizando a implementação de uma melhoria. Saber analisar e estruturar esses dados de melhor forma pode fazer toda a diferença.

Modelagem de perda de funcionários

Um dos papéis cruciais para as empresas é a retenção de talentos. Trocas de funcionários envolvem processos caros de contratação, treinamento entre outros. Analisar seus colaboradores e encontrar os padrões e pontos a serem melhorados pode ser crucial para uma cultura forte e evitar perdas financeiras.

Detecção de fraudes

Operações financeiras deixam uma infinidade de dados e rastros. Quando se tem processos volumosos de transações, realizar análises uma a uma está fora de questão. Por outro lado, algoritmos de previsões podem ser bem precisos ao levantar riscos de fraudes.

Previsão financeira

Em um contexto onde existem uma infinidade de variáveis no mundo real impactando no resultado financeiro da sua operação, fazer previsões financeiras se torna cada vez mais difícil. Como tomar as melhores decisões? Usar dados internos e externos para criar modelos financeiros são uma excelente ferramenta de gestão.

Quer saber mais sobre as nossas formações? Entre em contato com a gente:

 

 

Qual é o perfil de um cientista de dados?

Um cientista de dados precisa ser analítico pois irá lidar com informações que precisam ser decifradas; focado em resultados pois você irá trabalhar em uma empresa que depende disso para prosperar; comunicativo pois você irá precisar convencer as pessoas a respeito de suas analises e também irá precisar entender o contexto de outros setores da empresa para saber quais decisões tomar.

Quais habilidades que um cientista de dados precisa desenvolver?

Um cientista de dados precisa ter habilidades de Programação para fazer o tratamento dos dados; Matemática para ter mais assertividade nos dados; Conhecer toda a cadeia de Negocio, para melhor tomada de decisão; saber mexer com Ferramentas de analise de computação estatística; saber estruturar dados, pois no Brasil existe uma carência de estruturação de dados nas empresas. Por isso, o dia a dia de um profissional será muito relacionado a estruturação para poder preparar o terreno antes de poder gerar grandes resultados.

Quais empresas estão contratando?

As startups são as que estão mais procurando esses profissionais. Em Curitiba você consegue achar diversas vagas, e também em São Paulo por ter um grande número de empresas. As empresas tradicionais também estão percebendo cada vez mais a necessidade de contratar Cientistas de dados.

Quanto ganha um Cientista de dados?

Nos Estados Unidos, a demanda por esse profissional já está muito mais consolidada. Segundo o site GlassDoor, o salário anual de um Cientista de Dados em média é de $117.345 (pesquisa realizada em 11 de junho de 2019). No Brasil, a média é de R$ 7.337 mensais.

Compartilhe com seus amigos!

Deixe uma resposta