Ciência de dados: o que é, como e por que

É senso comum que hoje em dia precisamos dos dados para tomar decisões mais assertivas nas nossas empresas e até nas nossas vidas. Os dados são considerados o combustível da nova economia, pois eles trazem um conhecimento valiosíssimo, porém oculto e geralmente de difícil descoberta. Os dados nos permitem entender o que aconteceu e muitas vezes prever o que acontecerá nos mercados, nos sistemas, nos processos, com as pessoas, com nossos produtos, etc.

Os dados se tornaram tão importantes que o processo de analisá-los com o objetivo de descobrir os padrões ocultos que auxiliam a tomada de decisão ganhou uma nomenclatura específica: ciência de dados. Essa área é a fusão da metodologia científica com os dados, ou seja, a aplicação do método científico para extrair conhecimento dos dados. As vezes a ciência de dados se confunde com a também relativamente nova nomenclatura Big Data, que engloba a infraestrutura computacional para armazenar e processar grandes volumes de dados, os dados propriamente ditos e a ciência de dados, ou seja, os métodos e as ferramentas para a análise dos dados.

Apesar da grande relevância dessas áreas, sua adoção pelo mercado não é trivial e há, ao menos, três fatores para isso.

Primeiro, a formação necessária para atuar na área ainda não faz parte da maioria das grades curriculares dos cursos de graduação, estando disponível geralmente em programas de pós-graduação stricto-sensu (mestrados e doutorados) e algumas especializações. Apenas recentemente veem surgindo cursos específicos em ciência de dados, big data e afins, mas a maioria desses cursos tem caráter muito técnico e foi desenvolvida para profissionais de tecnologia.

Segundo, o desenvolvimento de soluções e a extração de conhecimentos a partir de dados são processos cujos resultados, na maioria das vezes, são incertos. Ou seja, antes de se realizar vários experimentos não é possível saber se atingiremos os resultados desejados. Para ilustrar, imagine que se deseja construir uma aplicação analítica capaz de prever fraudes em cartão de crédito a partir de dados históricos de uma administradora de cartões. Não é possível dizer com antecedência qual será o resultado desse processo. Portanto, definem-se hipóteses iniciais e, a partir delas, inicia-se o processo analítico. É exatamente nesse momento que a metodologia científica (a ciência da ciência de dados) tem seu papel, pois é ela que garantirá que o procedimento metodológico adequado será empregado. Só assim teremos uma solução confiável para o problema.

Como se não bastassem os dois fatores acima, a aplicação prática da ciência de dados requer habilidades variadas, desde conhecimentos técnico-científicos, até conhecimentos de negócios e as famosas soft-skills. Especificamente na parte técnica, a quantidade de tecnologias envolvidas e conhecimentos necessários é enorme, incluindo bancos de dados relacionais e não relacionais, frameworks analíticos, técnicas de processamento de alto desempenho, etc. É uma verdadeira sopa de letrinhas (Spark, Tika, MongoDB, Spark ML, Scikit-learn, NLTK, Tensor Flow, Keras, DAAL e a lista continua, quase interminável), e cada letra dessas requer um nível de conhecimento e habilidade técnica.

Portanto, apesar de indispensável para qualquer empresa da atualidade, a adoção da ciência de dados e do Big Data ainda pode ser um sonho distante para várias companhias. No nosso próximo post falaremos sobre como encurtar esse caminho e reduzir significativamente os riscos e custos desse processo.

Até breve!

Compartilhe com sua rede