Há alguns dias, comecei a escrever um post focado nos requisitos necessários para alguém se tornar um profissional de big data e/ou cientista de dados.

Fiz alguns perguntas sobre o tema ao amigo Cezar Taurion e ele acabou me recomendando um post que trata, e muito bem, sobre o assunto. E mais, foi escrito por ele mesmo. 🙂

Vamos a ele:

Big Data é um tsunami ainda em alto mar. Sabemos que vem mais e que ainda estamos brincando na praia. Mas, o assunto Big Data começa a chamar atenção. Diversos estudos e pesquisas apontam que muitas empresas começam a implementar iniciativas nesta área. E este cenário do crescimento do Big Data aponta também que estão surgindo novas oportunidades de emprego para profissionais de TI e de outros setores.

Mas a capacitação para Big Data é um problema grave quando nem sabemos exatamente que funções serão necessárias. Coletei algumas dessas funções pesquisando na Web: data scientists, data miners, data modelers and analysts, data visualization designers, predictive analysts, quantitative analysts, Big data architects and engineers, business analysts, analysts directors, data architects, data analysts, BI directors, research analysts, web analysts, R&D specialists e Hadoop specialists.

Vamos nos concentrar em algumas funções mais citadas. Uma delas é o chamado de “data scientist” ou cientista de dados. Esta função demanda normalmente formação em Ciência da Computação e Matemática, bem como as habilidades analíticas necessárias para encontrar a providencial agulha no palheiro de dados recolhidos pela empresa.

“Um cientista de dados é alguém que é curioso, que analisa os dados para detectar tendências”, disse recentemente Anjul Bhambhri, vice-presidente de Produtos Big Data da IBM. “É quase como um indivíduo renascentista, que realmente quer aprender e trazer a mudança para uma organização.”

Não é uma pessoa fácil de achar e em decorrência da escassez de profissionais, a área de TI não tem agido de forma proativa neste conceito. Na verdade muitos CEOs expressam sua frustração com TI em relação a Big Data e uma frase de John Harris, chairman do Corporate IT Forum, organização que reúne altos executivos no Reino Unido, é muito interessante. Segundo ele, os CEOs sabem onde está o ouro e não entendem porque TI não o extrai lá. Eles, CEOs, sentem que os gestores de TI não são geólogos que sabem onde extrair ouro. E faz uma comparação muito interessante com os técnicos que trabalharam na decifração da quebra dos códigos de comunicação dos alemães na Segunda Guerra Mundial. Eles eram matemáticos e linguistas que pensavam de forma criativa. Na opinião dele, os cientistas de dados devem ser os profissionais que conhecem profundamente o negócio e tenham imaginação e criatividade para fazer as perguntas certas. E não necessariamente serão encontrados no setor de TI.

O trabalho de um cientista de dados foi exemplificado na Harvard Business Review, versão online em outubro de 2012. No texto, os autores mencionam o trabalho de um pesquisador da Universidade Stanford, que percebeu que a rede social LinkedIn estava monótona e que as pessoas realizavam poucas interações sociais. O pesquisador então sugeriu a criação de um algoritmo que apresentasse sugestões de amizades para os usuários da rede, também conhecido como ‘People You May Know’, o que foi um sucesso e ajudou com que a rede social se tornasse uma das mais utilizadas no mundo. O algoritmo proposto por Goldman utilizava as informações disponibilizadas nos perfis dos usuários da rede como, por exemplo, o colégio onde o usuário cursou o Ensino Médio. Comparando com os outros usuários, o algoritmo poderia sugerir pessoas que também estudaram no mesmo colégio, fazendo assim que as pessoas aumentassem seu número de conexões, proporcionando maiores interações sociais pela rede. Este é um dos exemplos de como o Cientista de Dados utiliza as análises de dados do Big Data.

O cientista de dados vai trabalhar em uma disciplina que podemos chamar de “Data Science” ou “Ciência dos Dados”. Este é o grande desafio do Big data nos próximos anos. Ter profissionais capacitados, uma vez que a tecnologia está evoluindo rápido e não será impeditiva. O gargalo não é tecnologia, mas gente. À medida que Big Data se insere nas empresas, os próprios conceitos de gestão, baseados em “orientação a suposições” passará a ser orientado a fatos. A razão é simples: um imenso volume de dados permitirá fazermos análises antes inimagináveis sobre dados, analisando fatos e fazendo previsões com muito mais precisão. Estas análises preditivas demandam uma capacitação que envolve estatística, matemática e conhecimento de negócios, que é bem diferente das atividades dos analistas envolvidos com ferramentas de BI hoje, que estão mais envolvidos em criar gráficos e dashboards para mostrar dados passados. Hoje a maioria das ações de BI envolvem dados armazenados em data warehouse ao longo do tempo e apenas conseguem visualizar retrospectivas. Chegar a análises preditivas é um passo que não se dá de um dia para o outro.

Como é uma função nova, claro que surgem definições pouco claras e profissionais que sabem usar ferramentas de BI começam a se autointitular data scientists. Para chegar a serem cientistas de dados precisam demonstrar capacitação adequada para isso e não apenas o conhecimento de ferramentas de BI. Uma comparação de skills mostra a diferença. Um profissional de BI geralmente mostra capacitação em ferramentas como Cognos, data warehouse, uso de SQL e conhecimentos de bancos de dados relacionais, como SQLServer, Oracle ou DB2. O cientista de dados precisa conhecimentos de estatística, matemática, entender do negócio e ter familiaridade com tecnologias e linguagens como Hadoop e Pig. Para os profissionais envolvidos com Big Data aparece um novo desafio que é a modelagem de dados não estruturados. Nos últimos 30 anos os arquitetos envolvidos com modelagem de dados se especializaram no modelo relacional, suas regras e técnicas. Por exemplo, temos eliminação de redundâncias através da normalização como também critérios rígidos de garantia de integridade referencial. Bancos de dados NoSQL não se preocupam com duplicação de dados e não exigem regras de integridade referencial.

Mas, além do data scientist, existe espaço para outras atividades profissionais. Por exemplo, haverá forte demanda também por desenvolvedores e administradores de sistemas que se especializam em ferramentas voltadas para Big Data, como o Hadoop, tecnologia projetada para aplicações distribuídas com uso intensivo de dados e utilizadas por sites bastante conhecidos como o Yahoo, Facebook, LinkedIn e eBay.

Em resumo podemos identificar três perfis básicos de profissionais engajados em Big Data:

a) Cientistas de dados, como descrevemos acima. Profissionais capacitados em estatística, ciência da computação e/ou matemática capazes de analisar grandes volumes de dados e extrair deles insights que criem novas oportunidades de negócio;

b) Analistas de negócio que conhecendo bem o negócio em que atuam consigam formular as perguntas corretas. Analisar as respostas e tomar decisões estratégicas e táticas que alavanquem novos negócios ou aumentem a lucratividade da empresa. Estas função tende a ser acoplada às funções do cientista de dados.

c) Profissionais de tecnologia que cuidarão da infraestrutura e seu suporte técnico para suportar Big Data. O aparato tecnológico de Big Data não é muito comum em empresas tipicamente comerciais, pois demanda expertise em gerenciar hardware em clusters de alta performance  (Hadoop é massivamente paralelo) e pensar em volumes de dados significativamente maior e muito mais variado que comumente se usa em sistemas tradicionais.

Entretanto, nos próximos anos viveremos uma escassez destes profissionais, não só no Brasil, mas no mundo todo. Esta escassez ao mesmo tempo em que abre muitas perspectivas profissionais para os que abraçarem a função, também atuará como um entrave, pois dificultará às empresas usarem Big Data com eficiência. Recentes pesquisas estimam que por volta de 2015 Big Data demandará cerca de 4,4 milhões de profissionais em todo o mundo e que apenas 1/3 destes cargos poderá ser preenchido com as capacitações disponíveis hoje em dia. Uma pesquisa mundial da IBM corrobora estes dados, mostrando que apenas uma em dez organizações acreditam que tenham profissionais com as capacitações necessárias e que três em cada quatro estudantes e professores reportam que existe um gap de moderado a grande entre o que é ensinado hoje e o que o mercado de trabalho realmente necessita.

Portanto atuar em Big Data é uma oportunidade inovadora que não aparece com frequência na vida profissional. Vamos aproveitar? Aliás, porque não atuar em um trabalho considerado como um dos “sexiest jobs of 21st century?

Escrito há quase 2 anos, mas continua atual.. 🙂