Ciência de Dados com Python - Começando (Instalação do necessário)

February 16, 2016

Introdução - O que é Ciência de Dados?

Com a evolução da tecnologia de armazenamento e as maiores velocidades de processamento, a Ciência de Dados (Data Science) está na moda e já foi eleita em diversas fontes a carreira mais promissora do momento (um exemplo da Harvard Business Review: https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/) . Não vamos alongar muito para ir direto ao ponto.

Ciência de Dados consiste em extrair conhecimento ou auxiliar na tomada de decisões através do uso de computação em quantidades significativas de dados. Alguns exemplos práticos para ajudar no entendimento:

  • Uso de informações do usuário (idade, sites visitados previamente, sexo, etc) para direcionar melhor anúncios e propagandas online e assim, aumentar a chance de que o mesmo clique no anúncio.
  • Filtrar e agrupar e-mails como Spam e Não Spam.
  • Sistemas de recomendação, como por exemplo o utilizado pelo Netflix para indicar filmes e programas que você tenha mais tendência a assistir considerando aquilo que você já assistiu.

Ciência de Dados com Python

Uma linguagem de programação bastante utilizada para Ciência de Dados é o Python. A famosa linguagem, amplamente usada em desenvolvimento Web, programação científica, entre outros, também pode ser utilizada para Ciência de Dados, principalmente através dos pacotes NumPy e Pandas.

A forma mais fácil que conheço para utilizar os pacotes é através da distribuição Anaconda. Anaconda é uma distribuição gratuita do Python criada pela empresa Continuum, que já vem com muitos de pacotes muito utilizados para Ciência de Dados, matemática, computação científica, etc. Inclui instaladores para Python 2 e Python 3 e possui versões para Windows, Linux e OSX. Você pode baixa-los no seguinte link: https://www.continuum.io/downloads

Juntamente com os pacotes necessários, Anaconda também instalará a IDE Spyder, que é uma excelente opção para praticar Ciência de Dados com Python, ou você pode utilizar a IDE de sua escolha e executar seu código Python através do Anaconda Prompt que estará disponível após a instalação.

O Spyder IDE tem essa cara abaixo:

Spyder IDE em funcionamento
Spyder IDE em funcionamento

Quando você abri-lo pela primeira vez possívelmente estará um pouco diferente, pois configurei o look do meu para um estilo mais escuro. Você pode alterar o estilo em Tools > Preferences > Editor, na opção Syntax Color Scheme.

Mexer com o Spyder é bem simples. Por padrão, no canto superior direito existe um inspetor de objetos, variáveis e arquivos dividido em abas. No canto inferior direito está o console, e o Spyder já é integrado com o IPython, mas você também pode usar o console padrão do Python se preferir. E na esquerda ficam os arquivos abertos.

Python também tem pacotes de Ciência de Dados além dos inclusos no Anaconda, com cada vez mais ferramentas sendo desenvolvidas. Eventualmente, quando falarmos deles e precisarmos usa-los, ensinarei a fazer a instalação. Alguns exemplos são Theano e o Lasagne, usados em tarefas de machine learning, e o Bokeh, para visualização de dados.

Nos próximos posts falarei mais sobre o Pandas, começando pelo básico (do que se trata, manipulação de dados, leitura de arquivos, etc) e depois podemos começar a mexer com assuntos mais avançados (visualização de dados, aprendizagem automática / machine learning, etc).

Fiquem ligados! :)