Ads Top

Como é feita a análise de dados - The Data Analysis Process

O Processo de Análise de Dados

Quando temos um bom entendimento de certos fenômenos, é possível fazermos previsões sobre os mesmos. A análise de dados nos permite executar este processo através da exploração de eventos passados, possibilitando assim a criação de modelos preditivos.

O processo é composto dos seguintes passos:

  • Descrição do problema
  • Obter dados
  • Limpar os dados
  • Normalização dos dados
  • Transformar os dados
  • Estatística exploratória
  • Visualização exploratória
  • Modelo preditivo
  • Validação do modelo
  • Visualização e interpretação dos resultados
  • Implantar solução

Todas estas atividades podem ser agrupadas da seguinte maneira:


Problema > Preparação dos Dados > Exploração dos Dados > Modelos Preditivos > Visualização dos Resultados

O Problema


A definição do problema, começa com questões de alto nível, um exemplo que podemos dar é: como rastrear as diferenças de comportamento de grupos de clientes, ou, qual será o preço do ouro no mês que vem. Entender os objetivos e requerimentos do problema é a chave para ter sucesso com a analise de dados.

Os tipos de análises de dados que podemos ter são estas:


  • Inferencial
  • Preditiva
  • Descritiva
  • Exploratória
  • Causal
  • Correlacional


Preparação dos dados


A preparação dos dados é como podemos obter, limpar, normalizar, e transformar os dados em um conjunto de dados(dataset), tentando evitar qualquer dado que seja inválido, ambíguo, fora de alcance, ou com valores perdidos. Este com certeza é o processo mais demorado da análise de dados.

As características de um bom conjunto de dados é listada como:


  • Completo
  • Coerente
  • Não ambíguo
  • Contável
  • Correto
  • Padronizado
  • Não redundante


Exploração dos Dados


Exploração de dados é essencialmente olhar para os dados em um formato gráfico ou estatístico, tentando encontrar padrões, conexões e relações nesses dados. A visualização é usada para fornecer uma visão geral em que podem ser encontrados padrões significativos.

Modelos Preditivos


Modelagem preditiva é o processo usado na análise de dados para criar ou escolher o modelo estatístico tentando prever a probabilidade de um resultado. Podemos usar vários modelos e aqui agruparei três categorias baseados nesses resultados:


  • Classificação: Naïve Bayes, Natural Language Toolkit
  • Regressão: Random Walk, Support Vector Machines, Cellular Automata, Distance Based Approach + k-nearest neighbor
  • Clustering: Fast Dynamic Time Warping (FDTW) + Distance Metrics, Force Layout and Fruchterman-Reingold layout

Outra tarefa importante que precisamos realizar nesta etapa, é a avaliação do modelo que escolhemos para ser o ideal  para o problema.

O teorema do No Free Lunch Theorem proposto por Wolpert in 1996, dizia (tradução livre):

"O teorema No Free Lunch mostrou que algoritmos de aprendizado não podem ser universalmente bons."

  • Cross-validation: Dividimos os dados em sub conjuntos de tamanhos iguais e testamos o modelo preditivo para termos uma noção da performance na prática.
  • Saída: Em sua grande maioria, grandes conjuntos de dados são randomicamente divididos em 3 sub conjuntos: conjunto de treinamento (training set), conjutno de validação (validation set), e conjunto de teste (test set).

Visualização dos resultados


Este é o passo final em nosso processo de análise e precisaremos responder as seguintes questões:

Como apresentaremos os resultados?

Por exemplo: relatórios, gráficos 2d, dashboards, ou infográficos.

Onde faremos a implantação deste projeto?

Por exemplo: Interface desktop, Web, livros, smartphones, ou tablets.




Fonte: Practical Data Analisys










Nenhum comentário:

Tecnologia do Blogger.