Como é feita a análise de dados - The Data Analysis Process
O Processo de Análise de Dados
Quando temos um bom entendimento de certos fenômenos, é possível fazermos previsões sobre os mesmos. A análise de dados nos permite executar este processo através da exploração de eventos passados, possibilitando assim a criação de modelos preditivos.O processo é composto dos seguintes passos:
- Descrição do problema
- Obter dados
- Limpar os dados
- Normalização dos dados
- Transformar os dados
- Estatística exploratória
- Visualização exploratória
- Modelo preditivo
- Validação do modelo
- Visualização e interpretação dos resultados
- Implantar solução
Todas estas atividades podem ser agrupadas da seguinte maneira:
Problema > Preparação dos Dados > Exploração dos Dados > Modelos Preditivos > Visualização dos Resultados
O Problema
A definição do problema, começa com questões de alto nível, um exemplo que podemos dar é: como rastrear as diferenças de comportamento de grupos de clientes, ou, qual será o preço do ouro no mês que vem. Entender os objetivos e requerimentos do problema é a chave para ter sucesso com a analise de dados.
Os tipos de análises de dados que podemos ter são estas:
- Inferencial
- Preditiva
- Descritiva
- Exploratória
- Causal
- Correlacional
Preparação dos dados
A preparação dos dados é como podemos obter, limpar, normalizar, e transformar os dados em um conjunto de dados(dataset), tentando evitar qualquer dado que seja inválido, ambíguo, fora de alcance, ou com valores perdidos. Este com certeza é o processo mais demorado da análise de dados.
As características de um bom conjunto de dados é listada como:
- Completo
- Coerente
- Não ambíguo
- Contável
- Correto
- Padronizado
- Não redundante
Exploração dos Dados
Exploração de dados é essencialmente olhar para os dados em um formato gráfico ou estatístico, tentando encontrar padrões, conexões e relações nesses dados. A visualização é usada para fornecer uma visão geral em que podem ser encontrados padrões significativos.
Modelos Preditivos
Modelagem preditiva é o processo usado na análise de dados para criar ou escolher o modelo estatístico tentando prever a probabilidade de um resultado. Podemos usar vários modelos e aqui agruparei três categorias baseados nesses resultados:
- Classificação: Naïve Bayes, Natural Language Toolkit
- Regressão: Random Walk, Support Vector Machines, Cellular Automata, Distance Based Approach + k-nearest neighbor
- Clustering: Fast Dynamic Time Warping (FDTW) + Distance Metrics, Force Layout and Fruchterman-Reingold layout
Outra tarefa importante que precisamos realizar nesta etapa, é a avaliação do modelo que escolhemos para ser o ideal para o problema.
O teorema do No Free Lunch Theorem proposto por Wolpert in 1996, dizia (tradução livre):
"O teorema No Free Lunch mostrou que algoritmos de aprendizado não podem ser universalmente bons."
- Cross-validation: Dividimos os dados em sub conjuntos de tamanhos iguais e testamos o modelo preditivo para termos uma noção da performance na prática.
- Saída: Em sua grande maioria, grandes conjuntos de dados são randomicamente divididos em 3 sub conjuntos: conjunto de treinamento (training set), conjutno de validação (validation set), e conjunto de teste (test set).
Visualização dos resultados
Este é o passo final em nosso processo de análise e precisaremos responder as seguintes questões:
Como apresentaremos os resultados?
Por exemplo: relatórios, gráficos 2d, dashboards, ou infográficos.
Onde faremos a implantação deste projeto?
Por exemplo: Interface desktop, Web, livros, smartphones, ou tablets.
Fonte: Practical Data Analisys
Nenhum comentário:
Postar um comentário