Por que a visualização de dados é importante
A visualização de dados não é apenas importante para comunicar resultados, mas também uma técnica poderosa para análise exploratória de dados. Cada tipo de gráfico, como gráficos de dispersão, gráficos de linhas, gráficos de barras e histogramas, tem seu próprio objetivo e pode ser aproveitado de maneira poderosa usando o pacote ggplot2.
- Compreender os diferentes papéis da visualização de dados
- Entenda os diferentes tipos de plotagem disponíveis
- Obtenha uma visão geral do pacote ggplot2.
Introdução à visualização de dados
A visualização de dados é a técnica mais rápida e poderosa para entender informações novas e existentes. Durante uma fase inicial de exploração, os cientistas tentam revelar os recursos subjacentes de um conjunto de dados, como diferentes distribuições, correlações ou outros padrões visíveis. Esse processo também é chamado de análise exploratória de dados (EDA) e marca o ponto de partida de cada projeto de ciência de dados.
Os gráficos produzidos durante a EDA mostram ao cientista de dados as direções da jornada à frente. Os padrões revelados podem inspirar hipóteses sobre os processos subjacentes, recursos do conjunto de dados a serem extraídos ou técnicas de modelagem a serem testadas. Por último, mas não menos importante, as visualizações descobrem discrepâncias e erros de dados com os quais o cientista de dados precisa se preocupar.
O maior papel da visualização de dados é a comunicação das descobertas de ciência de dados a colegas e clientes por meio de apresentações, relatórios ou painéis. O esforço usado para EDA e visualizações é um tempo bem gasto, pois os resultados podem ser usados diretamente para comunicar descobertas.
Tipos de plotagem disponíveis
Existem muitos tipos de plotagem disponíveis que ajudam a entender diferentes recursos e relacionamentos no conjunto de dados.
Durante a fase de análise exploratória dos dados, normalmente queremos detectar os padrões mais óbvios observando cada variável isoladamente ou detectando relacionamentos de variáveis em relação a outras. O tipo de plotagem usado também é determinado pelo tipo de dados das variáveis de entrada, como numérico ou categórico.
Gráficos de dispersão
Gráficos de dispersão são usados para visualizar o relacionamento entre duas variáveis numéricas. A posição de cada ponto representa o valor das variáveis nos eixos xe y.
Gráficos de linha
Gráficos de linhas são usados para visualizar a trajetória de uma variável numérica em relação a outra que são conectadas através de linhas. Eles são adequados se os valores mudam apenas continuamente - como a temperatura ao longo do tempo.
Gráficos de barras e histogramas
Os gráficos de barras visualizam valores numéricos agrupados por categorias. Cada categoria é representada por uma barra com uma altura definida por cada valor numérico. Os histogramas são gráficos de barras específicos para resumir o número de ocorrências de valores numéricos em um conjunto de intervalos de valores (ou posições). Eles geralmente são usados para determinar a distribuição dos valores numéricos.
Outros
Outros tipos de plotagem frequentemente usados na ciência de dados incluem:
- Gráficos de caixa: mostra informações de distribuição de valores numéricos agrupados em categorias como caixas. Ótimo para comparar rapidamente várias distribuições.
- Gráficos de violino: o mesmo que gráficos de caixas, mas mostram distribuições como violinos.
- Mapas de calor: mostra interações de variáveis - normalmente correlações - como imagem rasterizada, destacando áreas de alta interação.
- Gráficos de rede: Mostrar conexões entre nós
Introdução: ggplot2
Devido à importância da visualização para ciência de dados e estatística, o R oferece um rico conjunto de ferramentas e pacotes. A linguagem R principal já fornece um rico conjunto de funções de plotagem e tipos de plotagem. Essas funções de plotagem exigem que os usuários especifiquem como plotar cada elemento na tela passo a passo. Por outro lado, o pacote ggplot2 permite a especificação de plotagens através de um conjunto de camadas de plotagem. Isso requer que o pacote descubra as etapas necessárias para produzir o gráfico.
Através do conjunto predefinido de camadas geométricas, facetas e temas, o ggplot2 permite aos usuários criar belos gráficos em muito pouco tempo. O ggplot2 também é a biblioteca de plotagem mais amplamente adotada na comunidade R.
Conheça mais no curso de ggplot2 (em breve).
Nenhum comentário:
Postar um comentário