Ads Top

Por que a visualização de dados é importante


A visualização de dados não é apenas importante para comunicar resultados, mas também uma técnica poderosa para análise exploratória de dados. Cada tipo de gráfico, como gráficos de dispersão, gráficos de linhas, gráficos de barras e histogramas, tem seu próprio objetivo e pode ser aproveitado de maneira poderosa usando o pacote ggplot2.


  • Compreender os diferentes papéis da visualização de dados
  • Entenda os diferentes tipos de plotagem disponíveis
  • Obtenha uma visão geral do pacote ggplot2.

Introdução à visualização de dados


A visualização de dados é a técnica mais rápida e poderosa para entender informações novas e existentes. Durante uma fase inicial de exploração, os cientistas tentam revelar os recursos subjacentes de um conjunto de dados, como diferentes distribuições, correlações ou outros padrões visíveis. Esse processo também é chamado de análise exploratória de dados (EDA) e marca o ponto de partida de cada projeto de ciência de dados.

Os gráficos produzidos durante a EDA mostram ao cientista de dados as direções da jornada à frente. Os padrões revelados podem inspirar hipóteses sobre os processos subjacentes, recursos do conjunto de dados a serem extraídos ou técnicas de modelagem a serem testadas. Por último, mas não menos importante, as visualizações descobrem discrepâncias e erros de dados com os quais o cientista de dados precisa se preocupar.

O maior papel da visualização de dados é a comunicação das descobertas de ciência de dados a colegas e clientes por meio de apresentações, relatórios ou painéis. O esforço usado para EDA e visualizações é um tempo bem gasto, pois os resultados podem ser usados ​​diretamente para comunicar descobertas.

Tipos de plotagem disponíveis


Existem muitos tipos de plotagem disponíveis que ajudam a entender diferentes recursos e relacionamentos no conjunto de dados.

Durante a fase de análise exploratória dos dados, normalmente queremos detectar os padrões mais óbvios observando cada variável isoladamente ou detectando relacionamentos de variáveis em relação a outras. O tipo de plotagem usado também é determinado pelo tipo de dados das variáveis de entrada, como numérico ou categórico.

Gráficos de dispersão


Gráficos de dispersão são usados para visualizar o relacionamento entre duas variáveis numéricas. A posição de cada ponto representa o valor das variáveis nos eixos xe y.


Gráficos de linha


Gráficos de linhas são usados para visualizar a trajetória de uma variável numérica em relação a outra que são conectadas através de linhas. Eles são adequados se os valores mudam apenas continuamente - como a temperatura ao longo do tempo.


Gráficos de barras e histogramas


Os gráficos de barras visualizam valores numéricos agrupados por categorias. Cada categoria é representada por uma barra com uma altura definida por cada valor numérico. Os histogramas são gráficos de barras específicos para resumir o número de ocorrências de valores numéricos em um conjunto de intervalos de valores (ou posições). Eles geralmente são usados para determinar a distribuição dos valores numéricos.


Outros


Outros tipos de plotagem frequentemente usados na ciência de dados incluem:

  • Gráficos de caixa: mostra informações de distribuição de valores numéricos agrupados em categorias como caixas. Ótimo para comparar rapidamente várias distribuições.
  • Gráficos de violino: o mesmo que gráficos de caixas, mas mostram distribuições como violinos.
  • Mapas de calor: mostra interações de variáveis - normalmente correlações - como imagem rasterizada, destacando áreas de alta interação.
  • Gráficos de rede: Mostrar conexões entre nós

Introdução: ggplot2


Devido à importância da visualização para ciência de dados e estatística, o R oferece um rico conjunto de ferramentas e pacotes. A linguagem R principal já fornece um rico conjunto de funções de plotagem e tipos de plotagem. Essas funções de plotagem exigem que os usuários especifiquem como plotar cada elemento na tela passo a passo. Por outro lado, o pacote ggplot2 permite a especificação de plotagens através de um conjunto de camadas de plotagem. Isso requer que o pacote descubra as etapas necessárias para produzir o gráfico.

Através do conjunto predefinido de camadas geométricas, facetas e temas, o ggplot2 permite aos usuários criar belos gráficos em muito pouco tempo. O ggplot2 também é a biblioteca de plotagem mais amplamente adotada na comunidade R.

Conheça mais no curso de ggplot2 (em breve).

Nenhum comentário:

Tecnologia do Blogger.