114 11 casos para dominar la visualización de datos en Python - American Climate Research
Ingrese y ejecute el comando mágico %matplotlib en línea y elimine el borde de la leyenda.
Introducción al conjunto de datos:
Las características de este conjunto de datos incluyen 49 estados de los Estados Unidos, sus regiones, años estadísticos, meses estadísticos, insolación promedio, temperatura máxima diaria promedio, temperatura máxima diaria promedio, Índice de calor máximo (índice de calor máximo diario promedio), precipitación promedio diaria (precipitación promedio diaria) y temperatura superficial promedio diaria (temperatura superficial promedio diaria).
Los intervalos de años para cada característica son:
Importe los datos y vea las primeras 5 filas.
Examine los principales índices climáticos en las principales regiones de Estados Unidos y dibuje el mapa de distribución del índice a través de la interfaz sns.distplot.
Según los resultados:
La tendencia de distribución de la luz solar en los Estados Unidos es más o menos la misma, con dos picos obvios (luz fuerte y luz débil). Esto se debe a que los países no ecuatoriales se ven afectados por la rotación de la Tierra y la intensidad de la luz en las cuatro estaciones mostrará un cierto patrón de cambio periódico;
Se puede ver desde la ubicación geográfica que la luz La vaguada en el noreste es significativamente más baja que las otras tres regiones;
La temperatura máxima promedio diaria varía mucho en los Estados Unidos. La tendencia en el noreste y el medio oeste es aproximadamente la misma, con una meseta de temperatura más larga y. un pico significativo. La región occidental tiene el período templado más largo y la temperatura máxima anual es relativamente estable, la distribución en el sur es relativamente más concentrada;
La temperatura promedio diaria de la superficie terrestre es similar a la temperatura máxima, pero la La diferencia es que hay menos áreas de baja temperatura.
La distribución del índice de calor máximo en el occidente es consistente con la de las regiones central y occidental, con temperaturas suaves, índice de calor alto en el noreste y bajo en el sur;
Las precipitaciones en el oeste son significativamente menores, y en el sur y el noreste son más o menos las mismas, relativamente más en las regiones central y occidental.
Haga un resumen basado en conocimientos geográficos:
La mayoría de las áreas del noreste y las regiones central y occidental tienen un clima continental templado con cuatro estaciones distintas, veranos bochornosos y abundantes precipitaciones.
El oeste tiene un clima mediterráneo templado, con un clima templado durante todo el año, sequedad y poca lluvia, un clima suave en verano y una temperatura máxima relativamente estable.
En la costa sur, el clima es cálido durante todo el año, con veranos calurosos y precipitaciones abundantes.
Calcule el promedio y la desviación estándar de las precipitaciones en cada región de Estados Unidos mensualmente y dibuje el mapa de error de precipitaciones de cada región con una desviación estándar que sea el doble del promedio.
Según los resultados de la operación:
En la mayoría de los meses de verano, las precipitaciones en la región occidental son mucho menores que en otras regiones;
La Las precipitaciones en el oeste de China son mayores en invierno que en verano.
Las regiones central y occidental tienen un clima continental templado típico, con precipitaciones que disminuyen en otoño e invierno y aumentan en primavera y verano.
La región sur tiende a tener un clima marítimo, con precipitaciones anuales relativamente medias.
Necesitas instalar el paquete joypy.
Cambio de tendencia de la temperatura máxima promedio diaria
A través de la interfaz joyplot del paquete joypy, puede dibujar una curva de distribución vertical con un efecto de superposición. La temperatura máxima promedio diaria se dibuja cada. cuatro años desde 1980 hasta 2008. Etiquete los cuantiles del 25% y del 75%.
Según los resultados de la operación:
Durante el período de 1980 a 2008, el área de baja temperatura de la distribución de temperatura máxima promedio diaria en los Estados Unidos aumentó gradualmente, la El área de alta temperatura disminuyó gradualmente y la distribución tendió a ser más concentrada;
Durante 1980-2008, hay una ligera desviación entre el cuantil del 25% y el cuantil del 75% de la temperatura máxima diaria promedio en Estados Unidos, pero no es significativo.
Tendencia de precipitación promedio diaria
Procese los datos de lluvia de la misma manera y verifique los resultados de salida.
Filtre los datos de lluvia promedio diarios de California y Nueva York y dibuje el mapa de distribución de lluvia mensual a través de la interfaz plt.hist.
Según los resultados de la operación:
Las precipitaciones en California se concentran principalmente en el rango de 0-1 mm, y hay pocas lluvias fuertes. Por el contrario, Nueva York tiene precipitaciones abundantes y la precipitación media diaria se distribuye en el rango de 2 a 4 mm.
El histograma estará cubierto por la mayoría de los detalles bajo el efecto acumulativo, y las líneas del cuadro expresan la Los efectos de agregación y dispersión pueden ser una mejor opción en este tipo de problemas.
Trazar diagramas de caja de la distribución mensual de precipitaciones en California y Nueva York a través de la interfaz sns.boxplot.
El diagrama de caja puede comparar claramente la distribución mensual de las precipitaciones en los dos estados y se puede ver el grado de concentración. Por ejemplo, las precipitaciones en California en julio se concentran en un estrecho rango de 0,1-0,5 mm, lo que significa que no habrá lluvias intensas en esta época, también podremos ver situaciones discretas; Por ejemplo, en California en enero, la parte de caja del diagrama de caja está ampliamente distribuida y hay un punto discreto a unos 10 mm por encima de ella, lo que indica que ocasionalmente pueden ocurrir lluvias fuertes en California en este momento.
Visualmente, el gráfico de líneas de error de swing es más hermoso y conciso. En el experimento "Distribución mensual de las precipitaciones en los Estados Unidos", las posiciones X de todas las etiquetas de categorías se colocaron en el mismo lugar, lo que resultó en barras de error muy superpuestas.
Al ajustar la posición de la coordenada X, las secuencias a comparar se pueden organizar de forma compacta.
Como se puede ver en el resultado, la incertidumbre sobre las precipitaciones invernales en California es más fuerte. Cada año llueve intensamente de noviembre a marzo, con más pero menos precipitaciones (barras de error largas).
Los experimentos anteriores tratan de estudiar la distribución de una sola variable, pero a menudo queremos conocer las características de la distribución conjunta de dos variables cualesquiera.
La estimación de la densidad del kernel es uno de los principales métodos para estudiar este tipo de problemas. La interfaz sns.kdeplot calcula la función de densidad del núcleo de dos variables mediante la función del núcleo gaussiano y dibuja la densidad del núcleo en forma de líneas de contorno.
Según los resultados de la operación:
Existen áreas de distribución de alta densidad obvias en California en áreas de alta temperatura y períodos secos (altas temperaturas y veranos secos);
Áreas de alta temperatura y áreas de baja temperatura en el estado de Nueva York Cada distrito tiene un área de distribución de alta densidad y la distribución de la lluvia en diferentes áreas de temperatura es relativamente uniforme.
Visualice las precipitaciones y la temperatura en los Estados Unidos a través de la interfaz plt.hist2d.
Según los resultados de la operación:
El área con mayor densidad diaria de temperatura alta y área de precipitaciones en los Estados Unidos es de aproximadamente 78 °F (aproximadamente 25 °C) y 2,2 mm respectivamente. , que es un distrito con un clima de vida relativamente cómodo.
La relación entre las precipitaciones y la temperatura en los Estados Unidos: estimación de la densidad del grano
Basado en los experimentos anteriores, la densidad del grano se dibuja en los ejes X e Y a través de la Interfaz sns.rugplot El mapa de distribución unidimensional estimado puede obtener simultáneamente las características de distribución conjunta y distribución univariada en un plano de dibujo.
La relación entre las precipitaciones y la temperatura en los Estados Unidos: distribución dispersa y distribución lineal
La interfaz Sns.jointplot dibuja distribuciones de una sola variable en forma de subtramas a través de cuadrículas y a través de diagramas de dispersión Mostrar relaciones bivariadas también es una buena manera de mostrar la distribución de datos.
Los dos experimentos anteriores estudian la visualización de la distribución binaria y el siguiente estudia la visualización de los resultados de agregación de tres variables.
La visualización de datos en perspectiva se puede lograr a través de la interfaz sns.heatmap. El principio es asignar diferentes bloques de colores al valor del resultado de la perspectiva para visualizar su valor y cuantificar su valor a través de la herramienta de barra de color.
Los dos experimentos anteriores presentan intuitivamente la tendencia cambiante de la temperatura máxima diaria media en cada estado a lo largo de los años. No hay ningún cambio obvio con respecto a la figura.
Utilicemos el método de la prueba t para comprobar si existe una diferencia estadísticamente significativa. La interfaz Stats.ttest_ind puede generar estadísticas de prueba de significancia y valores P de los principales indicadores climáticos en 1980 y 2010.
Se puede ver en los resultados:
Los resultados de la prueba niegan la hipótesis original de precipitaciones iguales, es decir, las precipitaciones en los Estados Unidos son diferentes entre 1980 y 2010. No se puede negar que la suposición original de que la insolación promedio diaria y la temperatura máxima promedio diaria son iguales indica que no hay cambios significativos en la temperatura.