Constellation Knowledge Network - Preguntas y respuestas sobre Bagua - Caso de análisis estadístico de SPSS: red neuronal perceptrón multicapa

Caso de análisis estadístico de SPSS: red neuronal perceptrón multicapa

Caso de análisis estadístico de SPSS: red neuronal perceptrón multicapa

El modelo de red neuronal se originó a partir del estudio de la forma de pensar del cerebro humano. Es una herramienta de modelado de datos no lineal. Las neuronas constan de una capa de entrada, una capa de salida y una o más capas ocultas, y las conexiones entre neuronas reciben los pesos correspondientes. Los algoritmos de entrenamiento y aprendizaje ajustan continuamente estos pesos en un proceso iterativo, minimizando así los errores de predicción y brindando precisión en la predicción.

En las redes neuronales de SPSS existen dos métodos: el perceptrón multicapa (MLP) y la función de base radial (RBF).

Este número estudia principalmente redes neuronales perceptrón multicapa. Es difícil de explicar. Para sentir intuitivamente su función, comenzamos con un caso y luego resumimos el conocimiento.

Datos de casos

Este archivo de datos se relaciona con las medidas tomadas por los bancos para reducir las tasas de incumplimiento de los préstamos. El documento contiene información financiera y demográfica de 700 clientes que recibieron préstamos en el pasado. Cree un modelo de red neuronal de perceptrón multicapa utilizando estas muestras aleatorias de 700 clientes. Los bancos necesitan este modelo para clasificar los datos de nuevos clientes según su riesgo crediticio alto o bajo.

Analizar primero: Parámetros del menú

Para ejecutar un análisis de perceptrón multicapa, seleccione en el menú:

Análisis>Redes neuronales>Perceptrón multicapa

Como se muestra en la figura anterior, el panel principal de MLP * * * tiene ocho pestañas, de las cuales se deben configurar al menos cinco pestañas: "Variables", "Partición", "Salida", "Guardar" y "Exportar". " , otros aceptan la configuración predeterminada del software.

▌Pestaña "Variables"

Mueva "Predeterminado" al cuadro de variable dependiente;

Mueva la variable categórica "Educación" al cuadro de factor, y otras Las variables numéricas se mueven al cuadro "Covarianza";

Debido a que las dimensiones de las covariables son diferentes, se selecciona "Estandarización";

▌Pestaña "Partición"

Antes de eso, expliquemos en "Conversión" en el menú del generador de números aleatorios, la semilla fija del número aleatorio se establece en 9191972 (esto es lo mismo que el documento oficial de SPSS, el usuario puede configurarlo libremente). ), porque en la página "Partición" La firma requiere un muestreo aleatorio de los archivos de datos originales y dividir los datos en tres partes: "muestras de entrenamiento", "muestras de soporte" y "muestras de prueba", por lo que el proceso aleatorio se puede repetir.

Durante el modelado inicial, el 70% de las muestras se utilizarán como muestras de entrenamiento para completar el autoaprendizaje y construir el modelo de red neuronal, y el 30% se utilizarán como muestras de soporte para evaluar el rendimiento de la modelo establecido no se asignarán muestras de prueba por el momento

p>

▌Pestaña "Salida"

Ver "Descripción" y "Gráfico";

Ver "Resumen del modelo", "Resultados de clasificación" y "Mapa medido previsto";

Ver "Resumen de procesamiento de casos";

Constituye "Análisis de importancia de variable independiente";

Este es el primer análisis tentativo. Los parámetros principales se configuran como se indica arriba y otras pestañas aceptan la configuración predeterminada del software. Finalmente, regrese al panel principal y haga clic en "Aceptar" para iniciar el proceso MLP.

Los resultados del primer análisis:

Los principales resultados son los siguientes:

La tabla resumen de procesamiento de casos registra 700 clientes de préstamos, de los cuales 480 clientes son asignados a muestras de capacitación, lo que representa el 68,6%, y otros 220 clientes fueron asignados a muestras de soporte.

Según la tabla de resumen del modelo, el porcentaje de predicción de error del modelo de red neuronal MLP construido por primera vez es del 12,7%, y el porcentaje de error del modelo de prueba de muestra de soporte independiente es del 20,9%, lo que indica que se ha excedido el número máximo de cursos de tiempo y el modelo Se suspenden reglas anormales, lo que indica sospecha de sobreaprendizaje.

Sentencia: Es necesario evitar que el modelo construido por primera vez se sobreentrene.

Segundo análisis: parámetros del menú

Se sospecha que el primer análisis está sobreentrenado, por lo que el segundo análisis principalmente agrega muestras de prueba y genera los resultados finales del modelo.

Para ejecutar un análisis de perceptrón multicapa, seleccione en el menú:

Análisis>Redes neuronales>Perceptrón multicapa

▌Pestaña Partición

Redistribuya las muestras, un total de 700 muestras, el 30% de las muestras de soporte, el 50% de las muestras de capacitación se reducen del 70% y el otro 20% se asigna al espacio de muestra de prueba independiente;

▌ pestaña "Guardar"

Guardar el valor o categoría predicha de cada variable dependiente;

Guardar la cuasi probabilidad predicha de cada variable dependiente;

▌"Salir" de la etiqueta

Exportar los pesos sinápticos estimados a un archivo XML;

Nombre el archivo de modelo XML y especifique la ruta de almacenamiento;

Las operaciones de otras pestañas son las mismas que las de Capítulo 1 Un análisis es consistente. Regrese al panel principal y haga clic en "Aceptar" para iniciar el segundo análisis.

Los resultados del primer análisis:

La relación de distribución de la muestra total en las tres particiones.

Diagrama de red neuronal MLP El modelo incluye 1 capa de entrada, 1 capa oculta y 1 capa de salida. El número de neuronas en la capa de entrada es 12, 9 capas ocultas y 2 capas de salida.

Según la tabla de resumen del modelo, el error del modelo no se optimizó ni se redujo en 1 paso consecutivo, y el modelo se finalizó según lo programado. El porcentaje de predicciones incorrectas de los modelos en las tres particiones es cercano.

En la tabla de clasificación del modelo, el software utiliza 0,5 como límite de probabilidad de incumplimiento correcto o incorrecto, compara la precisión de las muestras en las tres regiones principales y muestra que la predicción es no, que es decir, la probabilidad de no incumplir es mayor que la de incumplir. Las capacidades de identificación de riesgos del modelo para los clientes de préstamos incumplidos son bajas.

Gráfico pronóstico-real, los clientes de préstamos se agrupan según si están en mora y los resultados de la predicción. El eje vertical es la probabilidad prevista. Cuando el límite es 0,5, el efecto de identificación de los clientes de alta calidad es mejor, pero la probabilidad de error en la identificación de los clientes morosos es mayor.

Evidentemente, tomar 0,5 como línea divisoria no es la solución óptima. Podemos intentar bajar la línea divisoria a aproximadamente 0,3, lo que reclasificará correctamente a un gran número de clientes en el diagrama del cuarto cuadro como deudores y mejorará las capacidades de identificación de riesgos.

Un gráfico de importancia de variable independiente, que es un gráfico de barras de los valores de la tabla de importancia, ordenados en orden descendente de valor de importancia. Muestra que las variables relacionadas con la estabilidad del cliente (empleo, dirección) y la deuda (deuda crediticia, deuda) tienen un fuerte impacto en cómo la red clasifica a los clientes.

Finalmente, vea el archivo de modelo XML exportado:

El segundo modelo de red neuronal MLP se almacena en el archivo XML y se puede utilizar para la clasificación de nuevos clientes y la identificación de riesgos.

Clasificación de nuevos clientes

Supongamos que hay 150 nuevos clientes y es necesario utilizar el modelo previamente establecido para clasificar e identificar rápidamente los riesgos de estos clientes.

Abra los datos de nuevos clientes y seleccione en el menú:

Utilidades>Asistente de calificación

Escriba "archivo XML" y haga clic en "Siguiente":

p>

Compruebe si la definición de las nuevas variables del archivo de datos es precisa. Siguiente paso.

Seleccione la salida "Probabilidad de clase prevista" y "Valor previsto". Hecho.

Se han agregado tres nuevas columnas al archivo de datos del nuevo cliente, que brindan la probabilidad prevista y la clasificación de riesgo de cada nuevo cliente (si debe un préstamo).

Una revisión de las redes neuronales de perceptrones multicapa

Tecnología de aprendizaje supervisado Feedforward;

Los perceptrones multicapa pueden descubrir relaciones extremadamente complejas;

Si la variable dependiente es categórica, la red neuronal clasificará los registros en la categoría más apropiada según los datos de entrada;

Si la variable dependiente es continua, el valor continuo predicho por la red es un función continua de los datos de entrada;

Se recomienda crear tres particiones de soporte de prueba y capacitación, y la capacitación y el aprendizaje en línea serán más efectivos;

El modelo se puede exportar a Formato XML para facilitar la puntuación de nuevos datos;

上篇: ¿Clid ha ganado alguna vez el campeonato de clase S? 下篇: Leo, ¿la lotería se otorga por orden de llegada?
Artículos populares