Artículo: Agrupación bilineal jerárquica para un reconocimiento visual detallado

El reconocimiento visual detallado es un desafío porque depende en gran medida del modelado de varias partes semánticas y del aprendizaje de características detallado. Se ha demostrado que los modelos basados en agrupación bilineal son efectivos en el reconocimiento detallado, pero la mayoría de los métodos anteriores ignoran el hecho de que algunas interacciones de características entre capas y el aprendizaje de características detallado están interrelacionadas y se refuerzan mutuamente. Este artículo propone un nuevo modelo para abordar estos problemas. Primero, se propone un método de agrupación bilineal entre capas para capturar las relaciones de características de las partes entre capas. Tiene un mejor rendimiento en comparación con otros métodos basados en agrupación bilineal. En segundo lugar, proponemos una nueva estructura de agrupación bilineal jerárquica que integra múltiples características bilineales entre capas para mejorar su capacidad de representación. Nuestra formulación es intuitiva y eficaz y logra resultados de última generación en conjuntos de datos de reconocimiento detallados ampliamente utilizados.

El método de utilizar características locales en una clasificación detallada tiene limitaciones importantes.

Por lo tanto, se utiliza un método de clasificación que utiliza etiquetas a nivel de imagen. Por ejemplo, Simon y Rodner [26] propusieron un modelo de constelación que utiliza redes neuronales convolucionales (CNN) para encontrar la constelación de patrones de activación neuronal. Zhang et al. [36] propusieron un método automático de clasificación de imágenes de grano fino que combina filtros convolucionales profundos para seleccionar y describir componentes. Estos modelos utilizan CNN como detectores locales y logran grandes mejoras en el reconocimiento detallado. A diferencia de los métodos basados en componentes, tratamos las activaciones de diferentes capas convolucionales como respuestas a diferentes propiedades de los componentes. En lugar de apuntar explícitamente al componente objetivo, utilizamos la agrupación bilineal entre capas para capturar las interacciones entre capas de las propiedades de los componentes. ser muy útil para el reconocimiento detallado.

También hay estudios [3, 6, 17, 12] que introducen un marco de agrupación bilineal para modelar objetos locales. Aunque se han informado algunos resultados prometedores, las mejoras adicionales todavía tienen las siguientes limitaciones. En primer lugar, la mayoría de los modelos existentes basados en agrupación bilineal solo utilizan la activación de la última capa convolucional como representación de la imagen, lo que no es suficiente para describir la parte semántica del objeto. En segundo lugar, se ignoran las actividades convolucionales intermedias, lo que da como resultado la pérdida de información discriminativa para la clasificación de grano fino, que es de gran importancia para el reconocimiento visual de grano fino.

Como todos sabemos, CNN sufre pérdida de información. Para minimizar la pérdida de información útil para el reconocimiento detallado, proponemos una nueva estructura de agrupación bilineal jerárquica para integrar múltiples características bilineales entre capas para mejorar sus capacidades de representación. Para aprovechar al máximo las activaciones de las capas convolucionales intermedias, todas las características bilineales entre capas se concatenan antes de la clasificación final. Tenga en cuenta que las características de diferentes capas convolucionales son complementarias y contribuyen al aprendizaje de características discriminativas. Por lo tanto, la red se beneficia del refuerzo mutuo de las interacciones de características entre capas y del aprendizaje de características detallado. Nuestras contribuciones se resumen a continuación:

1. Desarrollamos una técnica de agrupación bilineal entre capas simple pero efectiva, que admite la interacción de características entre capas y aprende representaciones detalladas de una manera que se refuerza mutuamente.

2. Se propone un marco de agrupación bilineal jerárquico basado en la agrupación bilineal entre capas, que integra múltiples módulos bilineales entre capas para obtener información complementaria de la capa convolucional intermedia, mejorando así el rendimiento.

3. Realizamos experimentos integrales en tres conjuntos de datos desafiantes (nido, automóvil Stanford y avión FGVC) y los resultados demuestran la superioridad de nuestro método.

El resto de este artículo está organizado de la siguiente manera. La segunda parte es una revisión del trabajo relacionado. La sección 3 presenta el método propuesto. La Sección 4 brinda los experimentos y el análisis de los resultados, y la Sección 5 brinda la conclusión.

En el próximo artículo, revisaremos brevemente el trabajo anterior desde dos perspectivas interesantes relacionadas con nuestro trabajo, incluido el aprendizaje detallado de características y la fusión de características en CNN.

1. Para modelar mejor las diferencias sutiles de las categorías detalladas, Lin et al. [17] propusieron una estructura bilineal para agregar características por pares a través de dos CNN independientes. Esta estructura utiliza el producto externo de vectores de características para generar una característica de expansión cuadrática de muy alta dimensión.

2. Gao et al. [23] utilizaron tensores para aproximar estadísticas de segundo orden y reducir la dimensión de la característica.

3. Kong et al. utilizaron una aproximación de rango bajo a la matriz de covarianza para reducir aún más la complejidad computacional.

4. Yin et al. agregaron estadísticas de orden superior aplicando iterativamente compresión de boceto tensor a las características.

5. El trabajo de [22] toma la red neuronal convolucional bilineal como modelo de referencia y utiliza el método de aprendizaje por conjuntos para ponderarla.

6. La normalización de matrices con raíz cuadrada se propuso en [16] y demostró ser complementaria a las normalizaciones existentes.

Sin embargo, estos métodos solo consideran las características de una única capa convolucional, lo que no es suficiente para capturar varias partes discriminativas del objeto, ni para modelar las diferencias sutiles entre subcategorías. Nuestro método supera esta limitación al combinar la interacción de características de capa a capa y el aprendizaje de características detallado de una manera que se refuerza mutuamente y, por lo tanto, es más efectivo.

3, 7, 19, 33 estudian la efectividad de diferentes mapas de características de capas convolucionales en CNN.

Los autores tratan cada capa convolucional como un extractor de atributos de partes de objetos no utilizadas, modelando sus interacciones directas de una manera intuitiva y eficiente.

En esta sección, construimos un modelo bilineal jerárquico para superar las limitaciones anteriores. Antes de proponer nuestro modelo bilineal jerárquico, primero presentamos la formulación general de agrupación bilineal factorizada para el reconocimiento de imágenes de grano fino en la Sección 3.1. Sobre esta base, propusimos la tecnología de agrupación bilineal entre capas en la Sección 3.2 para aprender conjuntamente las activaciones de diferentes capas convolucionales y capturar la interacción de información entre capas, obteniendo así mejores capacidades de representación. Finalmente, nuestro modelo bilineal jerárquico combina múltiples módulos bilineales de capas cruzadas para generar descripciones de piezas más detalladas, lo que permite un mejor reconocimiento detallado.

La descomposición de la agrupación bilineal se ha aplicado a la tarea de responder preguntas visuales. Kim et al. [11] propusieron un método de aprendizaje multimodal eficaz utilizando la descomposición del producto de Hadamard de la agrupación bilineal. el mecanismo. Se presenta la formulación básica de la técnica de agrupación bilineal factorizada para el reconocimiento de imágenes de grano fino. Supongamos que el mapa de características de salida de la capa convolucional después de que CNN filtra una imagen I es X Rh w c, H, W, C. Expresamos el descriptor dimensional C de la posición espacial en X como., XC] T

donde Wi es la matriz de proyección y Zi es la salida del modelo bilineal. Necesitamos aprender W = [W1, W2, ..., Wo] y obtener una salida O-dimensional z. De acuerdo con la descomposición matricial en [24], la matriz de proyección Wi en la ecuación. (1) se puede descomponer en dos vectores de un solo rango.

Donde Ui ∈ Rc y Vi ∈ Rc. Por lo tanto, la característica de salida z ∈ Ro viene dada por

donde U Rc d y V Rc d son las matrices de proyección, P Rd o es la matriz de clasificación, o es el producto de Hadamard y d es el factor determinante. Dimensión de incrustación conjunta.

Las subcategorías de grano fino a menudo tienen apariencias similares y sólo pueden distinguirse por diferencias sutiles en los atributos locales, como el color, la forma o la longitud del pico del ave. La agrupación bilineal es una importante técnica de reconocimiento detallado. Sin embargo, la mayoría de los modelos bilineales solo se centran en aprender características de una única capa convolucional, ignorando por completo la interacción de información entre capas. La activación de una única capa convolucional es incompleta porque cada parte del objeto tiene múltiples propiedades que son importantes para la clasificación molecular de la región.

De hecho, en la mayoría de los casos, necesitamos considerar múltiples factores de las características de la pieza para determinar la clase de una imagen determinada. Por lo tanto, para capturar algunas características más detalladas, desarrollamos un método de agrupación bilineal entre capas, tratando cada capa convolucional en CNN como un extractor de atributos parcial. Luego, las características de diferentes capas convolucionales se integran mediante la multiplicación de elementos y se establece un modelo de interacción entre capas de algunos atributos. Según la fórmula (3), se puede reescribir como:

La agrupación bilineal entre capas propuesta en la Sección 3.2 es intuitiva y efectiva, y su capacidad de representación es mejor que la agrupación bilineal tradicional sin aumentar los parámetros de entrenamiento. Modelo de piscina sexual. Esto nos aclara que explotar la interacción de las características entre capas entre diferentes capas convolucionales es beneficioso para capturar las propiedades distintivas entre subcapas de grano fino. Por lo tanto, ampliamos la agrupación bilineal entre capas para integrar más capas convolucionales intermedias, mejorando aún más la velocidad de representación de características.

En esta sección, proponemos un modelo bilineal jerárquico generalizado para combinar características de capas más convolucionales conectando en cascada múltiples módulos de agrupación bilineales entre capas. Específicamente, dividimos el módulo de agrupación bilineal entre capas en la etapa de interacción y la etapa de clasificación, y la fórmula es la siguiente:

donde p es la matriz de clasificación, U, V, S, ... son las características de la capa convolucional respectivamente. Matriz de proyección de los vectores x, y, z,…. El proceso general del marco del PBS se muestra en la Figura 1.

En esta sección, evaluamos el desempeño del modelo HBP en registros detallados. La Sección 4.1 presenta primero el conjunto de datos y los detalles de implementación de HBP. En la Sección 4.2, se realiza un estudio de configuración del modelo para investigar la efectividad de cada componente. La sección 4.3 ofrece una comparación con los métodos más recientes. Finalmente, en la Sección 4.4, se utiliza la visualización cualitativa para explicar visualmente nuestro modelo.

Conjuntos de datos: cub200-201130, StandFordcars15, FGVC-Aircraft21.

Experimento: se evalúa HBP utilizando el modelo de referencia VGG-16 previamente entrenado en el conjunto de datos de clasificación ImageNet y se eliminan las últimas tres capas completamente conectadas. También se puede aplicar a Inception y ResNet con un tamaño de imagen de entrada de 448. Nuestra expansión de datos sigue la práctica habitual de utilizar muestreo aleatorio (cortar 448 de 512 S, donde S es el borde más grande de la imagen) y volteo horizontal en el entrenamiento, y utilizar solo cortes centrales en la inferencia. Primero usamos la regresión logística para entrenar al clasificador y luego usamos el método de descenso de gradiente estocástico con un tamaño de lote de 16, un impulso de 0,9, una caída de peso de 5 · 10 4 y una tasa de aprendizaje de 10 3 para ajustar todo red, y recocido periódico de 0,5.

La agrupación bilineal entre capas (CBP) tiene una dimensión de proyección D definida por el usuario. Para estudiar el impacto de D y verificar la efectividad del marco propuesto, utilizamos datos cub200-2011[30]. Se han realizado una gran cantidad de experimentos en el set y los resultados se muestran en la Figura 2. Tenga en cuenta que utilizamos relu5 3 de FBP, relu5 2 y relu5 3 de CBP, y relu5 1, relu5 2 y relu5 3 de HBP para obtener los resultados en la Figura 2. También proporcionamos experimentos cuantitativos sobre la selección de capas a continuación. En VGG-16 [27], nos centramos principalmente en relu5 1, relu5 2 y relu5 3 porque sus capas poco profundas contienen información de significado más parcial. En la Figura 2, comparamos el desempeño de CBP y el modelo de agrupación bilineal factorizado (FBP) general. Sobre esta base, exploramos más a fondo el método HBP combinado de múltiples capas. Finalmente, analizamos los factores que influyen en el hiperparámetro d. De la Figura 2, podemos sacar las siguientes conclusiones importantes:

Primero, bajo el mismo D, nuestro CBP es significativamente mejor que FBP, lo que ilustra la interacción entre. Las características en cada capa pueden mejorar las capacidades de reconocimiento.

En segundo lugar, HBP es aún superior a CBP, lo que demuestra que la activación de la capa convolucional intermedia es eficaz para el reconocimiento detallado. Esto puede explicarse por la pérdida de información en el proceso de propagación de las redes neuronales celulares, por lo que las características de reconocimiento que son importantes para el reconocimiento detallado pueden perderse en las capas convolucionales intermedias. En comparación con CBP, nuestro HBP considera más interacciones de características de capas convolucionales intermedias y, por lo tanto, es más robusto porque HBP muestra el mejor rendimiento. En los siguientes experimentos, se compara HBP con otros métodos más modernos.

En tercer lugar, cuando d cambia de 512 a 8192, aumentar d puede mejorar la precisión de todos los modelos y HBP alcanza la saturación d = 8192. Por lo tanto, d = 8192.

Luego, realizamos experimentos cuantitativos en el conjunto de datos cub200-2011[30] para analizar los factores que influyen en esta capa. La precisión en la Tabla 2 se obtiene bajo la misma dimensión de incrustación (d = 8192). Consideramos la combinación de PBC y HBP en diferentes niveles. Los resultados muestran que la ganancia de rendimiento del marco proviene principalmente de la interacción entre capas y la composición de múltiples capas.

Debido a que HBP-3 mostró el mejor rendimiento, utilizamos relu5 1, relu5 2 y relu5 3 en todos los experimentos de la Sección 4.3.

También comparamos nuestro conjunto de capas cruzadas con la fusión de elementos finitos basada en supersecuencias [3]. Para una comparación justa, reconsideramos la supersecuencia como la conexión de características de relu5 3 y relu5 2, y luego descomponemos la agrupación bilineal (llamada HyperBP) bajo las mismas configuraciones experimentales. Como se puede ver en la Tabla 3, los resultados de nuestro CBP son ligeramente mejores que los de HyperBP, cerca de la mitad de los parámetros, lo que nuevamente muestra que nuestro marco de conjunto es más efectivo para capturar las relaciones de características entre capas. Esto no es sorprendente ya que nuestro PFC es consistente con la percepción humana hasta cierto punto. A diferencia del algoritmo HyperBP, al integrar más activaciones de capas convolucionales [3], los resultados son peores. Nuestro algoritmo HBP puede capturar información complementaria de la capa convolucional intermedia y la precisión del reconocimiento mejora significativamente.

Resultadoscub-200-2011. El conjunto de datos CUB proporciona anotaciones reales de cuadros delimitadores y partes de aves. La única información de seguimiento que utilizamos son las etiquetas de clase a nivel de imagen. La precisión de la clasificación de cub200-2011 se muestra en la Tabla 4. La tabla se divide en tres partes por filas: la primera parte resume los métodos basados en anotaciones (utilizando cuadros delimitadores de objetos o anotaciones de partes); se dan.

Como se puede ver en los resultados de la Tabla 4, PN-CNN [2] utiliza cuadros delimitadores definidos por humanos y una poderosa supervisión de verdad sobre el terreno. SPDA-CNN [35] usa la parte de verdad fundamental y B-CNN [17] usa cuadros delimitadores con representación de características de muy altas dimensiones (250K dimensiones). En comparación con PN-CNN [2], SPDA-CNN [35] y B-CNN [17], el HBP propuesto (relu5 3 relu5 2 relu5 1) puede lograr mejores resultados incluso sin considerar bbox y la interferencia parcial. La efectividad de nuestro modelo está demostrado. En comparación con STN [9], utilizando una red inicial más fuerte como modelo de referencia, obtenemos una presión arterial familiar de 3,6 en relación con la identidad del pastor asistente ac (relu5 3 relu5 2 relu5 1). Incluso superamos a RA-CNN [5] y MA-CNN [37], que recientemente propusieron métodos de causalidad parcial no supervisados de última generación con una precisión relativa de 2,1 y 0,7 respectivamente. En comparación con las líneas de base B-CNN [17], CBP [6] y LRBP [12] basadas en grupos, nos beneficiamos principalmente de mejores interacciones entre capas y la integración multicapa de las características resultantes. También superamos a BoostCNN [22], que puede impulsar múltiples redes bilineales entrenadas en múltiples escalas. Aunque HIHCA [3] propuso una idea similar al modelo de interacción de características para el reconocimiento detallado, nuestro modelo puede lograr una mayor precisión debido al marco de promoción mutua de la interacción de características y el aprendizaje discriminativo de características entre capas. Tenga en cuenta que HBP (relu5 3 relu5 2 relu5 1) funciona mejor que CBP (relu5 3 relu5 2) y FBP (relu5 3), lo que muestra que nuestro modelo puede capturar información complementaria entre capas.

Un resultado de Stanford Motors. La precisión de la clasificación de los automóviles de Stanford se muestra en la Tabla 5. Las distintas piezas de un automóvil son diferentes y complementarias, por lo que la localización de objetos y piezas puede desempeñar un papel importante en este caso. Aunque nuestro HBP no tiene una detección parcial clara, nuestros resultados de detección son los mejores entre los métodos de detección de última generación actuales. Basándonos en el aprendizaje interactivo de las características entre capas, incluso mejoramos la precisión relativa en 1,2 con respecto a PA-CNN [13], que utiliza cuadros delimitadores definidos artificialmente. Podemos observar mejoras significativas en comparación con los métodos basados en piezas no supervisados. Nuestro HBP también supera a los métodos basados en agrupación BoostCNN [22] y KP [4].

ResultadosFGVC-Aeronaves.

Los diferentes modelos de aviones son difíciles de identificar debido a diferencias sutiles, como contar el número de ventanas del modelo. La Tabla 6 resume la precisión de la clasificación de las aeronaves FGVC. No obstante, nuestro modelo ha logrado un rendimiento de última generación y la mayor precisión de clasificación entre todos los métodos. En comparación con el método MDTP [32] basado en anotaciones, el método MA-CNN [37] basado en aprendizaje parcial y el método BoostCNN [22] basado en agrupación, podemos observar una mejora constante, lo que resalta las ventajas del HBP propuesto. efectividad y robustez del modelo.

Para comprender mejor nuestro modelo, ajustamos visualmente las respuestas del modelo de diferentes capas de la red en diferentes conjuntos de datos. Al calcular la amplitud promedio de las activaciones de características, se obtienen los canales del mapa de activación. En la Figura 3, seleccionamos aleatoriamente algunas imágenes de tres conjuntos de datos diferentes y las visualizamos.

Todos los resultados de visualización muestran que el modelo propuesto puede reconocer fondos desordenados y se activa fuertemente en escenas muy específicas. Las áreas de actividad resaltadas en los Elementos 1, 2 y 3 están estrechamente relacionadas con partes semánticas como la cabeza, las alas y el pecho del cachorro. Parachoques delantero de coche, ruedas, luces de cabina de avión, estabilizador de cola y motor. Estas partes son claves para diferenciar las categorías. Más importante aún, nuestro modelo es altamente consistente con la percepción humana y resuelve el problema detallado de percibir una escena u objeto. Como se puede ver en la Figura 3, la capa de deconvolución (relu5 1, relu5 2, relu5 3) proporciona la posición aproximada del objeto objetivo. Sobre esta base, la capa de proyección (proyecto5 1, proyecto5 2, proyecto5 3) determina aún más las partes esenciales del objeto y distingue sus categorías a través de la interacción e integración continua de las características de diferentes partes. Este proceso es consistente con la percepción y la naturaleza humanas [20] y está influenciado por el dicho de Gestalt: a lo largo de la sección anterior, también proporciona una explicación intuitiva de por qué la clasificación de nuestro modelo marco no es clara, la detección parcial y las diferencias locales.

Este artículo propone un método de agrupación bilineal jerárquico que combina la interacción entre capas y el aprendizaje de características discriminativas para lograr una fusión detallada de características multicapa. La red propuesta no requiere anotaciones de componentes/cuadros delimitadores y se puede entrenar de un extremo a otro. Amplios experimentos con pájaros, automóviles y aviones demuestran la eficacia de nuestro marco. En el futuro, ampliaremos nuestra investigación en dos direcciones. Cómo integrar de manera efectiva más funciones de capa para obtener una representación de piezas a múltiples escalas y cómo combinar métodos efectivos de posicionamiento de piezas para aprender una mejor representación detallada.

上篇: 下篇: Ocho cosas a tener en cuenta en el diseño Feng Shui de la oficina del jefe