Serie de aprendizaje de clasificación de textos sobre procesamiento del lenguaje natural (2)

Respuesta 1: La longitud promedio del texto es de 872 caracteres, la mínima es de 64 caracteres, la máxima es de 7125 caracteres y la mayoría tiene menos de 1000.

Las relaciones correspondientes de las etiquetas en el conjunto de datos son las siguientes: { 'Tecnología': 0, 'Acciones': 1, 'Deportes': 2, 'Entretenimiento': 3, 'Asuntos de actualidad' : 4, 'Sociedad': 5. 'Educación': 6. 'Finanzas': 7. 'Inicio':

Respuesta 2: Se puede observar que "Deportes" y "Acciones" representan el La proporción más alta, seguida de "Tecnología" y "Entretenimiento", la distribución de categorías no es muy equilibrada.

Respuesta 3: Los caracteres más frecuentes son un promedio de 30 veces por artículo. Los caracteres de alta frecuencia probablemente sean signos de puntuación o palabras vacías y deben filtrarse.

Tarea para este capítulo

上篇: Cómo pronunciar la palabra "Lei" 下篇: "Tío": ¿Cómo desenterrar una constelación escondida en 12?