Serie de aprendizaje de clasificación de textos sobre procesamiento del lenguaje natural (2)
Las relaciones correspondientes de las etiquetas en el conjunto de datos son las siguientes: { 'Tecnología': 0, 'Acciones': 1, 'Deportes': 2, 'Entretenimiento': 3, 'Asuntos de actualidad' : 4, 'Sociedad': 5. 'Educación': 6. 'Finanzas': 7. 'Inicio':
Respuesta 2: Se puede observar que "Deportes" y "Acciones" representan el La proporción más alta, seguida de "Tecnología" y "Entretenimiento", la distribución de categorías no es muy equilibrada.
Respuesta 3: Los caracteres más frecuentes son un promedio de 30 veces por artículo. Los caracteres de alta frecuencia probablemente sean signos de puntuación o palabras vacías y deben filtrarse.
Tarea para este capítulo