Paroski (una herramienta de procesamiento de lenguaje natural basada en Python)

Paroski es una herramienta de procesamiento de lenguaje natural basada en Python que ayuda a los usuarios a analizar y procesar texto. Admite muchas tareas de procesamiento del lenguaje natural, como etiquetado de partes del discurso, análisis sintáctico, reconocimiento de entidades nombradas, etc. Paroski es un proyecto de código abierto y su código fuente y documentación se pueden encontrar en GitHub.

Instalar Pawlowski.

Para utilizar Paroski, primero debes instalarlo. Instalar Paroski es muy simple, solo usa el comando pip. Ingrese el siguiente comando en la terminal:

```

pipi install-Unltk

```

Después de instalar nltk, necesitas descargar el paquete de datos de Paroski. Ingrese el siguiente comando en Python:

```

importnltk

nltk.download('punkt ')

nltk . (' promediado _ perceptron _ tagger ')

nltk download(' max ent _ ne _ chunker ')

nltk.download('palabras ')

```

Estos comandos descargarán los paquetes de datos necesarios para que Paroski pueda funcionar correctamente.

Utiliza el etiquetado de partes del discurso de Paroski.

El etiquetado de partes del discurso es el proceso de hacer coincidir cada palabra con su parte del discurso. Paroski puede ayudarnos a realizar el etiquetado de partes del discurso para comprender mejor el texto. Aquí hay un ejemplo simple:

```

importnltk

fromnltk . tokenize import word _ tokenize

text = " iamlinengnaturalguangprocessingwithpython "

tokens=word_tokenize(texto)

tagged=nltk.pos_tag(token)

Imprimir (con etiqueta)

` ``

Este código generará los siguientes resultados:

```

[('i','PRP'),('am',' VBP '), ('Aprendizaje', 'VBG'), ('Natural', 'JJ'), ('Lenguaje', 'NN'), ('Procesamiento', 'NN'), ('con',' IN ', (' Python ', ' NNP')]

```

Aquí cada palabra coincide con su parte gramatical. Por ejemplo, la parte gramatical de 'I' es. 'PRP', que significa pronombre personal. La parte gramatical de "am" es "VBP", que significa verbo.

Usar el reconocimiento de entidad nombrada

El reconocimiento de entidad nombrada es. Identificar nombres en el texto. Paroski puede ayudarnos a identificar entidades nombradas para comprender mejor el texto:

```

importnltk

fromnltk. _ tokenize

fromnltk.chunkimportne_chunk

text = " BarackObamanacióenHawái "

tokens=word_tokenize(texto)

etiquetado=nltk.pos_tag( token)

Entidad nombrada=ne_chunk(tagged)

Imprimir (entidad nombrada)

```

Este código generará el siguientes resultados:

```

(Personal Barak/NNP)

(PERSONObama/NNP)

nació/VBD

nació/VBN

en/en

(GPEHawaii/NNP))

```

El texto aquí contiene dos entidades nombradas: "Barack Obama" y "Hawaii". Pawlowski los denominó "persona" y "GPE", que representan nombres de personas y lugares, respectivamente.

Utiliza Paroski para análisis sintáctico.

El análisis sintáctico es el proceso de analizar la estructura de las oraciones. Pawlowski puede ayudarnos a hacer análisis sintácticos para comprender mejor el texto.

Aquí hay un ejemplo simple:

```

importnltk

fromnltk . tokenize importar palabra _ tokenize

fromnltkimportTree

text = " Isawthemanwiththetelescope "

tokens=word_tokenize(texto)

tagged=nltk.pos_tag(token)

grammar="NP: {? *}"

parser=nltk. RegexpParser (sintaxis)

tree=parser.parse (con etiqueta)

forsubtreeintree.subtrees():

ifsubtree.label()=='NP ' :

Imprimir (subárbol)

```

Este código generará los siguientes resultados:

```

(NPI/PRP)

(NPthe/DTman/NN)

(NPthe/DTtelescope/NN)

```

El texto aquí contiene tres frases nominales: "I", "theman" y "thetelescope". Pawlowski etiquetó a cada uno de ellos como "NP", que significa frase nominal.

上篇: Introducción al puente de la bahía de Huizhou 下篇: Nací el 4 de junio de 1990. ¿Cuál es mi signo del zodíaco?