O programa em linguagem Python a seguir realiza a tokenização de uma pequena frase.
Descrevendo-o de modo superficial, é implementada nele a importação da biblioteca NLTK (Natural Language Toolkit), que é especializada no tratamento de processamento de linguagem natural.
Para evitar qualquer sobrecarga, é utilizada especificamente a função word_tokenize do submódulo (package) nltk.tokenize da biblioteca nltk.
É definida uma variável do tipo string nomeada como 'texto', que contém a seguinte frase em língua portuguesa: “Tokenização é o processo de dividir textos em unidades menores. Tais unidades são nomeadas como: Tokens”.
A função word_tokenize é utilizada para dividir o conteúdo da variável 'texto' em partes individuais (tokens) as quais são colocadas na lista 'tokens', com o argumento language ='portuguese' especificando que o texto está em língua portuguesa, e assim garantindo que o modelo de tokenizador correto será utilizado.
Ao final, a frase tokenizada é então exibida na tela do usuário.
A quantidade total de tokens exibidos na saída será de
- A 103.
- B 18
- C 16.
- D 20.
- E 88.