Questão 27 Comentada - SEDUC-SP - Eixo IV Tec da Informação (Cursos de Ciência de Dados e Desenvolvimento de Sistemas) - FGV (2025)

O programa em linguagem Python a seguir realiza a tokenização de uma pequena frase.


Descrevendo-o de modo superficial, é implementada nele a importação da biblioteca NLTK (Natural Language Toolkit), que é especializada no tratamento de processamento de linguagem natural.


Para evitar qualquer sobrecarga, é utilizada especificamente a função word_tokenize do submódulo (package) nltk.tokenize da biblioteca nltk.


É definida uma variável do tipo string nomeada como 'texto', que contém a seguinte frase em língua portuguesa: “Tokenização é o processo de dividir textos em unidades menores. Tais unidades são nomeadas como: Tokens”.


A função word_tokenize é utilizada para dividir o conteúdo da variável 'texto' em partes individuais (tokens) as quais são colocadas na lista 'tokens', com o argumento language ='portuguese' especificando que o texto está em língua portuguesa, e assim garantindo que o modelo de tokenizador correto será utilizado.


Ao final, a frase tokenizada é então exibida na tela do usuário.


A quantidade total de tokens exibidos na saída será de


  • A 103.
  • B 18
  • C 16.
  • D 20.
  • E 88.