Questão 27 do Concurso SEDUC-SP - Eixo IV Tec da Informação (Cursos de Ciência de Dados e Desenvolvimento de Sistemas) - FGV (2025)

Programação Linguagens de programação

SEDUC-SP - Eixo IV Tec da Informação (Cursos de Ciência de Dados e Desenvolvimento de Sistemas) - FGV (2025)

O programa em linguagem Python a seguir realiza a tokenização de uma pequena frase.

Descrevendo-o de modo superficial, é implementada nele a importação da biblioteca NLTK (Natural Language Toolkit), que é especializada no tratamento de processamento de linguagem natural.

Para evitar qualquer sobrecarga, é utilizada especificamente a função word_tokenize do submódulo (package) nltk.tokenize da biblioteca nltk.

É definida uma variável do tipo string nomeada como 'texto', que contém a seguinte frase em língua portuguesa: “Tokenização é o processo de dividir textos em unidades menores. Tais unidades são nomeadas como: Tokens”.

A função word_tokenize é utilizada para dividir o conteúdo da variável 'texto' em partes individuais (tokens) as quais são colocadas na lista 'tokens', com o argumento language ='portuguese' especificando que o texto está em língua portuguesa, e assim garantindo que o modelo de tokenizador correto será utilizado.

Ao final, a frase tokenizada é então exibida na tela do usuário.

A quantidade total de tokens exibidos na saída será de

A 103.
B 18
C 16.
D 20.
E 88.

Questão 27 Comentada - SEDUC-SP - Eixo IV Tec da Informação (Cursos de Ciência de Dados e Desenvolvimento de Sistemas) - FGV (2025)

Programação Linguagens de programação

SEDUC-SP - Eixo IV Tec da Informação (Cursos de Ciência de Dados e Desenvolvimento de Sistemas) - FGV (2025)

Questões relacionadas ao concurso do SEDUC-SP Eixo IV Tec da Informação (Cursos de Ciência de Dados e Desenvolvimento de Sistemas)