Questão 5 Comentada - Comissão de Valores Mobiliários (CVM) - Analista CVM - Perfil 7 - Ciência de Dados - Tarde - FGV (2024)

Um cientista trabalha em um projeto de cibersegurança no qual deve identificar atividades de rede incomuns, que podem indicar possíveis ameaças de segurança. Após coletar dados sobre o tráfego de rede, o cientista percebe que alguns pontos de dados exibem padrões significativamente diferentes da maioria.

O método que deve ser aplicado para detectar as anomalias, identificando outliers isolados nos dados e possíveis ameaças de segurança, é o:

  • A Isolation Forest;
  • B Box Plot (IQR);
  • C Local Outlier Factor (LOF);
  • D do desvio padrão;
  • E DBSCAN (Density-Based Spatial Clustering of Applications with Noise).

Gabarito comentado da Questão 5 - Comissão de Valores Mobiliários (CVM) - Analista CVM - Perfil 7 - Ciência de Dados - Tarde - FGV (2024)

A questão trata da identificação de anomalias em dados de tráfego de rede para cibersegurança.

A alternativa correta é A - Isolation Forest.

Justificativa:

A Isolation Forest é um algoritmo de aprendizado de máquina projetado para identificar anomalias. Ele isola pontos de dados através de particionamentos aleatórios, e como anomalias são menos frequentes e distintas, são isoladas mais rapidamente.

Explicação das alternativas incorretas:

B - Box Plot (IQR): Usa o IQR para identificar outliers, mas é mais adequado para análise exploratória e não para cenários complexos de cibersegurança.

C - Local Outlier Factor (LOF): Mede a densidade local de um ponto em relação aos seus vizinhos. É eficaz, mas mais complexo e computacionalmente intensivo que a Isolation Forest, sendo menos ideal para grandes volumes de dados.

D - Desvio Padrão: Assume distribuição normal dos dados, o que nem sempre é verdade em tráfego de rede. Menos eficaz em distribuições não normais ou com padrões complexos.

E - DBSCAN (Density-Based Spatial Clustering of Applications with Noise): Método de clustering que agrupa dados por densidade. Exige parâmetros específicos, desvantagem em cenários dinâmicos como tráfego de rede.