Gabarito comentado da Questão 5 - Comissão de Valores Mobiliários (CVM) - Analista CVM - Perfil 7 - Ciência de Dados - Tarde - FGV (2024)
A questão trata da identificação de anomalias em dados de tráfego de rede para cibersegurança.
A alternativa correta é A - Isolation Forest.
Justificativa:
A Isolation Forest é um algoritmo de aprendizado de máquina projetado para identificar anomalias. Ele isola pontos de dados através de particionamentos aleatórios, e como anomalias são menos frequentes e distintas, são isoladas mais rapidamente.
Explicação das alternativas incorretas:
B - Box Plot (IQR): Usa o IQR para identificar outliers, mas é mais adequado para análise exploratória e não para cenários complexos de cibersegurança.
C - Local Outlier Factor (LOF): Mede a densidade local de um ponto em relação aos seus vizinhos. É eficaz, mas mais complexo e computacionalmente intensivo que a Isolation Forest, sendo menos ideal para grandes volumes de dados.
D - Desvio Padrão: Assume distribuição normal dos dados, o que nem sempre é verdade em tráfego de rede. Menos eficaz em distribuições não normais ou com padrões complexos.
E - DBSCAN (Density-Based Spatial Clustering of Applications with Noise): Método de clustering que agrupa dados por densidade. Exige parâmetros específicos, desvantagem em cenários dinâmicos como tráfego de rede.