Uma equipe do Ministério Alfa conduz um projeto baseado em Big Data para entender o perfil de acesso da população a atividades financiadas com recursos federais. A base integra milhões de registros oriundos de plataformas digitais de ingressos, editais culturais, visitas a museus federais e interações nas redes sociais de equipamentos culturais.
Como a pesquisa ainda não tem uma variável-alvo definida, o objetivo inicial é identificar grupos latentes de usuários com padrões semelhantes de comportamento, considerando variáveis como frequência de participação, região e faixa etária. Após essa etapa, a equipe pretende avaliar os fatores que contribuem para o engajamento cultural em regiões com baixa participação e, por fim, recomendar estratégias de ampliação de acesso.
Considerando os modelos multivariados, a natureza da base de dados e os objetivos e etapas propostos para a pesquisa, a equipe responsável deveria:
- A começar com análise de séries temporais desagregadas por faixa etária e, a partir delas, gerar agrupamentos por similaridade de comportamento;
- B aplicar análise prescritiva com base em redes neurais profundas desde o início, pois a ausência de variável-alvo impede o uso de aprendizado supervisionado;
- C iniciar com clusterização por k-médias, caracterizar os grupos com análise descritiva e, então, empregar regressão preditiva para estimar o impacto de intervenções;
- D utilizar agrupamento hierárquico para redução de dimensionalidade, seguido de técnicas de análise discriminante para prever padrões de engajamento futuro;
- E aplicar regressão logística sobre variáveis de participação por região e perfil, seguida de análise de variância, para testar diferenças estatísticas significativas entre os grupos.