Questões de Análise de Cluster (Estatística)

Estatística Análise Multivariada | Análise de Cluster

Empresa Brasileira de Pesquisa Agropecuária (EMBRAPA) - Analista Área: Métodos Quantitativos Avançados Subárea: Métodos Quantitativos - CESPE/CEBRASPE (2025)

A partir dessa situação hipotética, julgue o seguinte item.

A análise de clusters é uma técnica multivariada que permite prever a qualidade do ar (boa, moderada ou ruim), com base em variáveis independentes como, por exemplo, os níveis de poluentes e em fatores meteorológicos.

Certo
Errado

Estatística Análise Multivariada | Análise de Cluster

Tribunal de Contas do Estado do Piauí (TCE-PI) - Auditor de Controle Externo Controle Externo Específica de Tecnologia da Informação Sistemas, Engenharia de Dados e Ciência de Dados (Manhã) - FGV (2025)

No campo da mineração de dados existem alguns problemas fundamentais que costumam aparecer com frequência em variados cenários de aplicação. O estudo desses problemas fornece ferramentas ao analista de dados que são aplicáveis em diferentes projetos de mineração de dados. Nesse conjunto se encontram os problemas de determinação de padrões, classificação de dados, segmentação de dados (clustering) e detecção de valores discrepantes (outliers).
Considerando os problemas citados, analise as afirmativas a seguir.

I. Em uma tabela binária esparsa, que representa uma base de dados de transações de clientes, em que as colunas representam cada produto e as linhas cada transação, verifica-se que, frequentemente, três das colunas apresentam simultaneamente o valor 1 para vários registros. Este tipo de análise é um problema de detecção de valores discrepantes.

II. A identificação de consumidores que são similares entre si, para uso no contexto de aplicação de promoções orientadas, constitui um problema de segmentação de dados.

III. O problema de classificação de dados pode ser considerado como supervisionado, pelo fato das relações entre as classes definidas e os demais atributos dos dados serem “aprendidas” pelo modelo.

Está correto o que se afirma em

A I, apenas.
B I e II, apenas.
C I e III, apenas.
D II e III, apenas.
E I, II e III.

Estatística Análise Multivariada | Análise de Cluster

Defensoria Pública do Estado do Paraná (DPE-PR) - Estatístico - Instituto Consulplan (2024)

A respeito da análise de conglomerados, analise as afirmativas a seguir.
I. Na execução do algoritmo K-means, é possível que a alocação de observações aos clusters não mude entre duas iterações sucessivas.
II. O uso de duas medidas de similaridade distintas pode produzir dois dendrogramas diferentes ao se aplicar um algoritmo de agrupamento aglomerativo para o mesmo conjunto de dados.
III. Em uma análise envolvendo duas variáveis, considere que, após a primeira iteração do algoritmo K-Means aplicado para agrupar sete observações em três clusters, C1, C2 e C3, obteve-se a seguinte configuração: C1={(2,2), (4,4), (6,6)}; C2={(0,4), (4,0)} e C3={(5,5), (9,9)}. Então, os respectivos centroides que darão seguimento à próxima iteração serão C1=(4,4), C2=(2,2) e C3=(7,7).
Está correto o que se afirma em

A I, II e III.
B I e II, apenas.
C I e III, apenas.
D II e III, apenas.

Estatística Análise Multivariada | Análise de Cluster

Universidade Federal do Paraná (UFPR) - Estatístico - NC-UFPR (2013)

A respeito das medidas de similaridade e dissimilaridade no âmbito da teoria de análise de agrupamentos (cluster), considere as seguintes afirmativas:

1. A distância de Minkowsky entre dois pontos X_l e X_k é muito mais afetada pela presença de valores discrepantes na amostra do que a distância euclidiana. Para λ = 1, a distância de Minkowsky é conhecida como city-block ou Manhattan.

2. O coeficiente de concordância positiva é definido como o número de pares realmente concordantes em relação ao número total de pares. Quanto maior o seu valor, maior é a concordância entre os elementos comparados, razão pela qual é um índice de similaridade.

3. A distância euclidiana média revela que, quanto menor o valor da distância, maior será a similaridade dos elementos comparados; portanto é um índice de discordância ou de dissimilaridade.

4. O coeficiente de Jaccard tem o mesmo objetivo que o coeficiente de concordância positiva. A diferença é que a proporção de pares concordantes é calculada em relação ao número total de pares, excluindo-se os pares do tipo (0 0).

Assinale a alternativa correta.

Certo
Errado