Questões de Análise de Cluster (Estatística)

Limpar Busca

A partir dessa situação hipotética, julgue o seguinte item.


A análise de clusters é uma técnica multivariada que permite prever a qualidade do ar (boa, moderada ou ruim), com base em variáveis independentes como, por exemplo, os níveis de poluentes e em fatores meteorológicos.

  • Certo
  • Errado

No campo da mineração de dados existem alguns problemas fundamentais que costumam aparecer com frequência em variados cenários de aplicação. O estudo desses problemas fornece ferramentas ao analista de dados que são aplicáveis em diferentes projetos de mineração de dados. Nesse conjunto se encontram os problemas de determinação de padrões, classificação de dados, segmentação de dados (clustering) e detecção de valores discrepantes (outliers).
Considerando os problemas citados, analise as afirmativas a seguir.

I. Em uma tabela binária esparsa, que representa uma base de dados de transações de clientes, em que as colunas representam cada produto e as linhas cada transação, verifica-se que, frequentemente, três das colunas apresentam simultaneamente o valor 1 para vários registros. Este tipo de análise é um problema de detecção de valores discrepantes.

II. A identificação de consumidores que são similares entre si, para uso no contexto de aplicação de promoções orientadas, constitui um problema de segmentação de dados.

III. O problema de classificação de dados pode ser considerado como supervisionado, pelo fato das relações entre as classes definidas e os demais atributos dos dados serem “aprendidas” pelo modelo.


Está correto o que se afirma em

  • A I, apenas.
  • B I e II, apenas.
  • C I e III, apenas.
  • D II e III, apenas.
  • E I, II e III.
A respeito da análise de conglomerados, analise as afirmativas a seguir.
I. Na execução do algoritmo K-means, é possível que a alocação de observações aos clusters não mude entre duas iterações sucessivas.
II. O uso de duas medidas de similaridade distintas pode produzir dois dendrogramas diferentes ao se aplicar um algoritmo de agrupamento aglomerativo para o mesmo conjunto de dados.
III. Em uma análise envolvendo duas variáveis, considere que, após a primeira iteração do algoritmo K-Means aplicado para agrupar sete observações em três clusters, C1, C2 e C3, obteve-se a seguinte configuração: C1={(2,2), (4,4), (6,6)}; C2={(0,4), (4,0)} e C3={(5,5), (9,9)}. Então, os respectivos centroides que darão seguimento à próxima iteração serão C1=(4,4), C2=(2,2) e C3=(7,7).
Está correto o que se afirma em
  • A I, II e III.
  • B I e II, apenas.
  • C I e III, apenas.
  • D II e III, apenas.

A respeito das medidas de similaridade e dissimilaridade no âmbito da teoria de análise de agrupamentos (cluster), considere as seguintes afirmativas:

1. A distância de Minkowsky entre dois pontos Xl e Xk é muito mais afetada pela presença de valores discrepantes na amostra do que a distância euclidiana. Para λ = 1, a distância de Minkowsky é conhecida como city-block ou Manhattan.

2. O coeficiente de concordância positiva é definido como o número de pares realmente concordantes em relação ao número total de pares. Quanto maior o seu valor, maior é a concordância entre os elementos comparados, razão pela qual é um índice de similaridade.

3. A distância euclidiana média revela que, quanto menor o valor da distância, maior será a similaridade dos elementos comparados; portanto é um índice de discordância ou de dissimilaridade.

4. O coeficiente de Jaccard tem o mesmo objetivo que o coeficiente de concordância positiva. A diferença é que a proporção de pares concordantes é calculada em relação ao número total de pares, excluindo-se os pares do tipo (0 0).

Assinale a alternativa correta.

  • Certo
  • Errado