Café & Tapioca

Clusterização - Filtragem não supervisionada

Prefácio

Filtrar & organizar dados manualmente pode ser uma tarefa complicada, principalmente quando lidamos com grandes volumes de dados. Esse não é um problema recente, se originou por meados de 1932 dentro da antropologia – o foco do pesquisador era dividir uma amostra de pacientes com esquizofrenia em grupos que compartilhavam características semelhantes entre si, ajudando assim no desenvolvimento de tratamentos específicos –. Dentro disso temos subdivisões de métodos de clusterização, um deles é o k-means, que utiliza de “centroides” para definição de grupos – e é esse que eu estava estudando sobre.

Aplicação

O objetivo de aplicar clusterização na pesquisa é o de dividir de forma clara os nossos dados – tweets – dentro de um critério específico. A análise ainda será feita, para identificar a melhor forma de dividir esses dados. ex: dividir em grupos de sentimentos, assuntos específicos, etc.

Então a princípio, se torna muito útil um cluster que filtra tweets para futuras tomadas de decisão. Podemos ser capazes de identificar publicações de discurso de ódio apenas sabendo a bolha que o usuário frequenta, o assunto da publicação e o tom da mesma.

K-means

K-means é um método de quantificação vetorial – o foco é agrupar dados semelhantes em grupos densos e comprimidos, com cada grupo tendo o seu centroide – o k-means tem o intuito de dividir n dados em k grupos – clusters –, tal que cada observação específica pertence ao cluster com a maior média dentre todos, de certa forma servindo como um protótipo.

$$k(≤n)$$$$S= \{S_1,S_2,S_3,…,S_k\}$$

k-means desvantagens

Conclusão

Isso é apenas uma breve introdução sobre o que eu já li sobre clusterização, ainda quero me aprofundar muito no tema, porém ainda preciso dominar a base de estatística para compreender os pontos específicos de cada algoritmo – ser um papagaio não vai me levar à lugar algum –.

Referências:

#cluster #k-means