Projeto Baobá: Revisando conceitos de fake news
Prefácio
Recentemente comecei um projeto de pesquisa científica na área de análise de dados, com isso pegamos um projeto chamado “Baobá” - dentro do IBICT. Nesse projeto estamos sendo respnosáveis por prosseguir no desenvolvimento do modelo de LLM deles, chamado de “Nice”.
O objetivo do projeto é promover o combate de fake news através do uso de análise de linguagem natural (NLP - Natural Language Processing). Temos uma enorme base de dados, que consomem api’s de redes sociais (ex: Twitter).
Introdução
Fui orientado á ler um artigo chamado: Fake news, disinformation and misinformation in social media: a review.
Dentro desse artigo temos uma breve introdução sobre a disperção de desinformação dentro das redes sociais, dentro disso temos a anaálise de possíveis técnicas que podem ser usadas para lidar controlar os possíveis danos que podem surgir dessas fake news.
Artigo
Qual o trabalho á ser feito?
Sabemos que a dinâmica das redes sociais tomaram conta de toda a sociedade, hoje se torna basicamente impossível se disvincilhar do contato com essas plataformas. Dentro dessa dinâmica, com a recente “revolução dos agentes” de IA tivemos também uma grande ascenção de contas “bots” nas redes sociais, contas essas que não desempenham nenhum papel significativo a não ser a disseminação de agendas propostas pelos donos dessas contas. Assim temos uma disseminação em massa de notícias e pautas sendo comentadas nessas redes, redes essas que sobrevivem através de trends e pautas quentes. Pelo fato de já termos tido a ascenção desse modelo de engajamento artificial o passo lógico seria propor uma alternativa de combate de mesmo nível, que seja retroalimentada se baseando em posts armazenados em um banco de dados.
É aí que entra o projeto Baobá, o intuito é promover o combate de fake news através da criação de um modelo de LLM que é capaz de identificar se um post é de cunho agressivo, positivo, negativo, humorístico, etc. Com isso seríamos capaz de modelar os possíveis danos que uma postagem pode causar dentro da rede social, e se possível combater e controlar os danos.
Resumindo: O trabalho a ser feito consiste em entender o que é de fato uma fake news, suas causas em sua raiz, sendo assim capaz de desenvolver uma solução que identifica e mitiga a disseminação das fake news na sociedade, dado que estudos recentes mostram que algoritmos de IA tem um grande poder de identificar e combater fake news, esses sendo maiores do que a sua capacidade de criar.
Comparação entre termos termos usados baseado em intenção e autenticidade
| Termo | Definição | Intenção | Autenticidade |
|---|---|---|---|
| Informação falsa | Informação comprovadamente falsa | – | Falsa |
| Desinformação | Informação falsa que é compartilhada sem a intenção de enganar ou causar dano | Sem enganar | Falsa |
| Má informação | Informação falsa que é compartilhada com a intenção de enganar | Enganar | Falsa |
| Malinformação | Informação verdadeira que é compartilhada com a intenção de causar dano | Causar dano | Genuína |
As fake news devem ser divididas em categorias, para melhor compreensão de suas intenções. As vezes não queremos espalhar uma informação falsa com o intuito de acabar com a carreira de alguém, as vezes a intenção é apenas ridicularizar e fazer pouco caso de algo relevante, os memes entram nessa categoria.
O artigo disponibilzou algumas tabelas categorizando os termos de fake news, vale ressaltar que são classificações totalmente arbritrárias escritas pelo autor do texto.
| Termo | Intenção de enganar | Propagação | Impacto Negativo | Objetivo |
|---|---|---|---|---|
| Clickbait | Alta | Lenta | Baixo | Popularidade, Lucro |
| Hoax | Alta | Rápida | Baixo | Outros |
| Rumor | Alta | Rápida | Alto | Outros |
| Sátira | Baixa | Lenta | Baixo | Popularidade, Outros |
| Propaganda | Alta | Rápida | Alto | Popularidade |
| Framing | Alta | Rápida | Baixo | Outros |
| Teoria da conspiração | Alta | Rápida | Alto | Outros |
Esses dados não são baseados em pesquisas empíricas.
Vale pontuar que um estudo recente concluiu que a porcentagem de pessoas que espalham a fake news é 31% maior do que a porcentagem de pessoas que criam essas fake news.
Padrões de linguagem para identificação de fake news
Com tudo o que foi dito, podemos começar a pensar em como seria possível traçar um perfil usando padrões de linguagem, postagens, gostos, personalidade do usuário e etc. Com isso poderíamos diferenciar alguém que compartilha, de alguém que cria.
Social bots tend to connect with legitimate users instead of other bots. They try to act like a human with fewer words and fewer followers on social media. This contributes to the forwarding of fake news (Jiang et al. 2019). Moreover, there is a difference between bot-generated and human-written clickbait (Le et al. 2019).
Podemos também ressaltar que é praticamente impossível de traçar manualmente um histórico que encontra a origem dessa fake newws de forma efetiva, dada a rápida circulação de boatos dentro das redes sociais.
Dito isso, devemos ser capazes de identificar uma linguagem intencionalmente manipulativa, de linguagens muito emocionais, essas de pessoas manipuladas pelo pânico moral causado pelas fake news.
Para sermos capazes de identificar todos esses indícios, nós não podemos depender de técnicas manualmente feitas por pessoas, pois a internet incentiva essa evolução de linguagem para melhor mascarar a identificação desses grupos. Devemos depender de técnicas de deep learning, que são capazes de identificar padrões ocultos a partir de dados simples disponibilizados, identificando o contexto e suas variações. Enquanto nós devemos “ensinar” a máquina através do machine learning tradicional, dentro do deep learning a máquina se tornaria capaz de aprender coisas por si própria.
Se torna crucial saber o tom da postagem feita, ou seja, como já dito antes, temos que saber identificar a emoção baseado no conjunto de palavras que o usuário digitou, e a partir disso devemos tomar alguma atitude.
Conclusão
O primeiro artigo do projeto tratava de uma introdução geral a técnicas de análise e identificação de fake news através da linguagem natural, e como a IA pode ser uma grande aliada nessa luta contra a alta disseminação de desinformação dentro da internet. Os passos posteriores consistem em começar a análise de tweets, e possíveis técnicas que devem ser usadas para identificar emoções dos mesmos, através da programação.
