O pipocar de notícias falsas em sites, portais e redes sociais põe o leitor em constante dúvida da veracidade das publicações a que tem acesso. Essa realidade das fake news, cada dia mais corriqueira, movimenta pesquisadores da área de computação para distinguir o que é ou não verdadeiro.
Na UFMS, o professor da Faculdade de Computação (Facom) Bruno Magalhaes Nogueira coordena a pesquisa “Detecção de notícias falsas utilizando aprendizado de máquina transdutivo e classificação de uma única classe”.
“O nosso objetivo é treinar algoritmos de aprendizagem de máquina, que são capazes de distinguir entre mensagens as notícias que são verdadeiras e as que são potencialmente falsas”, explica.
Existem diversas maneiras/abordagens para se fazer isso. Algumas são focadas no conteúdo da mensagem, outras analisam dinâmicas de compartilhamento da mensagem, quem as compartilhou, quais foram os canais que criaram aquela notícia, entre outras possibilidades.
“O que temos feito num primeiro momento é analisar só o conteúdo da notícia. Pegamos algumas publicações e treinamos alguns algoritmos de aprendizado de máquina”, diz.
As notícias utilizadas passam por uma série de clivos, em especial portais na internet que fazem a verificação de noticiais verdadeiras e falsas. Essas notícias já checadas são apresentadas aos algoritmos, que aprendem o padrão daqueles textos como um todo.
Alguns alunos de graduação fizeram, em projeto de iniciação científica e trabalho de conclusão de curso (TCC), a montagem de uma base de dados em português, visto que somente em língua inglesa há boas bases disponíveis.
Até o momento, os pesquisadores conseguiram bons resultados apenas com a análise do conteúdo de notícias. “Alcançamos uma faixa entre 80-90% de acerto, que é bastante razoável, mas são notícias a um foco muito limitado a política, assunto que mais tem aparecido fake news ultimamente”, aponta o professor.
Apesar do espectro de notícias falsas ser de política, algo em torno de 90-95%, o professor Bruno afirma que os pesquisadores estão procurando expandir para outras áreas. Em geral, as fake news aparecem também em notícias de saúde (medicamento, vacinas, alimentos), meio ambiente e sobre celebridades/pessoas em geral.
No Laboratório de Inteligência Artificial (LIA) da Facom, um aluno de iniciação científica está trabalhando na questão de expansão dos conteúdos e uma mestranda também irá pesquisar alguns algoritmos específicos, não só sobre a análise de conteúdo, mas também sobre a dinâmica de compartilhamento e principalmente a dinâmica de redes sociais, onde mais ocorrem notícias falsas.
“Redes sociais envolvem uma série de outros desafios, um vocabulário próprio e essa parte de dinâmica de compartilhamento é uma coisa que requer mais tempo de trabalho e pesquisa”, diz.
O professor Bruno também coorienta uma doutorada da Universidade de São Paulo (USP – São Carlos) que trabalha com outros algoritmos voltados à análise de dados de notícias falsas de maneira geral.
Protótipo
Dentro de seis meses deve ser divulgado por meio do site do LIA um protótipo, resultado de um TCC, que aponta a partir da postagem do link da publicação a probabilidade de veracidade ou não do assunto.
“O algoritmo faz essa análise utilizando a base de dados. Hoje, temos mais de cinco mil notícias checadas, que mostramos para o algoritmo e que aprende em cima do conteúdo dessas notícias, apresentando a probabilidade de ser verdadeira ou falsa. É uma classificação binária”, expõe Bruno.
Na prática, os textos são convertidos em números. O algoritmo então analisa quais são as palavras presentes nesses textos e quantas vezes apareceram em cada um. Assim é montada uma tabela, em que nas linhas estão os textos e nas colunas as palavras, o que gera o preenchimento com o número de vezes de quanto a palavra aconteceu em cada um dos documentos.
“Baseado nessa ocorrência das palavras nos textos, o algoritmo aprende a distinguir entre exemplos positivos e negativos. Trazendo para um outro contexto, vamos pensar no caso de classificação de pacientes, em que tenho doentes e não doentes. Dizendo que nas colunas teríamos os sintomas e nas linhas os diferentes pacientes que os médicos têm”, exemplifica o professor.
Com as notícias, o pesquisador mostra ao algoritmo alguns exemplos já rotulados, distinguindo entre verdadeiro e falso, em cima do trabalho dos portais de checagem, de forma que não haja qualquer víeis na análise e, dada a frequência da palavra, o algoritmo faz a distinção.
O modelo tem uma certa validade. Por isso, é preciso sempre estar alimentando esse algoritmo em tempo real para fazer essa predição online.
“É um dos desafios que temos: o de estar sempre atualizando. Hoje fazemos coleta automática dos principais portais em tempo real, são aproximadamente 25, e isso é incorporado dentro do modelo automaticamente. A nossa grande preocupação é deixar a rotulação sem intervenção humana”.
Outro grande desafio é encontrar sites ou portais que publiquem notícias falsas. “Num primeiro momento temos essa dificuldade de achar as fake news, quando conseguirmos incorporar o que vem de redes sociais, isso estará mais fácil”, completa.
Os pesquisadores querem chegar ao estágio de conseguir até mesmo identificar, numa rede social, quem são os usuários que compartilham mais notícias falsas, apontar que a publicação de determinado usuário pode ser potencialmente fake ou não, identificar as notícias disparadas por robôs, entre outras possibilidades.
“Estamos no começo de uma pesquisa que vai ser bem longa e é um tema que está bem quente. Temos poucos resultados em língua portuguesa, ainda é muito limitado”, afirma Bruno.
Esse projeto servirá como indício do que pode ser potencialmente falso. “Temos a preocupação de não dar uma classificação final, deixando muito claro que é baseado no conteúdo da notícia, em base histórica que já montamos”.
Texto e foto: Paula Pimenta