plan cul gratuit - plan cul toulouse - voyance gratuite amour

Institucional

FM 104,7 [ AO VIVO ]

29 de março de 2024 - 04:14

Os limites da garimpagem de dados na internet

Nael Shiab*

Web scraping é uma técnica usada para extrair dados e informações contidas em websites. Como expliquei na primeira parte deste artigo, web scraping é usado por muitas empresas. Também é uma ótima ferramenta para repórteres que saibam usá-la porque é cada vez maior o número de instituições que publicam dados relevantes em suas páginas na web.

Com a técnica dos web scrapers, também conhecidos como bots, é possível coletar grandes quantidades de dados para matérias jornalísticas. Eu, por exemplo, criei um bot para comparar os preços do álcool de Québec com os de Ontario [duas das principais cidades canadenses]. Meu colega Florent Daudens, que também trabalha para a Radio-Canada, usou um web scraper para comparar os preços de aluguel de vários bairros de Montreal com os de anúncios de Kijiji.

Mas quais são as normas de ética que os repórteres devem seguir quando utilizarem web scraping?

Essas normas são particularmente importantes porque, para pessoas sem uma minima intimidade com a internet, web scraping pode parecer pirataria. Infelizmente, nem o Código de Ética da Federação Profissional dos Jornalistas, nem as orientações sobre ética da Associação Canadense de Jornalistas dão uma resposta clara a esta questão.

Portanto, fiz algumas perguntas a vários colegas que são repórteres de dados e procurei algumas respostas por minha própria conta.

Dados públicos, ou não?

Este é o primeiro consenso por parte dos repórteres de dados: se uma instituição publica dados em seu website, esses dados são automaticamente públicos.

Cédric Sam trabalha para o South China Morning Post, em Hong Kong. Também já trabalhou no jornal La Presse e na Radio-Canada. “Eu uso web scraping quase todos os dias”, diz ele. Para ele, os bots são tão responsáveis pelas informações recolhidas quanto os humanos que os criaram. “Se é um humano que copia e cola as informações, ou se um humano codifica um computador para fazê-lo, dá na mesma. É como se você contratasse mil pessoas que trabalhariam para você. O resultado é o mesmo.”

Entretanto, os computadores do governo também guardam informações pessoais sobre os cidadãos. “A maioria dessas informações é escondida porque de outra forma estaria violando as leis de privacidade”, diz William Wolfe-Wylie, um desenvolvedor de programas da Canadian Broadcasting Corporation – CBC e professor de Jornalismo na Universidade de Toronto. E aqui está um limite muito importante entre web scraping e pirataria: o respeito à legislação. Os repórteres não deveriam bisbilhotar informações que gozam de proteção. Se um usuário comum não as pode acessar, os jornalistas não deveriam tentar obtê-las. “É muito importante que os repórteres reconheçam essas barreiras legais, que são legítimas, e as respeitem”, diz William Wolfe-Wylie.

Roberto Rocha, que até recentemente era repórter de dados para a Montreal Gazette, acrescenta que os jornalistas deveriam ler sempre os termos e condições de uso de cada página web para evitar problemas.

Outro detalhe importante a ser verificado é o arquivo  robots.txt.file, que pode ser encontrado nas páginas website e informa o que é e o que não é permitido extrair ou fazer scraping. Por exemplo, este é o arquivo do Royal Bank of Canada com as restrições a bots externos (user-agents) :

(*) Nael Shiab é formado em jornalismo digital

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *