Observatório da Web

Como funciona o Observatório da Web



Para que seja efetivo, o Observatório da Web precisa atender a quatro requisitos técnicos. O primeiro é processar a informação em tempo real ou quase, de forma que mudanças no comportamento e na opinião das várias fontes de acesso sejam percebidas o quanto antes. O segundo é a diversidade de fontes, buscando evitar informações contraditórias por parte de uma única fonte. O terceiro requisito é a efetividade dos indicadores e dos ícones para representações visuais – as chamadas metáforas visuais -, as quais devem, realmente, sintetizar o sentimento coletivo das várias fontes a respeito das entidades (as quais podem, no contexto das Eleições, ser candidatos). O quarto e último requisito é a escalabilidade, uma vez que o volume de dados tende a crescer e pode ser necessário armazenar e processar vários meses de dados.

Neste contexto, o Observatório da Web é organizado como uma linha de produção, onde entram dados coletados a partir da Web e saem padrões e metáforas visuais produzidas pelo Observatório. Neste processo, distinguimos quatro fases típicas:

  • Coleta: Responsável por obter os dados brutos a partir de cerca de 200 fontes relevantes e gratuitas na Web, entre blogs, sites jornalísticos e a rede social twitter. O desafio técnico é como lidar com a diversidade de fontes, formatos, codificações, protocolos e estratégias de encadeamento, de forma a gerar um conjunto homogêneo, completo e atual de dados.
    Veja a lista de fontes de onde são coletados os dados.
  • Extração: Fase de qualificação de dados para o processamento, quando entidades são identificadas assim como o papel de cada palavra no texto. O processo de extração precisa estar em contínua evolução, tendo em vista a proliferação de ferramentas e a cada vez maior diversidade de participantes nos vários cenários.
  • Processamento: Durante esta fase, são aplicados os diversos algoritmos e técnicas que geram as informações a serem processadas. O Observatório da Web emprega o estado-da-arte em termos de técnicas de recuperação da informação, gerência de dados da Web, mineração de dados e aprendizado de máquina, além das mais modernas e efetivas tecnologias de caracterização de conteúdo Web e redes complexas.
  • Visualização: As informações são apresentadas através de uma interface Web permitindo aos usuários realizar seleções de entidades de interesse e aplicar filtros por fonte de dados e períodos temporais. Outras estratégias de disseminação também são eventualmente utilizadas, como Twitter e RSS.

Os dados analisados pelo Observatório das Eleições têm origem em conteúdos livres e gratuitos da Web que ofereçam agregadores de conteúdo como RSS. As fontes para extração e análise de dados foram adotadas pelos pesquisadores do INWeb segundo critérios de relevância identificados em pesquisas acadêmicas.

  • Portais de jornais impressos – Lista da Associação Nacional de Jornais (ANJ) e Guia de Mídia, contemplando periódicos de todas as capitais do país.
  • Outras mídias online - Portais de revistas semanais de maior tiragem no país; portais de provedores de acesso; websites de emissoras de televisão.
  • Sites dos partidos políticos – Cadastro do Tribunal Superior Eleitoral (TSE).
  • Sites e blogs dos candidatos – Indicações expressas na página inicial dos sites dos partidos.
  • Sites e blogs de discussão política – Ranking de blogs brasileiros 2009 da Universidade Federal do Rio Grande de Sul (UFRGS).
  • Rede social – Twitter: Mensagens públicas, tags.
  • Blogs de apoiadores – Levantamento da UFMG a partir de busca no Google, Blogguer, Ning, Wordpress.
Enquanto os jornais e portais têm uma maior quantidade de conteúdo jornalístico, outros ambientes contêm informações sobre a opinião e a repercussão dos fatos reportados por esse primeiro tipo de mídia.
Por favor, aguarde.