Copa do Mundo 2010

Como funciona o Observatório da Web



Para que seja efetivo, o Observatório da Web precisa atender a quatro requisitos técnicos. O primeiro é processar a informação em tempo real ou quase, de forma que mudanças no comportamento e na opinião das várias fontes de acesso sejam percebidas o quanto antes. O segundo é a diversidade de fontes, buscando evitar informações contraditórias por parte de uma única fonte. O terceiro requisito é a efetividade dos indicadores e dos ícones para representações visuais – as chamadas metáforas visuais -, as quais devem, realmente, sintetizar o sentimento coletivo das várias fontes a respeito das entidades (as quais podem, no contexto da copa, ser jogadores ou equipes). O quarto e último requisito é a escalabilidade, uma vez que o volume de dados tende a crescer e pode ser necessário armazenar e processar vários meses de dados.

Neste contexto, o Observatório da Web é organizado como uma linha de produção, onde entram dados coletados a partir da Web e saem padrões e metáforas visuais produzidas pelo Observatório. Neste processo, distinguimos quatro fases típicas:

  • Coleta: Responsável por obter os dados brutos a partir de cerca de 60 fontes relevantes e gratuitas na Web, entre blogs, sites jornalísticos e a rede social twitter. O desafio técnico é como lidar com a diversidade de fontes, formatos, codificações, protocolos e estratégias de encadeamento, de forma a gerar um conjunto homogêneo, completo e atual de dados.
  • Extração: Fase de qualificação de dados para o processamento, quando entidades são identificadas assim como o papel de cada palavra no texto. O processo de extração precisa estar em contínua evolução, tendo em vista a proliferação de ferramentas e a cada vez maior diversidade de participantes nos vários cenários.
  • Processamento: Durante esta fase, são aplicados os diversos algoritmos e técnicas que geram as informações a serem processadas. O Observatório da Web emprega o estado-da-arte em termos de técnicas de recuperação da informação, gerência de dados da Web, mineração de dados e aprendizado de máquina, além das mais modernas e efetivas tecnologias de caracterização de conteúdo Web e redes complexas.
  • Visualização: As informações são apresentadas através de uma interface Web permitindo aos usuários realizar seleções de entidades de interesse e aplicar filtros por fonte de dados e períodos temporais. Outras estratégias de disseminação também são eventualmente utilizadas, como Twitter e RSS.