sexta-feira, dezembro 15, 2006

Empreendedores vêem uma Internet 3.0 guiada pelo senso comum

John Markoff
Em San Francisco

A partir dos bilhões de documentos que formam a World Wide Web (rede mundial de computadores) e os links que os ligam, cientistas da computação e um crescente grupo de novas empresas estão encontrando novas formas de mineração de inteligência humana.

A meta deles é adicionar uma camada de significado sobre a Internet existente, o que a tornaria menos um catálogo e mais um guia —até mesmo fornecendo a fundação para sistemas que possam raciocinar de forma humana. Tal nível de inteligência artificial tem escapado aos pesquisadores há mais de meio século.

Tratado como Web 3.0, o esforço está em sua infância e a própria idéia tem gerado céticos, que a consideram uma visão inalcançável. Mas as tecnologias por trás dele estão ganhando adeptos rapidamente, de grandes empresas como IBM e Google a pequenas empresas. Seus projetos freqüentemente se concentram em usos simples, práticos, da produção de recomendações de férias à previsão da próxima canção de sucesso.

Mas no futuro, sistemas mais poderosos poderão agir como consultores pessoais em áreas tão diversas como planejamento financeiro, com um sistema inteligente mapeando um plano de aposentadoria para um casal, por exemplo, ou uma consultoria educacional, com a Internet ajudando um aluno colegial e identificar o curso universitário certo.

Todos projetos que visam criar a Web 3.0 se aproveitam de computadores cada vez mais poderosos que podem rápida e completamente explorar a Internet.

"Eu a chamo de World Wide Database (banco de dados mundial)", disse Nova Spivack, o fundador de uma nova firma cuja tecnologia detecta as relações entre pedaços de informação, em vez de armazenar a informação em si. "Nós passaremos de uma rede de documentos conectados a uma rede de dados conectados."

A Web 2.0, que representa a habilidade de ligar suavemente aplicações (como processamento de texto) e serviços (como compartilhamento de fotos) pela Internet, se tornou nos últimos meses o foco da badalação estilo pontocom no Vale do Silício. Mas o interesse comercial na Web 3.0 —ou a "Web semântica", pela idéia de adicionar significado— apenas agora está despontando.

O exemplo clássico da era Web 2.0 é o "mash-up" (combinação) —por exemplo, a ligação de um site de aluguel de imóveis ao Google Maps para a criação de um serviço novo, mais útil, que mostra automaticamente a localização de cada imóvel para alugar listado.

Por sua vez, o Santo Graal para os desenvolvedores da Web semântica é construir um sistema que possa dar uma resposta completa e razoável a uma pergunta simples como: "Estou à procura de um local quente para passar as férias e disponho de US$ 3 mil. Ah, e tenho um filho de 11 anos".

No sistema atual, tal pergunta poderia levar a horas de pesquisa —por listas de vôos, hotéis, aluguéis de carro— e as opções costumam entrar em conflito umas com as outras. Na Web 3.0, a mesma pesquisa resultaria idealmente em um pacote de férias completo, planejado tão meticulosamente como se tivesse sido preparado por um agente de viagens humano.

Como tais sistemas serão construídos, além de quanto tempo levará para que comecem a fornecer respostas significativas, atualmente é motivo de um debate vigoroso entre pesquisadores acadêmicos e tecnologistas comerciais. Alguns estão concentrados na criação de uma vasta nova estrutura para suplantar a Internet existente; outros estão desenvolvendo ferramentas pragmáticas para extração de significado da Internet existente.

Mas todos concordam que se tais sistemas surgirem, eles se tornarão instantaneamente mais valiosos comercialmente do que as ferramentas de busca atuais, que retornam milhares ou mesmo milhões de documentos, mas costumam não responder às perguntas diretamente.

Ressaltando o potencial de mineração de conhecimento humano há um exemplo extraordinariamente lucrativo: a tecnologia básica que tornou o Google possível, conhecida como "Page Rank" (posicionamento ou ranking de página), explora sistematicamente o conhecimento e decisões humanas sobre o que é relevante para ordenar os resultados de busca. (Ele interpreta um link de uma página a outro como um "voto", mas votos dados por páginas consideradas populares têm peso maior.)

Os pesquisadores estão no momento tentando ir além. A empresa de Spivack, a Radar Networks, por exemplo, é uma entre várias que trabalham na exploração do conteúdo de sites de computação social, que permitem aos usuários colaborarem na reunião e adição de seus pensamentos a uma grande quantidade de conteúdo, de viagem a filmes.

A tecnologia da Radar é baseada em um sistema de banco de dados de nova geração que armazena associações, como o relacionamento de uma pessoa com outra (colega, amigo, irmão) em vez de itens específicos como texto ou números.

Um exemplo que indica o potencial de tais sistemas é o KnowItAll, um projeto de um grupo de membros do corpo docente e estudantes da Universidade de Washington que é financiado pela Google. Um sistema amostra criado usando a tecnologia é o Opine, que busca extrair e agregar informação postada por usuário em sites de produtos e críticas.

Um projeto de demonstração "entende" conceitos como temperatura do quarto, conforto da cama e preço do hotel, e pode distinguir entre conceitos como "ótimo", "bom" e "mais ou menos" para fornecer respostas diretas úteis a perguntas sobre hotéis. Enquanto os atuais sites de recomendações de viagem forçam as pessoas a percorrerem longas listas de comentários e observações deixadas por outros, o sistema Web 3.0 pesa e classifica todos os comentários e encontra, por dedução cognitiva, o hotel certo para um usuário em particular.

"O sistema saberá que imaculado é melhor que limpo", disse Oren Etzioni, um pesquisador de inteligência artificial da Universidade de Washington que é um líder do projeto. "Há um crescente entendimento de que o texto na Internet é um recurso tremendo."

Pesquisadores e empreendedores dizem que apesar de ser improvável que haja sistemas completos de inteligência artificial tão cedo, se é que algum dia existirão, a Internet atualmente está produzindo uma cascata crescente de sistemas baseados em inteligência útil a partir de esforços comerciais para estruturar e explorar a Internet. Áreas específicas como sites de viagens e críticas de restaurantes e produtos são candidatas óbvias para construção de tais sistemas, que prenunciariam a chegada da Web 3.0.

"É um assunto quente e as pessoas ainda não perceberam esta coisa espantosa do quanto dependem de I.A.", disse W. Daniel Hillis, um pesquisador veterano de inteligência artificial que fundou aqui a Metaweb Technologies no ano passado. Ele se referia aos milhares de atuais exemplos de inteligência limitada, de câmeras de Internet inteligentes para proteção contra intrusos a programas de e-mail baseados em Internet que reconhecem datas e locais.

Como a Radar Networks, a Metaweb ainda não está descrevendo publicamente qual será seu serviço ou produto, apesar do site da empresa declarar que a Metaweb visa "construir uma melhor infra-estrutura para a Internet".

"Está bem claro que o conhecimento humano está lá fora e mais exposto a máquinas do que nunca", disse Hillis.

Agências de inteligência
Tanto a Radar Networks quanto a Metaweb têm em parte suas raízes em tecnologia desenvolvida originalmente para agências de inteligência e para as forças armadas. A pesquisa inicial financiada pela Agência de Segurança Nacional, CIA e Agência de Projetos de Pesquisa Avançada da Defesa pré-data o apelo pioneiro por uma Internet semântica feito em 1999 por Tim Berners-Lee, o criador da World Wide Web uma década antes.

As agências de inteligência foram as apoiadoras iniciais do uso de técnicas de inteligência artificial para peneirar gigabytes de informação digital, uma idéia que agora está ganhando força na futura era Web 3.0. Isto levou diretamente nos anos 90 ao surgimento de um setor pequeno mas próspero de "análise de texto", que visava ajudar grandes corporações a extraírem informações de bancos de dados.

Também ajudou a subscrever o trabalho de Doug Lenat, um cientista da computação cuja empresa, a Cycorp de Austin, Texas, vende sistemas e serviços para o governo e grandes empresas. No último quarto de século, Lenat tem trabalhado em um sistema de inteligência artificial chamado Cyc, que ele alega que algum dia será capaz de responder perguntas feitas em linguagem escrita ou falada —e raciocinar.

O Cyc foi construído originalmente com a entrada de milhões de fatos de senso comum que o sistema de computação "aprenderia". Mas em uma palestra dada na Google no início deste ano, Lenat disse que o Cyc agora está aprendendo a garimpar na Internet —um processo que faz parte da forma como a Web 3.0 está sendo construída.

"Atualmente, grande parte do que fazemos em nossa empresa não se trata de 'monges em claustros' escrevendo em manuscritos iluminados para adicionar a trilhonésima sétima peça de informação", ele disse, "mas sim extraindo informação automaticamente da Internet e, em muitos casos, a extraindo a partir da linguagem natural da Internet".

Durante sua palestra, ele deixou implícito que o Cyc atualmente é capaz de responder uma pergunta sofisticada em linguagem natural: "Que cidade americana seria a mais vulnerável a um ataque de antraz durante o verão?"

Separadamente, pesquisadores da IBM disseram que agora estão usando rotineiramente uma foto instantânea digital dos 6 bilhões de documentos que compõem a World Wide Web não pornográfica para realizar pesquisa de busca e responder outras perguntas para clientes corporativos, que tentam resolver problemas tão diversos quanto pesquisa de mercado e desenvolvimento de marcas corporativas.

Daniel Gruhl, um cientista do Centro de Pesquisa Almaden da IBM, em San Jose, Califórnia, disse que o sistema de mineração de dados, conhecido como Web Fountain, está sendo usado para determinar a atitude dos jovens em relação à morte para uma seguradora e contribuiu para a escolha entre os termos "utility computing" (computação utilitária) e "grid computing" (computação em grade), em um esforço de desenvolvimento de marca da IBM.

"Foi revelado que apenas geeks gostavam do termo 'grid computing'", ele disse.

A IBM tem usado o sistema para realizar pesquisa de mercado para redes de televisão sobre a popularidade de programas, minerando uma comunidade popular de sites, ele disse. Adicionalmente, minerando a "badalação" em sites de música universitários, os pesquisadores conseguiram prever canções que seriam sucesso nas paradas com duas semanas de antecedência —uma capacidade mais impressionante do que as atuais previsões de pesquisa de mercado.

Entre os pesquisadores que estão desenvolvendo sistemas inteligentes, há um longo debate sobre se sistemas como o Cyc produzirão frutos, como a criação de novos sistemas e bancos de dados que possam semear e manipular —uma abordagem defendida por Berners-Lee.

Mas uma nova geração de pesquisadores e empreendedores concluiu que, em vez disso, tal inteligência surgirá de forma mais orgânica a partir de tecnologias que extrairão sistematicamente significado da Internet existente.

Seus esforços são conduzidos por uma explosão de padrões compartilhados —como blocos Lego que são publicamente descritos de forma que todos possam conectar— projetados para simplificar e automatizar a troca de informação. Alguns descrevem como a informação deve ser organizada e trocada; outros definem como criar perguntas que capturem o significado tanto quanto a obtenção de trechos específicos de texto.

Os primeiros exemplos são serviços como del.icio.us e Flickr, os sistemas de compartilhamento de bookmarks (sites favoritos) e fotos adquiridos pelo Yahoo, e Digg, um serviço de notícias que emprega a agregação de opiniões de leitores para encontrar artigos de interesse.

No Flickr, por exemplo, os usuários "rotulam" fotos, facilitando a identificação de imagens de formas que escapavam aos cientistas no passado.

"Com o Flickr, você pode encontrar imagens que um computador nunca conseguiria", disse Prabhakar Raghavan, chefe de pesquisa da Yahoo. "Algo que nos desafiou por 50 anos repentinamente se tornou trivial. Não teria se tornado trivial sem a World Wide Web."

Tradução: George El Khouri Andolfato
Copy and paste: Poucas & Boas