Ensinando o computador a escrever

O Dasher é uma ferramenta de entrada de texto muito criativa e acessível, que tenta adivinhar as próximas letras que você vai escolher com base no que você acabou de escrever. Para assistir a um GIF animado demonstrando o aplicativo, visite essa página sobre o Dasher. Para que o Dasher funcione direito, ele precisa de um texto de treinamento, e há um tempo me propus a providenciar um texto de aprendizado melhor para o Dasher.

Graças a um outro projeto meu, o Classix, estou cada vez mais familiarizado com o Python. Escrevi então uns scripts para recuperar e processar uma grande quantidade de texto da Agência Brasil, uma agência de notícias do governo federal. Pode-ser dizer que atingi aquilo que queria, mas percebi que o conteúdo é muito especializado para o propósito. Só para vocês terem uma noção, após retirar uma série de stop words, a “governo” é a 11ª palavra mais frequente.

Acabei de perguntar aos mantenedores dos sites Domínio Público e eBooksBrasil se eles têm como separar material adequado para mim, mas tenho poucas esperanças, já que no primeiro as obras parecem não estar catalogadas por data, e no segundo todo (ou quase) o conteúdo é antigo. Não acredito que vasculhar o site da Folha Online ou outro jornal seja considerado legal, pois o resultado seria considerado (imagino) uma obra derivada de outra com direitos autorais reservados. Na Agência Brasil, pelo menos, o conteúdo está disponível sob uma licença da Creative Commons.

Se eu não puder arranjar outro fonte de texto de treinamento, vou criar um treinamento novo para o Dasher e pedir para voluntários escreverem frases com um e com outro treinamento, para ver qual dá mais agilidade. Quando tiver novidades, escrevo mais por aqui.

Atualização (13/11/2009): O responsável pelo eBooksBrasil me disse que está “solenemente ignorando este acordo.”

Uma resposta em “Ensinando o computador a escrever

  1. Sempre me interessei pelo dasher, na verdade espero um dia vê-lo nos celulares.
    Já pensou em varrer a wikipédia, ou outros wikis? Talvez limitar a artigos de um determinado tipo.
    Ou poderia tentar com blogs, como o Espaço Livre: http://www.br101.org/
    Ou uma mistura disso tudo.

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s