Entrevista com Rui Vilela, mantenedor do dicionário de português europeu

Rui VilelaPassados 50 dias desde minha última entrevista, trago a vocês um convidado da terra de Saramago: Rui Vilela, o atual mantenedor do “dicionário” (léxico) de português europeu. Morador de Braga, e usuário do Gentoo, Rui Vilela é mestrando do Departamento de Informática da Universidade do Minho, departamento ao qual está ligado o Projeto Natura, de que o dicionário faz parte.

O dicionário de português de Portugal é o mais antigo léxico livre da língua portuguesa. Em 1995, quando Ricardo Ueda estava iniciando o antigo léxico de português do Brasil para Ispell, chegou inclusive a adaptar parte do dicionário europeu. O dicionário de Portugal adota o formato Jspell, desenvolvido pelo próprio Projeto Natura, mas cada versão é automaticamente convertida nos formatos Ispell, Aspell, Myspell e Hunspell.

O Projeto Natura realiza pesquisas e desenvolve ferramentas na área de Processamento de Linguagem Natural (PLN). Foi criado e é coordenado por José João A. G. Dias de Almeida, docente do departamento, e conta ainda com Rui Vilela (mestrando), Alberto Manuel Simões (doutorando), e outros, incluindo os estudantes que vêm e vão. Além do dicionário de português europeu e de várias ferramentas, o Projeto Natura desenvolve também o Dicionário Aberto (com definições!), em colaboração com os Distributed Proofreaders de Portugal. Um dicionário de 1913 está sendo progressivamente digitalizado, conferido, e disponibilizado na Internet. Recentemente a letra A foi concluída, alcançando a marca de 10 mil palavras.

Se você leu o artigo até aqui, mais tarde também vai querer saber como Raimundo Moura mantém o Verificador Ortográfico do BrOffice.org. Sem mais delongas, vamos à entrevista!

Quando e como você se envolveu com software livre?

Software livre ou a usar Linux, em 1998 (para serviços basicamente), desenvolvimento de aplicações em 2002, e desde 2004 que uso o Linux como desktop. [Comecei com] contribuições mínimas, geralmente com tradução de algo.

Além de manter o dicionário de português europeu, de que outras formas você contribui com software livre, dentro e fora do Projeto Natura?

Desenvolvimento diverso de aplicações para PLN com Perl.

O que o motiva trabalhar com software livre?

Tento não seguir religiosamente a ideia de software livre, porque pode levar a fundamentalismo, mas além da cerveja grátis e livre, também é agradável alterar um programa para ir mais ao encontro do que eu quero. Se achar que pode ser útil para todos, distribuo.

Quanto tempo você gasta desenvolvendo software livre?

Variável, mas acho que não tanto quanto devia.

Com base na antiga página do Projeto Natura, parece que o dicionário de português europeu foi criado por José João Almeida em 1995, como parte do Projeto Natura. É isso mesmo?

Começou em 1994, e foi dos primeiros correctores ortográficos a serem desenvolvidos para a língua portuguesa (senão o primeiro). O Ulisses Pinto também foi um dos autores. A página que indicaste está bastante desactualizada, mas mais informações, inclusive algumas publicações: http://natura.di.uminho.pt/wiki/index.cgi?jspell

De que maneiras o vínculo com a Universidade do Minho propicia o desenvolvimento do dicionário e do resto do Projeto Natura?

O projecto Natura é um projecto de investigação não financiado. O Prof. José João Almeida exerce actividade como docente da Universidade do Minho, para além deste projecto.

Se não me engano, você divide uma sala com José João Almeida e Alberto Simões. Qual é a diferença entre trabalhar em equipe ao vivo ou pela Internet?

Na verdade há mais 3 pessoas no laboratório (grande), o facto de se trabalhar em equipa permite uma fluxo de ideias maior, mais interactivo, e mais rápido, do que enviar emails constantemente (por experiência própria, demora e perde-se muito tempo).

Com o trabalho de equipa à distância corre-se o risco de se perder o Norte.

Como é o processo de incorporação de palavras ao dicionário e de manutenção do mesmo?

O processo de incorporação de palavras nas listas para o dicionário é feita mediante sugestões dos utilizadores, ou nós. A palavra tem de existir e ser usada na actualidade, fora está o português antigo.

A introdução de palavras é feita manualmente (emacs, ou vi) no sentido que temos de editar a lista de palavras, classificá-la consoante a sua morfologia e semântica se for o caso (nomes, localidades, siglas).

A manutenção é feita com ferramentas para verificar sintaxe, frequências, subtracção de outras listas de palavras, diferenças de versões, contra-sugestões, entre outros.

Quais são os planos para o dicionário de português europeu?

Os planos do dicionário passam por enriquecer o seu conteúdo morfológico e semântico, inclusive definir as palavras, além de alargar a sua usabilidade. Pretende-se desenvolver ferramentas de forma a que a sua manutenção seja o mais fluído e simples para o projecto.

“Inclusive definir as palavras”: você está referindo-se ao Projeto Dicionário?

http://www.dicionario-aberto.org, que está a dar os primeiros passos. O mais provável é ser adicionado a um recurso acima do dicionário. Consegue-se adicionar um conjunto de termos diversos associados a uma determinada palavra, para além do necessário para a correcção ortográfica, que podem ser úteis noutros recursos de PLN.

Mais especificamente, existe algum plano de colaborar com a Caixa Mágica no desenvolvimento do dicionário de sinônimos?

Não existe, o projecto do dicionário de sinónimos arrancou de forma independente, e actualmente não podemos dar uma contribuição relevante para esse projecto, que não esteja já publicamente disponível. Mas o dicionário de sinónimos é relevante para a comunidade, e possivelmente pode ser usado em outros recursos linguísticos que se desenvolvem.

A partir da versão 2.0.4, o OpenOffice.org português adotou o Verificador Ortográfico do BrOffice.org em detrimento ao dicionário myspell do Projeto Natura. Sabe-se que você (Rui) se posicionou contra a adoção do dicionário do BrOffice.org, questionando sua qualidade tanto na versão original quanto na versão para ao português europeu. Agora que a troca já aconteceu, existe alguma possibilidade de unir esforços?

Os comentários do blog são apenas a minha opinião (Rui). O projecto do corrector ortográfico do Openoffice brasileiro é relativamente recente em relação ao projecto Natura, e tem objectivos diferentes. Tanto no passado como actualmente, há colaboração com outras pessoas e entidades que pretendam desenvolver recursos linguísticos para a variante brasileira do Português.

O projecto OpenOffice pt_BR não contactou o projecto Natura, não fizeram qualquer referência ao Natura (no caso do dicionário pt_PT), não partilharam na altura adequada pesquisa relevante sobre um dicionários do Natura. Suponho que não há intenção de colaborar da parte deles. Da nossa parte, não há nada de concreto para iniciar qualquer colaboração.

Não afecta muito o facto de qualquer grupo de pessoas ter escolhido outro dicionário para uma determinada aplicação. Os dicionários para correcção ortográfica são apenas uma pequena fatia daquilo que é desenvolvido pelo projecto, e o objectivo do Natura é enriquecer o leque de ferramentas e recursos linguísticos usados para o Processamento da Linguagem Natural, com especial atenção ao português, na medida daquilo que for humanamente possível e desejável.

Você poderia, por favor, comentar sobre o Portal da Língua Portuguesa?

O Portal da Língua Portuguesa é outro projecto de investigação orientado para PLN, eles disponibilizam alguns recursos que podem ser úteis, tal como o Natura.

Além de realizar verificação ortográfica, o Jspell é capaz de analisar a morfologia de um texto, a classe gramatical das palavras. Seria possível construir um corretor gramatical ao redor do Jspell?

O Jspell é primeiro um analisador morfológico, a correcção ortográfica é inerente por herança do Ispell.

Sim e não, sim porque contém as possíveis categorias gramaticais de palavras existentes ou não no dicionário. Não, porque não consegue associar regras de construção de frases. Para isto já é necessário exemplos de frases, tal como corpora. (Julgo que o Cogroo é baseado no corpus CETENFolha). Ou talvez regras pré-definidas de construção de frases.

Com que facilidade poderiam as ferramentas do Projeto Natura serem utilizadas para o português do Brasil ou outros idiomas?

Para a variante brasileira, é perfeitamente adaptável, para outras línguas, depende do alfabeto, e regras lexicais, mas por exemplo o Jspell tem suporte para inglês, e latim.

Uma resposta em “Entrevista com Rui Vilela, mantenedor do dicionário de português europeu

  1. Pingback: Atualização do dicionário de português para Vim e para Aspell | Leonardo Fontenelle

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s