Skip to content
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
13 changes: 13 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -19,3 +19,16 @@ O arquivo original foi processado pelo programa `converter.py` para:
5. reordenar tudo alfabeticamente

O motivo do passo 4 é que a palavra "casa" não tem uma entrada individual no arquivo original! Se alguém souber o motivo, cadastre um *issue* explicando em que parte do código-fonte do corretor ortográfico do LibreOffice está a informação de que "casa" é uma palavra.

# Atualização 16/07/2020

Mais de 250 mil palavras foram adicionadas ao arquivo.
Elas são provenientes do dicionário de palavras do linux, que pode ser conferido no arquivo `/usr/share/dict/brazilian` (distribuição baseada no Ubuntu 18.04).
Assim, palavras com hífen e palavras comuns faltantes no arquivo original agora foram preenchidas.
A estratégia de mescla dos dois arquivos foi feita com um script em python da seguinte forma:

1. Para cada palavra do arquivo `brazilian`, foi checado se a palavra existia no arquivo `palavras.txt`.

2. Se a palavra não existia, foi acrescentada ao fim da lista.

3. Ao final, a lista toda foi ordenada alfabeticamente.
Binary file added linux_dict.tar.gz
Binary file not shown.
Loading