OCR - Digitalização de texto com software e OnLine

1 de julho de 2010

Os recursos de OCR na digitalização de textos compreendem desde: um scanner, ou uma câmera digital,

ou um celular com câmera acima de 3 megapixels, um bom programa de OCR, e até recursos online.

Há alguns anos, não faríamos nada sem um scanner.

Hoje se você está distante ou viajando e necessita transcrever um texto qualquer: Livro, revista, jornal, extrair texto de imagens, etc.

Precisa apenas de um notebook ou computador conectado à internet e um celular com câmera mais cabo USB.

Se o seu notebook ou computador tiver o recurso de bluetooth, dispensa o cabo USB.

Recursos de OCR instalados - Vejamos o que é possível com um software profissional:

Inicialmente, fiz um teste com um livro de 80 páginas em PDF (2x40 páginas duplas), todas no formato de imagem.

Usei o excelente ABBYY Fine Reader 10. O trabalho de OCR durou menos de 15 minutos.

Salvei para texto editável em DOC, TXT e HTML. O interessante do HTML é que ele me classificou todas as imagens (fotos) em separado.

O OCR foi perfeito e deixou o texto quase sem necessidade de edição.

O ABBYY é ideal para OCR de textos a partir do scanner, mas também realiza tarefas em arquivos de imagens e PDF, entre outros.

No que se refere a PDF ele faz tudo: Abre, faz OCR, edita e salva em vários formatos. O ABBYY Fine Reader 10 é tudo num só programa:

Aceita vários formatos, tanto para abrir como para transformar, e o sistema de OCR dele é perfeito.

É muito leve, objetivo e permite trabalhar em rede.

Nas digitalizações a partir do scanner você escolhe o formato: Word, Excel, PDF, TXT, Imagem, HTML, RTF, etc.

Esse programa tem muitos e bons recursos, ideal para profissionais que trabalham com digitalização de textos.

E também advogados que já entraram na era dos processos digitalizados.

Vale a pena pagar pela licença dele (R$ 199). Esse programa não vai te deixar na mão, no que depender de digitalização de texto.

O ABBYY é essencialmente profissional pelas tarefas que executa e ocupa 623,14 MB no HD, mas é bastante ágil.

Eles possuem um outro software, o ABBYY FlexiCapture Server que pode reconhecer até formas escritas â mão,

com capacidade de processar grandes quantidades de documentos e indexá-los.

Lembrei-me de OCR de programas antigos, por volta de 1994, quando terminava era muito texto para reeditar.

Hoje, para extrair o texto de um livro, você dispõe de ferramentas que já te entregam o trabalho praticamente pronto.

Guia Online do ABBYY Fine Reader 10: Visualize o PDF

Download do Manual ABBYY FineReader 10: PDF + HTML

Blog no Brasil: myABBYY

Entre no Blog e saiba mais sobre as aplicações do ABBYY Fine Reader totalmente em Português-Brasil, e como usá-lo.

Usando a câmera digital e/ou celular como “scanner” portátil: http://www.abbyy.com.br/finereader/sobre_ocr

Leia mais sobre o excelente ABBYY Fine Reader: http://www.abbyy.com.br/finereader_brasil

Teste: Fiz um teste com um celular de câmera de 3 megapixels à noite.

Fotografando uma apostila tamanho A-4, texto com letras pequenas, formato paisagem (texto na vertical/atravessado).

Mesmo usando o flash, a imagem ficou escura, mas ao fazer o OCR no ABBYY Fine Reader o texto ficou perfeito, sem nenhum erro.

Achei que não fosse fazer a leitura do texto atravessado, mas leu. Não cumpri nenhuma das regras e deu tudo certo. Aprovado.

Nuance PDF Reader o software gratuito com o melhor recurso de OCR. Ao baixar pelo site vai pedir um cadastro básico.

Permite selecionar e copiar um texto tanto de um PDF normal como daqueles com texto em formato de imagem.

Para selecionar, copiar e colar um texto: Clique na aba Edit > Select All > Copy,

que é igual a "Ctrl+A > Ctrl+C > Ctrl+V" para colar no Word ou Bloco de Notas.

Para selecionar só uma parte do texto clique na aba "Select text" e para selecionar uma imagem clique na aba "Set".

Recursos de OCR Online

Um site pede aquelas palavras de código de acesso a cada consulta, outro exige cadastro e limita a 5 consultas apenas.

Nos testes, nenhum dos dois foi eficiente. Mas nem tudo está perdido...

NewOCR o mais eficiente.

O NewOCR.com é um serviço grátis online de OCR (Reconhecimento Ótico de Caracteres).

Ele pode reconhecer o texto em qualquer arquivo de imagem ou PDF, possibilitando a sua edição pelo Word, por exemplo.

Basta fazer o upload do arquivo PDF ou imagem para que ele converta em texto.

Uploads ilimitados, sem registro, análise de layout (reconhecimento de texto multicoluna),

29 idiomas de suporte, arquivos de imagem (JPEG, PNG, GIF, BMP, TIFF multipáginas) até 5 MB,

e documentos multipáginas em PDF de até 20 MB.

O NewOCR foi mais eficiente que os outros em todos os quesitos.

Algo interessante nesse site é que ele fornece a opção de leitura por página. Basta selecionar a página do PDF para o OCR.

Os outros sites fizeram o OCR só da primeira página e não dispõem de recursos para o restante das páginas.

O NewOCR também se saiu melhor no OCR de textos em imagens. Os outros dois tiveram falhas ao não reconhecer todo o texto.

Quanto ao OCR de imagens os caracteres precisam ter boa definição para que sejam reconhecidos.

Fotografando o texto à noite com um celular e câmera de 3 megapixels não deu. Com uma câmera de 5 megapixels já é possível.

Talvez com os 3 megapixels seja possível, se o texto for fotografado com a luz do dia. O tamanho da fonte pode influenciar.

Definitivamente, o NewOCR é o melhor recurso online, chegando a superar alguns programas.

E se um arquivo PDF tiver mais de 20 MB, como faço?

Abra-o com o Adobe ou Sumatra leitor, visualize a página e centralize-a na tela (Zoom).

Dê um "Print Screen" no teclado, abra o Paint e escolha "colar" e procure recortar as bordas deixando só o texto.

Serve para diminuir o tamanho da imagem e salve como PNG ou JPEG. Depois é só ir para o site e abrir a imagem.

Se a fonte do texto é muito pequena, é melhor dar um zoom para aumentá-la, desde que não fique desfocada.

ABBYY FineReader Online possui os melhores recursos (automático). O serviço é gratuito para testar.

O ABBYY FineReader online se mostrou mais ágil que os outros serviços, sem perder aqualidade.

Necessita de um breve e simples cadastro, mas pode logar direto se você já tiver conta no Google.

Extrai e converte imagens para: DOC, XLS, PDF, PDF/A, RTF e TXT.

Scribd também é um belo recurso:

Ao abrir uma conta no Scribd você pode enviar PDF com texto normal ou de imagem, que ele permite baixar um TXT com todo o texto extraído.

E o OCR dele é ótimo. Fiz testes usando ABBYY Fine Reader para transformar um texto em imagem e depois para PDF.

Depois lancei no Scribd e ele conseguiu extrair todo o texto, sem qualquer erro.

O Scribd aceita PDF, vários formatos de apresentações.

Não aceita o envio direto no formato de imagem, só via PDF, Word ou por Apresentações PPT, ODP, ODS, etc.

No final é só deletar o documento de sua conta, se queria apenas extrair o texto.

Google Docs para quem tiver conta do "Gmail" também pode usar o recurso "Google Docs".

Basta a instalar a extensão "Visualizador de PDF/PowerPoint do Google Docs".

Abre e edita arquivos: Apresentações, Planilhas, Word, Open Office, RTF, TXT, Imagens e PDF.

Faz o OCR de textos a partir de PDF e de imagens automaticamente.

Ao fazer o upload de um arquivo PDF ou imagem e para que estes sejam reconhecidos como texto, dever selecionar:

"Converter texto de PDFs ou arquivos de imagem para documentos do Google Docs".

Tipos de arquivo e limites de tamanho

Converter documentos até 500 KB por arquivo: Microsoft Word (.doc, .docx), texto do OpenDocument (.odt)

e texto do StarOffice (.sxw) Rich text (.rtf), Texto simples (.txt), HTML (.htm, .html)

Converter apresentações até 10 MB por arquivo: Microsoft PowerPoint (.ppt, .pps)

Converter planilhas até 1 MB por arquivo: Arquivos do Microsoft Excel (.xls, .xlsx) e OpenDocument Spreadsheet (.ods).

Converter texto de PDFs ou arquivos de imagem até 2 MB por arquivo: Fotos, documentos digitalizados,

capturas de tela, etc. (.jpg, .gif, .png) e arquivos PDF (.pdf).

O "Google Docs" disponibiliza 1,02 GB gratuitamente para guardar os seus documentos e acessar de qualquer computador.

Páginas da Web para PDF

Informe a URL da página que você quer o PDF aqui: Web2PDF

Pega toda a extensão da página e transforma num PDF multipáginas, diferentemente do "Print Screen" do teclado que só faz o screen da tela.

Entrando em "Opções": Qualidade de compressão da imagem = 1 > Permissões = copy, edit e print >

Referências = Remove Web2PDF logo from PDF > Depois clique em "Remember" na parte superior da janela, se quiser manter as configurações.

Esse outro site tem recursos automáticos: pdfmyurl

15 de maio de 2011

Nas opções anteriores deixei de fora a aplicação e os recursos do PDF Converter

- Por uma demora que levou para que eu recebesse no meu e-mail;

- O serviço "free" não permite conversão multipáginas, não converte todo um documento;

- Limite de tamanho do arquivo;

- Faz uma conversão e tem que esperar 30 minutos para a próxima;

- Limita a cinco conversões por dia, a não ser que mude para receber em outro e-mail;

- Precisa pagar para retirar todas as limitações.

Mas há de considerá-los... o serviço é bastante abrangente, embora com algumas limitações.

Limitações estas que não impedem de ajudá-lo em muitas ocasiões de necessidade.

Ele possui muitos recursos e transporta imagens fiéis ao PDF original converte e aceita vários formatos.

Pode converter páginas de internet, basta marcar a opção URL e informar o caminho.

Nina 2011 · 18 de julho de 2011

Olá Pessoal,

Estou super preocupada,pois tenho um trabalho da facu para fazer na o semestre que esta entrando.Necessito colocar imagens e informções abaixo,o que acontece é que não tem a função OCR na minha multifuncional.Há Outra tipo de scanear uma imagen e salvar e em seguida colocar dados do livro.Há possibilidade disso.Sou estudante da aréa da da Saúde nossos trabalhos são necessario imagens e texto como posso fazer?

19 de julho de 2011

Olá Pessoal,
Estou super preocupada,pois tenho um trabalho da facu para fazer na o semestre que esta entrando.Necessito colocar imagens e informções abaixo,o que acontece é que não tem a função OCR na minha multifuncional.Há Outra tipo de scanear uma imagen e salvar e em seguida colocar dados do livro.Há possibilidade disso.Sou estudante da aréa da da Saúde nossos trabalhos são necessario imagens e texto como posso fazer?

1. Baixe e instale o ABBYY Fine Reader: http://www.abbyy.com.br/finereader_brasil

2. Se você não possui um scanner use uma câmera digital e/ou celular como “scanner” portátil: http://www.abbyy.com.br/finereader/sobre_ocr

Quando fizer essas fotos, coloque o livro sobre a mesa e encoste os braços sobre a "guarda" de uma cadeira para que as fotos não saiam tremidas.

Procure centralizar e pegar um ângulo o mais reto possível.

Para o ABBYY é indiferente... mas dê preferência em bater as fotos à luz do dia.

Quanto mais qualidade, melhor, mas já fiz fotos à noite com um celular câmera 3.2MP e funciounou bem

3. Tire as fotos desse livro, passe-as para o computador e faça o OCR com o ABBY.

4. Depois do scanner, se você salvar para HTML o ABBYY extrai e separa automaticamente todas a fotos para você.

Pelo menos sei que ele faz isso extraindo as fotos de um documento PDF.

Neste caso, como a página do livro será uma imagem única, talvez você precise recortar apenas a imagem.

É claro que tudo depende da imagem, tabela, gráfico, etc...

Mas de qualquer forma o ABBYY vai diferenciar e classificar o que é escrita, e o que é imagem.