Meio de aplicar OCR em PDF 1 a1 ou LOTE

Loclyh · 29 de novembro de 2020

Os testes está danificando as letras que são em escritas a mão, á alguma script ou programa que aplique o OCR leve sem danificar as letras que são escritas a mão?

tornando o PDF pesquisavel.

alexandre.mbm · 29 de novembro de 2020

Qual ferramenta você está tentando usar?

Geralmente falamos em OCR para o reconhecimento de caracteres em "tipos de fonte" conhecidos: Arial, Times New Roman. O software deve permitir que marquemos regiões para a varredura, e desprezemos outras.

Eu sei que também existe o reconhecimento de letra manuscrita. Mas ele requer "aprendizado de máquina" específico para o reconhecimento da letra da pessoa.

Loclyh · 29 de novembro de 2020

@alexandre.mbm Exato!

tranquilo de achar o software para varredura em todo PDF, porém não é isso que procuro já que o reconhecimento acaba danificando em vez de ajudar, procuro algo que reconheça somente paginas digitalizadas e não faça varredura em todo PDF, porém são muitas paginas e a ferramenta teria que ser executada em LOTE.

alexandre.mbm · 29 de novembro de 2020

1 hora atrás, Loclyh disse:

tornando o PDF pesquisavel

15 minutos atrás, Loclyh disse:

procuro algo que reconheça somente paginas digitalizadas

Não estou lhe entendendo. Pois os arquivos PDF contendo textos eletrônicos já tem esses textos pesquisáveis.

Eu achava que você queria extrair do documento as "fotos de texto", e aplicar OCR nelas. Mas sem ter de lidar com arquivos de imagem intermediários. Eu não tenho experiência com software leitor que faça essa "abertura OCR" de forma transparente ao usuário.

Por isso volto a lhe perguntar:

O que exatamente você tem experimentado?

Loclyh · 29 de novembro de 2020

ex:@alexandre.mbm
em 50 PDF, onde se encontra textos inseridos por digitação e também com escrita manual nessa paginas.
o OCR , vindo do adobe, do wondershare, pdf manchine, eles destorce as escrita em caneta. deixando pdf inutilizavel.

alexandre.mbm · 29 de novembro de 2020

Não tenho conhecimento da existência de conversão OCR para manuscritos. Pode ser que exista, algum projeto inusitado, em testes.

Em se tratando de reconhecimento de algo escrito à caneta, eu só sei do que vemos em dispositivos móveis e mesas digitalizadoras. O reconhecimento é "por caractere", não é cursivo.

Eu suspeito que indexadores de arquivos nos sistemas operacionais já são capazes de adentrar PDF contexto texto eletrônico.

ricardo_br · 29 de novembro de 2020

Não sei se isso funciona mais tenta a ferramenta online da adobe para converter PDF em Word:

https://www.adobe.com/br/acrobat/online/pdf-to-word.html?promoid=XB5KHN6W&mv=other

alexandre.mbm · 29 de novembro de 2020

newocr.com eu sei que funciona! Mas não fará em lote. Pelo contrário, faz por página.

Loclyh · 29 de novembro de 2020

Obrigado a todos consegui resolver utilizando um script que tinha guardado antigo.
teve que fazer modificações demora no processo do OCR mas ele roda bem e pula as escritas.

@ricardo_br
@alexandre.mbm grato.