Ir ao conteúdo
  • Cadastre-se

Java Navegação e coleta de dados em sites


Posts recomendados

Olá pessoal, gostaria de criar um programa para ler as informações de um site para eu transferir para uma planilha em excel. Estou começando em Java na plataforma eclipse agora e queria ter4 uma ideia por onde começãr.
A ideia é entrar em um site de catálogos de produtos por exemplo, acessar o produto, copiar a url da imagem e a descrição do produto.

Obrigado,

Link para o comentário
Compartilhar em outros sites

@Fábio Sander Bom dia. É bem complicado e chato de fazer isso.

 

Precisa usar o Java AWT Robot para isso. Precisa configurar o robô para navegar em cada site. Por exemplo, acesse o site, pressione TAB x vezes para selecionar tal elemento de tela, depois pressione espaço para acessar. Quando selecionar o dropdown depois de Y tabs, pressione VK_DOWN (seta para baixo) Z vezes para selecionar tal opção e então pressione ENTER. E assim vai indo para cada página.

 

É realmente bem chato e trabalhoso. Infelizmente  é a única forma que tenho conhecimento de fazer isso.

  • Curtir 1
Link para o comentário
Compartilhar em outros sites

  • 2 semanas depois...
Em 11/09/2017 às 09:21, TwistedSoul disse:

@Fábio Sander Bom dia. É bem complicado e chato de fazer isso.

 

Precisa usar o Java AWT Robot para isso. Precisa configurar o robô para navegar em cada site. Por exemplo, acesse o site, pressione TAB x vezes para selecionar tal elemento de tela, depois pressione espaço para acessar. Quando selecionar o dropdown depois de Y tabs, pressione VK_DOWN (seta para baixo) Z vezes para selecionar tal opção e então pressione ENTER. E assim vai indo para cada página.

 

É realmente bem chato e trabalhoso. Infelizmente  é a única forma que tenho conhecimento de fazer isso.

Muito obrigado! Já abriu muito minha mente!!

adicionado 11 minutos depois
Em 11/09/2017 às 09:21, TwistedSoul disse:

@Fábio Sander Bom dia. É bem complicado e chato de fazer isso.

 

Precisa usar o Java AWT Robot para isso. Precisa configurar o robô para navegar em cada site. Por exemplo, acesse o site, pressione TAB x vezes para selecionar tal elemento de tela, depois pressione espaço para acessar. Quando selecionar o dropdown depois de Y tabs, pressione VK_DOWN (seta para baixo) Z vezes para selecionar tal opção e então pressione ENTER. E assim vai indo para cada página.

 

É realmente bem chato e trabalhoso. Infelizmente  é a única forma que tenho conhecimento de fazer isso.

Bom dia, quanto a classe Robot já compreendi bem. Teria como me dar uma luz, um exemplo simples do código de um robô acessando a uma página. Quais comando devo utilizar. Obrigado

Link para o comentário
Compartilhar em outros sites

Olá,

 

não use Robot para pegar dados da web, vai te dar muito trabalho, vai ocupar totalmente seu computador e muito provavelmente não terá um resultado satisfatório.

 

O jeito mais simples é baixar o conteúdo da página fazendo uma conexão direta com o site. Se o site não tiver autenticação ou não for complexa, basta usar um HttpURLConnection, que já está na JRE padrão. Ele te retornará o html da página, ai é só dar um parse para encontrar o que precisa, como utilizar, por exemplo, pesquisa com métodos de string (indexof, replace, split...).

 

No entanto, existem bibliotecas para dar parse em html que facilitam em casos complexos. Gosto do Jericho (http://jericho.htmlparser.net) para parser html. E também uso o apache httpclient para baixar os dados. Mas existem outros http clients, como okhttp.

 

Em casos de autenticação, você precisará entender como o site faz isso. Ai irá envolver algumas coisas um pouco mais complexas. No entanto, já recomendo o Fiddler ou Charles como web proxy para depuração.

 

E claro, tem coisas bem mais complexas... mas não sei se aplica haha.

 

[]s

Link para o comentário
Compartilhar em outros sites

Crie uma conta ou entre para comentar

Você precisa ser um usuário para fazer um comentário

Criar uma conta

Crie uma nova conta em nossa comunidade. É fácil!

Crie uma nova conta

Entrar

Já tem uma conta? Faça o login.

Entrar agora

Sobre o Clube do Hardware

No ar desde 1996, o Clube do Hardware é uma das maiores, mais antigas e mais respeitadas comunidades sobre tecnologia do Brasil. Leia mais

Direitos autorais

Não permitimos a cópia ou reprodução do conteúdo do nosso site, fórum, newsletters e redes sociais, mesmo citando-se a fonte. Leia mais

×
×
  • Criar novo...