Ir ao conteúdo
  • Comunicados

    • Gabriel Torres

      Seja um moderador do Clube do Hardware!   12-02-2016

      Prezados membros do Clube do Hardware, Está aberto o processo de seleção de novos moderadores para diversos setores ou áreas do Clube do Hardware. Os requisitos são:   Pelo menos 500 posts e um ano de cadastro; Boa frequência de participação; Ser respeitoso, cordial e educado com os demais membros; Ter bom nível de português; Ter razoável conhecimento da área em que pretende atuar; Saber trabalhar em equipe (com os moderadores, coordenadores e administradores).   Os interessados deverão enviar uma mensagem privada para o usuário @Equipe Clube do Hardware com o título "Candidato a moderador". A mensagem deverá conter respostas às perguntas abaixo:   Qual o seu nome completo? Qual sua data de nascimento? Qual sua formação/profissão? Já atuou como moderador em algo outro fórum, se sim, qual? De forma sucinta, explique o porquê de querer ser moderador do fórum e conte-nos um pouco sobre você.   OBS: Não se trata de função remunerada. Todos que fazem parte do staff são voluntários.
    • DiF

      Poste seus códigos corretamente!   21-05-2016

      Prezados membros do Fórum do Clube do Hardware, O Fórum oferece um recurso chamado CODE, onde o ícone no painel do editor é  <>     O uso deste recurso é  imprescindível para uma melhor leitura, manter a organização, diferenciar de texto comum e principalmente evitar que os compiladores e IDEs acusem erro ao colar um código copiado daqui. Portanto convido-lhes para ler as instruções de como usar este recurso CODE neste tópico:  
Fábio Sander

Java Navegação e coleta de dados em sites

Recommended Posts

Olá pessoal, gostaria de criar um programa para ler as informações de um site para eu transferir para uma planilha em excel. Estou começando em Java na plataforma eclipse agora e queria ter4 uma ideia por onde começãr.
A ideia é entrar em um site de catálogos de produtos por exemplo, acessar o produto, copiar a url da imagem e a descrição do produto.

Obrigado,

Compartilhar este post


Link para o post
Compartilhar em outros sites

@Fábio Sander Bom dia. É bem complicado e chato de fazer isso.

 

Precisa usar o Java AWT Robot para isso. Precisa configurar o robô para navegar em cada site. Por exemplo, acesse o site, pressione TAB x vezes para selecionar tal elemento de tela, depois pressione espaço para acessar. Quando selecionar o dropdown depois de Y tabs, pressione VK_DOWN (seta para baixo) Z vezes para selecionar tal opção e então pressione ENTER. E assim vai indo para cada página.

 

É realmente bem chato e trabalhoso. Infelizmente  é a única forma que tenho conhecimento de fazer isso.

  • Curtir 1

Compartilhar este post


Link para o post
Compartilhar em outros sites

Procure mais sobre web crawling. Usei uma api para extrair dados de uma página certa vez , se chama Jsoup, de uma pesquisada que talvez ela consiga te atender. 

Compartilhar este post


Link para o post
Compartilhar em outros sites
  • Autor do tópico
  • Em 11/09/2017 às 09:21, TwistedSoul disse:

    @Fábio Sander Bom dia. É bem complicado e chato de fazer isso.

     

    Precisa usar o Java AWT Robot para isso. Precisa configurar o robô para navegar em cada site. Por exemplo, acesse o site, pressione TAB x vezes para selecionar tal elemento de tela, depois pressione espaço para acessar. Quando selecionar o dropdown depois de Y tabs, pressione VK_DOWN (seta para baixo) Z vezes para selecionar tal opção e então pressione ENTER. E assim vai indo para cada página.

     

    É realmente bem chato e trabalhoso. Infelizmente  é a única forma que tenho conhecimento de fazer isso.

    Muito obrigado! Já abriu muito minha mente!!

    adicionado 11 minutos depois
    Em 11/09/2017 às 09:21, TwistedSoul disse:

    @Fábio Sander Bom dia. É bem complicado e chato de fazer isso.

     

    Precisa usar o Java AWT Robot para isso. Precisa configurar o robô para navegar em cada site. Por exemplo, acesse o site, pressione TAB x vezes para selecionar tal elemento de tela, depois pressione espaço para acessar. Quando selecionar o dropdown depois de Y tabs, pressione VK_DOWN (seta para baixo) Z vezes para selecionar tal opção e então pressione ENTER. E assim vai indo para cada página.

     

    É realmente bem chato e trabalhoso. Infelizmente  é a única forma que tenho conhecimento de fazer isso.

    Bom dia, quanto a classe Robot já compreendi bem. Teria como me dar uma luz, um exemplo simples do código de um robô acessando a uma página. Quais comando devo utilizar. Obrigado

    Compartilhar este post


    Link para o post
    Compartilhar em outros sites

    Olá,

     

    não use Robot para pegar dados da web, vai te dar muito trabalho, vai ocupar totalmente seu computador e muito provavelmente não terá um resultado satisfatório.

     

    O jeito mais simples é baixar o conteúdo da página fazendo uma conexão direta com o site. Se o site não tiver autenticação ou não for complexa, basta usar um HttpURLConnection, que já está na JRE padrão. Ele te retornará o html da página, ai é só dar um parse para encontrar o que precisa, como utilizar, por exemplo, pesquisa com métodos de string (indexof, replace, split...).

     

    No entanto, existem bibliotecas para dar parse em html que facilitam em casos complexos. Gosto do Jericho (http://jericho.htmlparser.net) para parser html. E também uso o apache httpclient para baixar os dados. Mas existem outros http clients, como okhttp.

     

    Em casos de autenticação, você precisará entender como o site faz isso. Ai irá envolver algumas coisas um pouco mais complexas. No entanto, já recomendo o Fiddler ou Charles como web proxy para depuração.

     

    E claro, tem coisas bem mais complexas... mas não sei se aplica haha.

     

    []s

    Editado por brunohpg

    Compartilhar este post


    Link para o post
    Compartilhar em outros sites

    Crie uma conta ou entre para comentar

    Você precisar ser um membro para fazer um comentário






    Sobre o Clube do Hardware

    No ar desde 1996, o Clube do Hardware é uma das maiores, mais antigas e mais respeitadas publicações sobre tecnologia do Brasil. Leia mais

    Direitos autorais

    Não permitimos a cópia ou reprodução do conteúdo do nosso site, fórum, newsletters e redes sociais, mesmo citando-se a fonte. Leia mais

    ×