Ir ao conteúdo
  • Cadastre-se

JQuery Robô para pesquisar no arquivo das comunidades do Orkut


Posts recomendados

Seguinte, estou buscando algumas comunidade do finado Orkut, o problema é que nao existem uma forma de busca por texto apenas navegando página por página.
Sei que o Google já deletou aquele site de memória das comunidades, porém ainda existe uma ópia no Wayback Machine

 

 

image.thumb.png.707e81dffea365f4a33776e902498a1f.png

 

Pois bem, seria possível criar um bot que clicasse no next e fizesse uma busca nos nomes das comunidades da página pela palavra que eu desejar, no caso seriam "A2 Gravações" e "Calango CDs". Caso encontre a comunidade desejada, me informe o endereço da página.

 

 

 

 

image.thumb.png.3d7d48304036c567fd822e48b4ac09bf.png

 

 

Neste caso, o JavaStript/JQuery seria a linguagem apropriada para tanto? 

Link para o comentário
Compartilhar em outros sites

  • 1 ano depois...

Sei que já faz um tempo, maaas... 

 

Eu estava fazendo uma pequena investigação sobre um tópico que está ficando bem conhecido na internet: Setealém

Cheguei num ponto que, pra confirmar minha teoria eu teria que caçar uma comunidade no falecido orkut

🙏

Eu sabia que o google tinha feito isso de disponibilizar os arquivos do orkut a muito tempo e depois fechado e apagado tudo...

Então fui correndo pro Wayback Machine 🤠

Fiquei uns instantes passando as páginas da letra 'S' e me deparo com isso:

image.thumb.png.a61e1d0b57c5e8c6e7b927fb098f5e1e.png

Você não pode acessar mais de 15 páginas por minuto (no meu caso fui barrado com bem menos páginas)

No começo pensei que utilizar Python 3 com Selenium seria um boa. Mas ele teria que ser bem lento 😓

Fora que o site do wayback já é travado que só

 :Baaa:

Fiz o bot rapidinho aqui e ta funcionando de boas 😜

 

Código ae:

from time import sleep
from selenium.webdriver.common.by import By
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.support.ui import WebDriverWait
import socket

nome = input("Nome da Comunidade: ")
ordem = [None,None,'A','B','C','D','E','F','G','H','J','K','L','M','N','O','P','Q','R','S','T','U','V','W','X','Y','Z']

def element_presence(by,xpath,time):
    element_present = EC.presence_of_element_located((By.XPATH, xpath))
    WebDriverWait(driver, time).until(element_present)

def is_connected():
    try:
        # connect to the host -- tells us if the host is actually
        # reachable
        socket.create_connection(("www.google.com", 80))
        return True
    except :
        is_connected()
driver = webdriver.Chrome(executable_path="chromedriver.exe")
driver.get("https://web.archive.org/web/20141002205918/https://orkut.google.com/") #Chamando o site do Wayback Machine
sleep(5) #Aguardando carregar


aux = nome[0].upper()
if aux in ordem:
    i = ordem.index(aux)
else:
    i = 1


try:
    element_presence(By.XPATH,'/html/body/div[7]/div',30)
    index_button =driver.find_element(By.XPATH , '/html/body/div[7]/div/a[{}]'.format(i))
    index_button.click()
except Exception as e:
    print("erro")
    sleep(10)
    is_connected()

nome1 = ''
fpage = 0

while nome1 != nome:
    nome1 = ''
    element_presence(By.XPATH,'/html/body/div[5]/div/div[2]',30)
    for x in range(2,103):
        coms = driver.find_element(By.XPATH ,'/html/body/div[5]/div/div[2]/div[{}]'.format(x))
        nome1 = coms.text
        #print(nome1)
        if nome in nome1:
            print(nome1,"encontrado.")
            input("Tecle enter para continuar buscando >")
    if fpage == 0:
        next_page = driver.find_element_by_xpath("""/html/body/div[5]/div/div[2]/div[1]/div/a""").click()
        fpage = 1
    next_page = driver.find_element_by_xpath("""/html/body/div[5]/div/div[2]/div[1]/div/a[3]""").click()
    sleep(5)

print(nome1,"encontrado.")

Pra rodar ele você precisa ter o Python 3 e instalar o Selenium (dã)

$ pip install selenium

 

Tu vai precisar do Chrome Driver (ele tem que estar na mesma pasta do código)

 

 

Explicação básica do funcionamento:

 

  1. Ele vai pedir o nome da comunidade image.png.208717fb328ec28965fab229b16cc8df.png;
  2. Ele vai abrir a tela inicial e selecionar a letra (nesse caso S);
  3. Depois disso ele vai percorrer os 100 itens da página, e esperar 10 segundos;
  4. Quando ele achar (se ele achar) ele vai te mostrar o que achou e perguntar se quer continuar procurando

       Caso queira ver ele percorrendo é só tirar descomentar 

#print(nome1)

 

 

Não é muito preciso, muito menos rápido... Mas funciona kkkkkk

Da pra refinar ele bastante, mas a maior limitação mesmo é o próprio Wayback.

Em 2 minutos e meio ele percorre 15 páginas, o que equivalem a 1500 comunidades.

Espero que te ajude XD 

 

Se quiser colocar outras datas de captura só mudar o link aqui na linha 25:

driver.get("https://web.archive.org/web/20141002205918/https://orkut.google.com/")

Coloquei uma de 2014, de inicio. Mas creio que o "acervo" deles não aumentou tanto, visto que o orkut já tinha fechado a essa altura 🤔

 

Vou deixar ele rodando aqui até achar algo relevante pra minha web-caçada a mistérios 🕵️‍♀️

Boa noite :D

 

 

 

 

 

 

 

Link para o comentário
Compartilhar em outros sites

  • 4 meses depois...

@NogueiraEz mano, bem ***** esse trabalho que você fez, queria usar aqui mas sou bem leigão em programação, baixei tudo que você falou mas fiquei confuso pra rodar esse script no phyton e como instalar o selenium, eu tentei usar essa linha pra instalar ele e tive um problema de sintaxe, provavelmente eu estou perdendo alguma coisa básica por ser leigão

 

eu baixei o phyton 3.0.1, o chromedriver e o selenium (uma versão wheel e uma outra .tar)

Link para o comentário
Compartilhar em outros sites

Crie uma conta ou entre para comentar

Você precisa ser um usuário para fazer um comentário

Criar uma conta

Crie uma nova conta em nossa comunidade. É fácil!

Crie uma nova conta

Entrar

Já tem uma conta? Faça o login.

Entrar agora

Sobre o Clube do Hardware

No ar desde 1996, o Clube do Hardware é uma das maiores, mais antigas e mais respeitadas comunidades sobre tecnologia do Brasil. Leia mais

Direitos autorais

Não permitimos a cópia ou reprodução do conteúdo do nosso site, fórum, newsletters e redes sociais, mesmo citando-se a fonte. Leia mais

×
×
  • Criar novo...