maquina de busca...

markitop · 4 de dezembro de 2010

Problema 1: Construção de Índice Invertido para Máquinas de Busca

A base para o funcionamento de uma máquina de busca, tais como Google e Yahoo!, é a

construção de um índice invertido para uma coleção de documentos. Dada a coleção de

documentos, um índice invertido é uma estrutura contendo uma entrada para cada palavra (termo)

que aparece em pelo menos um documento. Esta entrada associa à palavra pares do tipo

<count, doc_id>, onde doc_id identifica um documento e count é o número de vezes em

que a palavra em questão apareceu no documento doc_id. Documentos que não contém a

palavra não precisam ser indicados.

Como exemplo, suponha uma coleção com apenas os dois documentos seguintes:

arquivo1.txt

Quem casa quer casa. porém ninguem casa.

Ninguem quer casa tambem. Quer apartamento.

arquivo2.txt

Ninguem em casa. Todos sairam. Todos.

Quer entrar? Quem? Quem?

Supondo os identificadores 1 e 2 para arquivo1.txt e arquivo2.txt,

respectivamente, o índice invertido seria:

apartamento 1 1

casa 4 1 1 2

em 1 2

entrar 1 2

ninguem 2 1 1 2

porém 1 1

quem 1 1 2 2

quer 3 1 1 2

saíram 1 2

tambem 1 1

todos 2 2

Note que, adjacente a cada palavra do índice está uma lista de pares de números

representando ocorrências da palavra nos documentos. O primeiro número de cada par representa

o número de vezes que a palavra ocorre em um documento e o segundo representa o identificador

do documento em questão. Note que a lista está ordenada por identificadores de documentos.

Projete um sistema para produzir um índice invertido. Para facilitar, este sistema deve

receber como entrada o nome de um arquivo entrada.txt com formato:

N

arquivo1.txt

arquivo2.txt

arquivo3.txt

.....

arquivoN.txt

A primeira linha deste arquivo contém um número N que representa o número de

documentos da coleção. Cada linha a seguir contém o nome do arquivo que contém um dos

documentos da coleção. No exemplo acima, há N documentos que estão armazenados nos arquivos

arquivo1.txt, arquivo2.txt, ...., arquivoN.txt. Você pode assumir que estes

arquivos, caso existam (você precisa testar), estarão no diretório corrente de execução.

O sistema deverá processar cada um dos arquivos, lendo palavra após palavra e

construindo o índice invertido. Ele deverá também associar a cada documento um doc_id único e

associar, em memória, este identificador com o nome do documento. Para extrair as palavras de

um texto, você pode utilizar o procedimento ExtraiPalavras mostrado na página 222 do livro

“Projeto de Algoritmos”, Nívio Ziviani.

Cabe ressaltar que:

a) Uma palavra é considerada como uma sequência de letras e dígitos, começando com uma

letra. Portanto, ignore sinais de pontuação. Você pode assumir que os textos não terão

acentuação.

Palavras com letras em maiúsculas devem ser primeiramente transformadas para minúsculas

antes da inserção no índice. Desta forma, a mesma palavra apresentada com letras minúsculas

ou maiúsculas não serão diferenciadas.

c) Apenas os primeiros C caracteres devem ser retidos nas chaves. Assim, duas palavras que não

diferem nos primeiros C caracteres são consideradas idênticas. Assuma que C possui tamanho

20.

d) Palavras constituídas por menos do que C caracteres devem ser preenchidas por um número

apropriado de brancos.

e) Uma palavra pode ocorrer múltiplas vezes na mesma linha de um documento, ou mesmo em

múltiplas linhas de um mesmo documento.

Organize o seu código da seguinte maneira. O sistema para construção de índice invertido

deverá ser chamado como um procedimento de nome CriaIndiceInvertido pelo programa

principal. Ou seja, além de operações de inicialização, o seu programa principal deve chamar a

operação CriaIndiceInvertido, a partir da qual a construção é realizada.

Solução a ser apresentada:

Para implementar a operação CriaIndiceInvertido, o seu programa deve utilizar as

operações do Tipo Abstrato de Dados Dicionário (criar, inserir, pesquisar). Para a função inserir

deve ser implementado duas versões de Tabela Hash:

1. Hash imperfeito com encadeamento para tratar colisões;

2. Hash imperfeito com rehash para tratar colisões. O rehash vai aplicar a função mod

acrescida de uma constante no numerador: F(chave)=[ASCII(chave)+i]%M onde i

deve ser um número primo e M o tamanho da tabela.

Os documentos que devem ser indexados estão postados no moodle, totalizando 10

arquivos texto.

O tamanho da Tabela onde as informações serão armazenadas fica a critério do aluno, não

podendo ser maior que 500 e nem menor que 100. Uma boa prática é definir um número primo

como tamanho da Tabela Hash. As tabelas devem possuir o mesmo tamanho.

Problema 2: Consultas sobre o índice invertido:

Utilizar o índice invertido construído do tópico anterior para realizar consultas por um ou

mais termos passados como entrada.

O objetivo é, dado uma consulta, retornar uma lista de documentos, ordenados pela

relevância para a consulta. A relevância vai ser medida, basicamente, pela quantidade de termos

presentes em cada documento. Essa quantidade deve ser informada no retorno.

Se houver um empate utilize a freqüência do primeiro termo para desempate. Caso

continue empatado retorne os documentos em ordem aleatória.

No exemplo dado acima, uma consulta “quer todos”:

• dois termos (q = 2): quer e todos;

• há dois documentos: N = 2;

• o número de ocorrências do primeiro termo - quer - no documento 1 é 3 e no documento 2 é

0;

• o número de ocorrências do segundo termo – todos - no documento 1 é 1 e no documento 2

é 2;

• Logo, as relevâncias dos documentos pra esta consulta são:

o r(1) = 3 + 0 = 3

o r(2) = 1 + 2 = 3

• Neste caso o documento 1 é retornada antes do 2 pelo fato do primeiro termo aparecer 3 vezes

em 1 e zero em 2;

alguem pode dar uma mao urgente...

Kreitos · 7 de dezembro de 2010

poste o que você ja fez

Entrar

maquina de busca...

Posts recomendados

markitop

Link para o comentário

Compartilhar em outros sites

Kreitos

Link para o comentário

Compartilhar em outros sites

Arquivado

Quem está navegando aqui 0 usuários estão online

Últimos tópicos

Livros

Cursos

Conteúdo recente

Sobre o Clube do Hardware

Direitos autorais

Mais

Fórum

Atividades

Artigos

Análises

Livros

Cursos