Discussões sobre tecnologias de cache e memórias ...

SpellForce · 8 de junho de 2006

Seria como colocar uma boa semente sem rega-lá xD

Esse problema ocorre muito nos x2,pois cada processador tem sua fatia da memória RAM e sua cache não pode ser acessada pelo outro núcleo,já no yonah e futuramente no conroe e cia isso não ocorrerá

Coveirando , em AlyssonR. Pensei que nunca mais ia voltar pra esse tópico. Vamo lá:

1- Quando o cara disse Anti-HTT, ele na verdade quis dizer anti-HT.

Realmente eu errei ai ^^

estava meio apressado XD

ThiagoLCK · 9 de junho de 2006

Isso ta mais para branch-prediction, já existe a muito tempo, e as empresas melhoram a cada novo processador.

Nem tanto atualmente. Antigamente a Intel enfiava um time inteiro de engenheiros só pra fazer a BP melhor. Atualmente, alguns engenheiros top´s da Intel garantem que o time de EE trabalhando com BP é meio limitado... só tem um cara!

Mas, pra te falar a verdade, acho que ele não falava de BP, falava de Data Preftching, que foi bem melhorada no Conroe, com 3 prefetchers por core (2 de dados, 1 de instruções) e 2 por L2. Ah, pra quem não sabe, prefetch é uma tecnologia que coloca um dado no cache antes dele ser utilizado.

Concordo, mesmo assim prefiro ter 3 ALUs do que 2 .

Não sei por que, mas acho que também concordo! E os donos de webservers também, já que um woodcrest surra qualquer coisa em códigos cheios de branches (MacroFusion) e inteiros (3 ALU´s, 2 ops de memória, desambiguação de memória e muito cache). :palmas: Mas os donos de servidores de criptografia, estes acham que 3 ALU´s é uma rematada besteira!

segundo este teste tanto o X2, D9xx, yonah e conroe. Todos tem de buscar o dado a
ram mesmo que esse dado esteja disponivel no cache L2 do ourto CPU ou no L2 comun

em certas cituação.

Mas o L2 do Yonah e do Conroe não era unificado? Hum, tem treta aí. Acho que o chipset ou o SO que está dificultando as coisas. Vou juntar um tempo pra ler o artigo.

"Core can transfer directly between the L1D caches in some variants. However, it is
currently unknown how often this transfer can occur"

Só confirmando, eu tenho quase certeza que você está certo. E tambpem vi este diagrama! Acho que era algo em torno de 10GBps.

1 - Instruçoes FPU sao mais usadas em aplicacoes multimidias que em banco de dados por exemplo?

Nunca vi banco de dados usar FPU... Basicamente, qualquer coisa que use dupla precisão, ou sen/cos/tan, ou seja, aplicações científicas, HPC, workstations gráficas, e alguns programas de imagens.

Essa é nova para mim...

Pra mim também, li na Wikipedia. Mas, pelo que vi, a Intel não usa esta vantagem

E deculpe pelo post gigante, é minha incapacidade de me explicar em poucas linhas.

EduardoS · 9 de junho de 2006

Não sei por que, mas acho que também concordo! E os donos de webservers também, já que um woodcrest surra qualquer coisa em códigos cheios de branches (MacroFusion) e inteiros (3 ALU´s, 2 ops de memória, desambiguação de memória e muito cache). :palmas: Mas os donos de servidores de criptografia, estes acham que 3 ALU´s é uma rematada besteira!

Nunca vi alguem reclamar...

E criptografia é uma das áreas que pode fazer bom uso de multiplas ALUs.

Mas o L2 do Yonah e do Conroe não era unificado? Hum, tem treta aí. Acho que o chipset ou o SO que está dificultando as coisas. Vou juntar um tempo pra ler o artigo.

Só confirmando, eu tenho quase certeza que você está certo. E tambpem vi este diagrama! Acho que era algo em torno de 10GBps.

Esse artigo contradiz tudo o que a Intel e AMD dizem...

Nesse artigo na pagina 6 a imagem 12 e 15 usam os mesmos dados... Os tamanhos das imagens são um pouco diferentes, mas os dados são iguais, até os pixels de dentro do gráfico batem

Não to acreditando muito nele não, se eu tivesse um X2 testava isso agora... Alguem a fim de fazer uma doação?

E deculpe pelo post gigante, é minha incapacidade de me explicar em poucas linhas.

Por mim sem problemas.

avec · 9 de junho de 2006

"The shared L2 cache for the Core MPU is a non-inclusive, non-exclusive design"

http://www.realworldtech.com/page.cfm?Arti...30906143144&p=7

primeira linha terceiro paragrafo.

parece que ele nem é inclusivo nem exclusivo, ou seja há um meio termo:

mas eu não consigo imaginar-lo com a eficiencia do conroe. seria um sistema super

complicado se calhar é aqui que reside grande poder de processamento que o conroe

promete e parece comprire. A intel anonciou um cache que poderia prever qual seria

a instrução nessecaria a seguir, baseando-se no historico (sera uma forma de A.I.),

com uma taxa de sucesso de 90%. Mas isso não tem nada a ver com o exclusivo/inclusivo?

EDIT: MPU (multi processore unit), cpu (central processor unit)

para alyssonr como o EduardoS disse, não se sabe mas da para entender que não há

cache l2 na historia:

"Core can transfer directly between the L1D caches in some variants. However, it is

currently unknown how often this transfer can occur"

mas eu lembre-me ter visto um esquema qualquer onde estava bem representado, pesquiso

e depois posto

EDIT: eu já postei esta duvida noutro forum aqui do clubemas ele foi editado para esse desculpa o engano

ThiagoLCK · 9 de junho de 2006

Nunca vi alguem reclamar...
E criptografia é uma das áreas que pode fazer bom uso de multiplas ALUs.

Onde disse-se ALU´s leia-se ALU´s não gerais. É que as ALU´s do Conroe não são simétricas, e portanto, as duas primeiras não podem executar algumas operações complexas, que embora incomuns em determinadas situações, são muito usadas em criptografia. Vide um teste do Anandtech em que essa é uma das poucas fraquezas do bicho. Um defeito congênito, que afeta tudo que a Intel produziu nos últimos 15 anos...

EduardoS · 10 de junho de 2006

Dessa eu não sabia,

Você tem um link com a lista de quais instruções cada ALU pode executar (curiosidade mesmo)?

alyssonr · 10 de junho de 2006

Onde disse-se ALU´s leia-se ALU´s não gerais. É que as ALU´s do Conroe não são simétricas, e portanto, as duas primeiras não podem executar algumas operações complexas, que embora incomuns em determinadas situações, são muito usadas em criptografia. Vide um teste do Anandtech em que essa é uma das poucas fraquezas do bicho. Um defeito congênito, que afeta tudo que a Intel produziu nos últimos 15 anos...

1 - O que?! "Fraquezas"?!!! A única vez que vi um cpu Intel ser fraco foi quando coloquei meu 486DX4-100 pra rodar um compilador Pascal7 que tinha, e olha que esse compilador é "leve"! Mas na realidade o código que era grande mesmo, mas ...., voltando ao assunto, CRIPTOGRAFIA?! Somente nisso(criptografia) que os processadores "perdem" desempenho? E em aplicações Streaming, Captura e Compactação de Áudio e Vídeo, Compiladores, Filtros Photoshop, Adobe Premiere, ........., ......., ...... ?!!

2 - Quanto as unidades de cache L1 e L2 independentes pra cada núcleo, apesar de não serem simétricas, compartilham uma unidade única de L3, e essa sim deve ser simétrica as duas, certo?!

- Ou seria "acessada" pelas L1 e L2 uma de cada vez, ou seja, cada L1 e L2 independentes acessaria a L3 compartilhada, porém uma de cada vez, não haveria acessos de L2 de cada núcleo ao mesmo tempo na L3?

alyssonr · 10 de junho de 2006

Vejam só esta notícias do site www.casemodbr.com

O grupo de “overclockers” japoneses continuam submetendo o processador Core 2 Extreme X6800 a acelerações cada vez mais agressivas. Primeiramente, eles conseguiram acelerá-lo a 5.003 MHz sob refrigeração a nitrogênio líquido e tensão de 1,74 V. O resultado no Super PI/mod1.4 com o cálculo do coeficiente matemático “pi” com 1 milhão de casas decimais foi de 10,281 segundos. E um detalhe: o segundo núcleo foi desativado através do BIOS versão 1073 da placa-mãe Intel D975XBXLKR-302. Sob modo mononuclear, o processador consegue maior estabilidade em aceleração do que no modo binuclear e o volume do cache L2 é transferido ao núcleo restante. As memórias DDR2 Corsair PC2-5400UL foram aceleradas a 1.042 MHz e suas latências, ajustadas a 4-2-2-2 com tensão de 2,55 V no slot DIMM.

1 - Onde encontrar informações sobre os novos CPU`s Intel, Conroe e Yonah?

2 - SEGUNDO NÚCLEO DESATIVADO ele tem mais desempenho/estabilidade mononuclear que binuclear??? O que?!!!

EduardoS · 10 de junho de 2006

1 - O que?! "Fraquezas"?!!! A única vez que vi um cpu Intel ser fraco foi quando coloquei meu 486DX4-100 pra rodar um compilador Pascal7 que tinha, e olha que esse compilador é "leve"! Mas na realidade o código que era grande mesmo, mas ...., voltando ao assunto, CRIPTOGRAFIA?! Somente nisso(criptografia) que os processadores "perdem" desempenho? E em aplicações Streaming, Captura e Compactação de Áudio e Vídeo, Compiladores, Filtros Photoshop, Adobe Premiere, ........., ......., ...... ?!!

Não sei... Não tenho um Conroe aqui para testar e as informações que a Intel passa são muito limitadas.

2 - Quanto as unidades de cache L1 e L2 independentes pra cada núcleo, apesar de não serem simétricas, compartilham uma unidade única de L3, e essa sim deve ser simétrica as duas, certo?!

- Ou seria "acessada" pelas L1 e L2 uma de cada vez, ou seja, cada L1 e L2 independentes acessaria a L3 compartilhada, porém uma de cada vez, não haveria acessos de L2 de cada núcleo ao mesmo tempo na L3?

Depende da implementação.

1 - Onde encontrar informações sobre os novos CPU`s Intel, Conroe e Yonah?

Que tipo de informações?

2 - SEGUNDO NÚCLEO DESATIVADO ele tem mais desempenho/estabilidade mononuclear que binuclear??? O que?!!!

O SuperPI é um caso a parte, ele não usa os dois núcleos, um Single Core e um Dual core tem o mesmo desempenho,

Um segundo núcleo, apesar de aumentar o desempenho no geral, esquenta mais e dificulta um over estavel, por isso para o Super PI é melhor desativar um dos núcleos.

Plateu · 10 de junho de 2006

No SuperPI um quadcore teria desempenho superior?

alyssonr · 10 de junho de 2006

Onde encontrar informações sobre os novos CPU`s Intel, Conroe e Yonah?

Que tipo de informações?

1 - Clock, FSB, Cache, Socket, Temperatura Maxima, Voltagens, núcleos, Fotos ...

SEGUNDO NÚCLEO DESATIVADO ele tem mais desempenho/estabilidade mononuclear que binuclear??? O que?!!!
O SuperPI é um caso a parte, ele não usa os dois núcleos, um Single Core e um Dual core tem o mesmo desempenho,

Um segundo núcleo, apesar de aumentar o desempenho no geral, esquenta mais e dificulta um over estavel, por isso para o Super PI é melhor desativar um dos núcleos.

2 - Então esse teste não pode ser levado em consideracao usando o SuperPI ...

ThiagoLCK · 11 de junho de 2006

Dessa eu não sabia,
Você tem um link com a lista de quais instruções cada ALU pode executar (curiosidade mesmo)?

Tenho uma figura, mas não é oficial e é bem confusa. Mas uma coisa é certa, todas as gerações de Intel, desde o P5 tem unidades de lógica e aritmética assimétricas (nos Conroe e Netburst, são duas unidades simples e uma complexa, nos P6 uma simples e uma complexa) .

1 - voltando ao assunto, CRIPTOGRAFIA?! Somente nisso(criptografia) que os processadores "perdem" desempenho? E em aplicações Streaming, Captura e Compactação de Áudio e Vídeo, Compiladores, Filtros Photoshop, Adobe Premiere, ........., ......., ...... ?!!

Principalmente em criptografia, que é uma área em que se usa muitos multiplys, shifts e add-carrys. Dessas outras aplicações que você falou, Streaming e Compiladores é puro inteiros simples e acesso a memória, na maioria das vezes (um Conroe vai detonar nisso ), e o resto é puro ponto flutuante e vetores (MMX/SSE), onde o Conroe também vai detonar ... se o código for otimizado .

No SuperPI um quadcore teria desempenho superior?

Não! A não ser que você estivesse rodando outras coisas junto. Aliás o SuperPI é um dos benchs mais teóricos e mal otimizados do universo. Só serve pra avaliar desempenho bruto.

1 - Clock, FSB, Cache, Socket, Temperatura Maxima, Voltagens, núcleos, Fotos ...

Núcleos: Merom (portáteis), Conroe (desktop), Woodcrest (profissional DP), Tigerton (profissional MP), além de KentsField (4-core, desktop) Clovertown (Um Kentsfield profissional).

Conroe:LGA-775 WoodCrest:LGA-771 Merom:FCPGA-479/Socket J

Conroe e Merom: 64KiB L1, 2/4 MiB L2 WoodCrest: 4 MiB L2

Conroe:800/1066 MHz, Merom:667/800 MHz, WoodCrest: 1333 MHz (DIB (Barramento Duplo Independente).

ismaelcrestani · 12 de junho de 2006

MUITO MASSA esse topico de vocês!!

bem, eu estava lendo e me perdi varias vezes no meio de tanta informação, hehehe

o q quer dizer o termo assimetrico para a duas ALU??, uma funciona undividualmente da outra??

se for, isso acontece automaticamente pelo hardware ou é criado por software??

quanto ao thiago, q tem problemas pra explicar em poucas linhas, quanto mais detalhes para mim melhor

T+

EduardoS · 12 de junho de 2006

o q quer dizer o termo assimetrico para a duas ALU??,

Tenho uma figura, mas não é oficial e é bem confusa. Mas uma coisa é certa, todas as gerações de Intel, desde o P5 tem unidades de lógica e aritmética assimétricas (nos Conroe e Netburst, são duas unidades simples e uma complexa, nos P6 uma simples e uma complexa)

Isso significa que cada ALU executa instruções diferentes, o software aqui só decide qual instrução usar, é o hardware que decide qual ALU usar, no caso do P6 e Core segundo o thiago 2 (ou apenas uma no caso dos P6) das ALUs só executam operações básicas enquanto apenas 1 executa "todas".

alyssonr · 12 de junho de 2006

1 - As unidades de memoria cache dos cpu armazenam dados somente ou podem conter instrucoes tambémém? Pois já ouvi falar em xKB para dados e em xKB instrucoes, existem mesmo isso?

2 - Numa varredura de disco usando antivirus, qual a influencia da memoria cache, muita pouca, nenhuma?? Os dados "analisados" seriam armazenados na cache e assim sequencialmente ate terminar de verificar TODOS os dados do disco ou somente a instrucoes de varredura ficaria na cache?

3 - Numa aplicacao online do tipo, http://safety.live.com, pra quem não sabe trata-se de uma ferramenta de analise de disco(virus e pragas virtuais) online da microsoft, que ao rodarem no micro instalam um aplicativo ActiveX antes, esse aplicativo teria as instrucoes de varredura ou o "serviço" seria feito pela conexao, porque vejo que ao iniciar o processo de varredura a conexao quase "para", ou seja parece que o processo se dá localmente e aí que pergunto, numa aplicacao dessas o cache se comporta como em uma aplicacao local, ou seja, não tem diferenca se é online ou local o cpu(cache) trabalha da mesma forma com os dados?

4 - O norton antivirus é considerado por muitos como sendo "lento", porque?! ... Já ouvi falar que ele carrega na cache do CPU uma instrucao que verifica TUDO que o cpu executa e por isso torna o micro "lento" pois "rouba recursos", seria isso mesmo, recurso do cpu poderia se dizer a cache e alguns ciclos de clock ou não tem anda a ver?!

5 - Qual o motivo de causar "lentidão" ao micro enquanto faz-se uma varredura de disco(antivirus, antitrojan, defrag, scandisk, ....), pouca cache, hd lento, muitos dados no disco(com certeza tambémém!!), pouca RAM, CPU lenta, ... o que pode ser ou quais os principais fatores que influenciam no desempenho durante a varredura de disco?

ismaelcrestani · 12 de junho de 2006

Se sao estão poucas ALUs como é que funciona no caso dos PIPELINE ou PIPES(não sei como perguntar),

estava vendo nun outro topico ums tempo atras q o processador vai executando uma varias linhas ao mesmo tempo, enquanto tem uma entrando, outras sendo trabalhadas, e outras saindo,

só q ai me contradiz, pois aqui mesmo já vi que a coisa não é processada de "penkas" e inclusive o amigo eduardoS me respondeu em um outro topico q eram duas ou algums casos tres instruçao simultaneamente,mas esse tal de PIPELINE q o pessoal fala q sao umas quantas simultaneamente??

tipo..., os athlon vi que tinhao 8, o Pentium 20, vi numas placa de video q ta saindo com mais de 40pipes!!

como é q se executa tanta coisa simultaneamente com apenas 3 ALUs e outras poucas unidades?!???

na verdade isso é só um deslocamento dos dados em relaçao a sua posiçao na memoria, e não a um processamento simultaneo?!?, tipo..., e procesado e deslocado na "fila"?!?

fiz algumas sujestoes do que eu imagino q seja pra facilitar uma resposta à minha duvida, pois não sei como pergundar direito

agradeço desde já, T+

ThiagoLCK · 13 de junho de 2006

As unidades de memoria cache dos cpu armazenam dados somente ou podem conter instrucoes tambémém?

Depende. A cache L1 é dividida em dois blocos: o de dados, que apenas armazena dados e ode instruções, que apenas guarda instruções , no que se costuma chamar arquitetura Harvard. Já os caches L2 e L3 e a memória são legítimos representantes da arquitetura Von Neumann, ou seja, instruções e dados compartilham o mesmo bloco de memória ou cache.

Numa varredura de disco usando antivirus, qual a influencia da memoria cache, muita pouca, nenhuma??

Mediana, eu imagino. Em termos de instruções, muito boa, pois a varredura executa um loop, que é algo muito fácil de colocar no cache. Em termos de dados, depende mais da competência das controladoras de prefetch (prebusca) e do que você está fazendo enquanto o disco é varrido.

4 - O norton antivirus é considerado por muitos como sendo "lento", porque?! ... Já ouvi falar que ele carrega na cache do CPU uma instrucao que verifica TUDO que o cpu executa e por isso torna o micro "lento" pois "rouba recursos", seria isso mesmo, recurso do cpu poderia se dizer a cache e alguns ciclos de clock ou não tem anda a ver?!

Não entendo muito, mas é mais ou menos isso: algumas linhas de cache e ciclos de CPU, além de largura de banda e acesso ao disco.

Qual o motivo de causar "lentidão" ao micro enquanto faz-se uma varredura de disco(antivirus, antitrojan, defrag, scandisk, ....), pouca cache, hd lento, muitos dados no disco(com certeza tambémém!!), pouca RAM, CPU lenta, ... o que pode ser ou quais os principais fatores que influenciam no desempenho durante a varredura de disco?

Por experiência, CPU e hd. Ram não influenciou muito nas máquinas daqui de casa.

Se sao estão poucas ALUs como é que funciona no caso dos PIPELINE ou PIPES(não sei como perguntar),

Pipelines. Bom, isso requeriria um artigo pra enetender bem, mas pense na ideia do Pipeline como uma linha de produção. A ideia é dividir o caminho da instrução na máquina em pedaços, que usem um pedaço específico da CPU. Por exemplo, enquanto unidade de decodificação tá decodificando uma instrução, a de ULA, que faz parte de um outro estágio no pipeline, pode estar executando outra instrução. É como uma linha de produção, o soldador lá do início não precisa esperar que os pneus do carro sejam calibrados para começar a soldar outro. . Digamos que é uma fila, como se as instruções fossem passando por vários funcionários que vão fazendo cada um uma coisa com ela até chegar no final.

E quanto a existência de várias ALU´s, quer dizer que existem duas filas, ou linas de produção, teoricamente dobrando o número de instruções que saem completas no final.

alyssonr · 24 de junho de 2006

Por exemplo, enquanto unidade de decodificação tá decodificando uma instrução, a de ULA, que faz parte de um outro estágio no pipeline, pode estar executando outra instrução. É como uma linha de produção, o soldador lá do início não precisa esperar que os pneus do carro sejam calibrados para começar a soldar outro. . Digamos que é uma fila, como se as instruções fossem passando por vários funcionários que vão fazendo cada um uma coisa com ela até chegar no final.
E quanto a existência de várias ALU´s, quer dizer que existem duas filas, ou linas de produção, teoricamente dobrando o número de instruções que saem completas no final.

1 - Mas então perae, se a Intel tem 20 pipelines e a AMD "somente" 8 pipelines, então o "ganho" seria no numero de "operários" a mais que a instrucao tem q passar, deixando assim ela mais "elaborada" para o processamento?

ThiagoLCK · 24 de junho de 2006

Tanto os pipelines da Intel quanto da AMD executam o mesmo trabalho, a diferença é que a unidade de excução dos Netburst divide esse mesmo trabaho em maior número de estágios. Por um lado, isso diminui o trabalho que cada estágio têm que fazer por ciclo de clock, aumentando as possíveis frequências, mas também aumenta a complexidade do processador e causa alguns problemas relacionados a arquitetura superescalar e predição de desvios.

alyssonr · 25 de junho de 2006

Tanto os pipelines da Intel quanto da AMD executam o mesmo trabalho, a diferença é que a unidade de excução dos Netburst divide esse mesmo trabaho em maior número de estágios. Por um lado, isso diminui o trabalho que cada estágio têm que fazer por ciclo de clock, aumentando as possíveis frequências, mas também aumenta a complexidade do processador e causa alguns problemas relacionados a arquitetura superescalar e predição de desvios.

Estamos trabalhando com sistemas mononucleares monoprocessados e duas caches, três caches, dois núcleos e três caches, ..., e em sistemas com XEON, ITANIUM e OPTERON, ... MULTIPROCESSADOS ... , há troca de dados entre as caches de CPU`s diferentes? Ou Fica restrito somente a cada CPU e sua(s) repectiva(s) memória(s) ram a troca? Porque aí entraria controladores e registradores aos montes, se eu me lembre direito, ..., chipset cuida disso ou essa troca não ocorre?

EduardoS · 25 de junho de 2006

A CPU não consegue acessar os dados diretamente do cache de outras CPUs, precisa primeiro copiar para o seu próprio cache, e não tem como acessar os registradores de outra CPU.

alyssonr · 8 de julho de 2006

A CPU não consegue acessar os dados diretamente do cache de outras CPUs, precisa primeiro copiar para o seu próprio cache, e não tem como acessar os registradores de outra CPU.

1 - Em micros trabalhando em Clustering todos os CPU's de todos os micros somados teoricamente seriam "um só", certo ou não?!

Se certo, a troca de dados seria semelhante a esse citado acima pelo EduardoS, ou seja, primeiro o dado "sairia" da cache da cpu do micro 1 para a cache da cpu do micro 2 e então seria processado ou é de outra forma? Há algum controle via software para isso ou fica restrito aos CPU's?

2 - Pode um Vírus ficar armazenado na memória cache durante a varredura de um disco e este então não ser encontrado pelo antivirus? O que fazer em casos assim? Se reiniciar o micro a memória cache é "zerada" como a memória RAM?!

3 - A cache precisa ter REFRESH como a memória RAM?

4 - Em placas-mae cm memoria cache, qual seria a prioridade de busca de um determinado dado, a cache do CPU primeiro ou a cache da placa-mãe? placa-mãe só possui cache L1 ou tem L2 também?

5 - Em casos de placas-mae com Celeron 266MHz ou 333MHz que não possuem cache interna, o acesso aos dados sempre se dá diretamente à memoria RAM? Por isso da "famosa lentidao" dos Celerons antigos?

Pelo que entendi sobre os CPU's P4 HT, eles simulariam um segundo CPU, caso o "primeiro" CPU estive "ocupado" com algumas intruçoes, melhorando o processamento, certo?!

PERGUNTA:

6 - Este "segundo núcleo" também tem acesso a cache normalmente ou não? Semelhante aos DUO Core que acessam a cache normalmente como se fosse um só núcleo?

EduardoS · 8 de julho de 2006

1 - Em micros trabalhando em Clustering todos os CPU's de todos os micros somados teoricamente seriam "um só", certo ou não?!

Se certo, a troca de dados seria semelhante a esse citado acima pelo EduardoS, ou seja, primeiro o dado "sairia" da cache da cpu do micro 1 para a cache da cpu do micro 2 e então seria processado ou é de outra forma? Há algum controle via software para isso ou fica restrito aos CPU's?

Errado...

Clusters em geral são controlados por software e não da somar todos em um só.

2 - Pode um Vírus ficar armazenado na memória cache durante a varredura de um disco e este então não ser encontrado pelo antivirus? O que fazer em casos assim? Se reiniciar o micro a memória cache é "zerada" como a memória RAM?!

O cache é apenas uma cópia da RAM, se existe um virus na cache ele tambem existe na RAM, e sim, é zerada que nem a RAM (é volatil).

3 - A cache precisa ter REFRESH como a memória RAM?

Não, por isso ele é chamada de estática e a RAM (melhor, "memória principal") dinámica.

4 - Em placas-mae cm memoria cache, qual seria a prioridade de busca de um determinado dado, a cache do CPU primeiro ou a cache da placa-mãe? placa-mãe só possui cache L1 ou tem L2 também?

Primeiro o L1 (cache interno, localizado no processador) depois o L2 (cache externo e é esse que se encontra na placa mãe).

5 - Em casos de placas-mae com Celeron 266MHz ou 333MHz que não possuem cache interna, o acesso aos dados sempre se dá diretamente à memoria RAM? Por isso da "famosa lentidao" dos Celerons antigos?

Eles possuiam apenas L1 sempre que algo não existia na L1 era preciso ir direto ao RAM e sim, esse era um dos motivos da lentidão deles.

Pelo que entendi sobre os CPU's P4 HT, eles simulariam um segundo CPU, caso o "primeiro" CPU estive "ocupado" com algumas intruçoes, melhorando o processamento, certo?!

PERGUNTA:

6 - Este "segundo núcleo" também tem acesso a cache normalmente ou não? Semelhante aos DUO Core que acessam a cache normalmente como se fosse um só núcleo?

Ele simula uma segunda CPU com as unidades ociosas da primeira e sim, o acesso ao cache é normal (é o mesmo cache para as duas threads ao invés de um cache (interno) por núcleo como nos dual core).

Dornel · 10 de julho de 2006

Voltando ao assunto de desempenho das caches, eu discordo que quanto mais cache L1 teriamos um desempenho inferior...

A perda de desempenho em um unico acesso de uma L1 64kb contra L1 1mb(exemplo) com certeza seria bem menor.

Agora, a quantia de dados que endereçariamos em uma cache L1 de 1mb, poderiamos evitar zilhoes de acessos a memoria ram, muiiiiito mais lenta, ganhando muita performance final.

O real problema de L1 pequenas é o espaço no processador e tambem o alto custo de ter caches L1 grandes.

alyssonr · 10 de julho de 2006

Voltando ao assunto de desempenho das caches, eu discordo que quanto mais cache L1 teriamos um desempenho inferior...

A perda de desempenho em um unico acesso de uma L1 64kb contra L1 1mb(exemplo) com certeza seria bem menor.

Agora, a quantia de dados que endereçariamos em uma cache L1 de 1mb, poderiamos evitar zilhoes de acessos a memoria ram, muiiiiito mais lenta, ganhando muita performance final.

O real problema de L1 pequenas é o espaço no processador e tambem o alto custo de ter caches L1 grandes.

1 - Acredito que com as controladoras de memória ram internas aos CPU`s, como em alguns atualmente, poderemos ter realmente um ganho maior em relação ao acesso as RAM`s mas desconfio que mesmo assim o acesso, devido ser na velocidade do FSBda placa-mãe(é isso mesmo ou na velocidade do clock interno do CPU?!!), ainda seria menor que o acesso as memos cache, internas aos CPU`s, que seriam acessadas na velocidade do clock interno ... mas ficam as dúvidas quanto ao desempenho, se alguém aí tiver micros com controladoras de memo ram internas aos cpu`s, por favor coloquem suas considerações ...