Não é bem que eu ache que foi um retrocesso, só uma cosa que me deixa com o pé atrás, a grande vantagem dos processadores fora de ordem é lidar com latências imprevisíveis mas ainda assim, tem limite, o scheduler não consegue detectar mudanças na latência esperada das instruções tão rápido, o que pode acontecer com um L1 muito pequeno é o scheduler não agendar de forma muito eficiente deixando bolhas no caminho, as vezes um L1 maior com latência maior fica mais rápido justamente pelo scheduler conseguir agendar as instruções de forma mais eficiente, claro, aqui também existem limites, um L1 com latência de 20 ciclos vai ser lento e não tem muito o que o scheduler, as vezes precisa assumir o risco de mais "misses" para não aumentar muito a latência, se ele rodasse a uns 20GHz e só tivesse 8kB de L1 acho que ainda seria aceitável, nesse clock mesmo com um L1 pequeno também acho que seria difícil uma latência menor do que uns 10 ciclos, o agendador ainda teria que fazer mágica.
Mas... Isso é um problema que a AMD deve ter quebrado a cabeça para resolver, o BD foi feito para rodar em um clock maior que o K10 e para isso precisavam fazer alguns sacrifícios e resolver alguns problemas, o L1 é um desses problemas e não é fácil de resolver.