La nueva micro-arquitectura modular AMD Steamroller

Nueva micro-arquitectura modular de tercera generación trae grandes mejoras.

El año pasado, AMD lanzó sus primeros microprocesadores basados en su micro-arquitectura modular de primera generación Bulldozer, en la cual estuvieron basados sus microprocesadores Zambezi (escritorio socket AM3+), Zurich (servidores socket AM3+), Valencia (servidores 2P socket C32) e Interlagos (servidores 4P socket G34). Este año, vimos la aparición de los primeros microprocesadores basados en la micro-arquitectura modular de segunda generación Piledriver, los conocidos APU AMD A-Series de segunda generación “Trinity”. Y AMD desde ya detalla lo que será su arquitectura modular de tercera generación Steamroller.

Introducción

Con Bulldozer, AMD introdujo una de las micro-arquitecturas más interesantes que se han visto en mucho tiempo, estrenando el innovador (pero confuso) concepto modular, el cual permite ahorrar circuitería combinando dos núcleos de procesamiento de enteros junto a una unidad de punto flotante (FPU) en un único módulo compartido, lo que es algo alejado del tradicional núcleo que combina una unidad de procesamiento de enteros y una unidad de punto flotante.

Este diseño modular le permitió a AMD ofrecer microprocesadores con hasta 8 núcleos (para servidores hasta 16 núcleos), pero a diferencia de los núcleos tradicionales, no posee 8 unidades de punto flotante, sino “4 que actúan como 8”, pues cada una de sus FPU divide sus recursos a la mitad cuando ambos núcleos de enteros están en uso, motivo por el cual AMD la denomina Flex-FP.

Pero si bien la micro-arquitectura Bulldozer es innovadora, trajo consigo un efecto que no fue del agrado de muchos usuarios: una disminución del rendimiento por ciclo en comparación con la anterior micro-arquitectura K10.5 usada en los microprocesadores Phenom II. Este menor rendimiento por ciclo fue compensado por una mayor frecuencia de funcionamiento, y el mayor poder de multiprocesamiento del chip, una concesión de rendimiento por ciclo un poco inferior del núcleo (Bulldozer vs K10.5 a la misma frecuencia) a cambio de un mayor número de ellos (hasta 8 núcleos en Bulldozer y hasta 6 en K10.5).

AMD mejoró esta situación con su actual micro-arquitectura Piledriver, la cual ofrece un rendimiento por ciclo 15% superior a Bulldozer, e incorpora mejoras enfocadas a reducir su consumo energético como RCM (Resonant Clock Mesh), la cual le permite ofrecer frecuencias incluso más altas que las del microprocesador AMD FX-8150 (3.6GHz base y 4.2GHz en modo Turbo), pues el nuevo CPU AMD FX-8350 “Vishera” funcionará a una frecuencia base de 4GHz y a 4.2GHz en el modo Turbo (la mitad de sus núcleos activos).

Aún faltan algunos pocos meses para que Vishera (basado en la micro-arquitectura Piledriver) haga su aparición, y aunque AMD se encuentra preparando su lanzamiento, alista también su futura micro-arquitectura Steamroller, la que nos describe a continuación.

La micro-arquitectura Steamroller

La micro-arquitectura modular de tercera generación Steamroller de AMD, promete incrementar el rendimiento en todas sus áreas, a la vez que se enfoca en el rendimiento por watt. Para ello, AMD ha optimizado de sobremanera sus módulos Steamroller, a fin de priorizar su rendimiento por ciclo, introduciendo muchas mejoras enfocadas a explotar de mejor forma todas sus capacidades.

Si con Piledriver AMD mejoró la unidad de predicción de saltos, prefetcher, scheduler, sus decodificadores de instrucciones compartidos, los recursos para la ejecución fuera de orden, la unidad de punto flotante, la eficiencia de los cache L1/L2, y redujo el consumo... ¿Qué fata por mejorar? Pues muchas cosas más aún.

Módulos con mayor rendimiento por ciclo

Steamroller mantiene el diseño modular base presente en Bulldozer y Piledriver, pero trae consigo muchas mejoras dedicadas a mejorar tanto el rendimiento por ciclo del chip como su rendimiento paralelo masivo.

Para empezar, tenemos un decodificador de instrucciones de cuatro vías dedicado por cada uno los dos núcleos de procesamiento de enteros presentes en el módulo (ambos decodificadores son capaces de funcionar en paralelo), una gran mejora por sobre el decodificador de cuatro vías compartido entre los dos núcleos de enteros y la unidad de punto flotante presentes en los módulos de las micro-arquitecturas Bulldozer y Piledriver. Esto elimina la penalización al rendimiento que existe al ejecutar dos hilos de procesamiento por módulo, a la vez que incrementa el rendimiento de las tareas mono-hilo.

También tenemos una unidad de pre-fetch de instrucciones, scheduler (entre 5 a 10% mejor gracias a un manejo más inteligente de los recursos) y dispatch (envió de datos) mejorados, gracias a la cual se mejora la eficiencia en los saltos condicionales (20%), incrementa la eficiencia por hilo (en más del 25%) y reduce los datos no encontrados en el cache de instrucciones (30%), esto último gracias a caches L1 de instrucciones y de datos de mayor tamaño y con menor latencia.

Todas estas mejoras combinadas traen un incremento en el rendimiento por ciclo superior al 30% en la ejecución de cálculos de enteros.

Enfocado al rendimiento por watt

AMD se aseguró de que muchas de las mejoras arquitectónicas de Steamroller estén acompañadas de un menor consumo. Una nueva unidad de punto flotante Flex-FP de tercera generación incrementa el rendimiento y reduce el consumo al compartir recursos entre su unidad de procesamiento x87/MMX con sus dos unidades FMAC de 128 bits; esto a su vez permite reducir el número de transistores usados.

La nueva lógica de ejecución del módulo permite que todas las tuberías del chip estén cargadas con datos, mejorando las transferencias internas, a la vez que realiza un mejor uso de sus recursos, desactivando/activando las diversas unidades del chip según los requisitos de las aplicaciones (esto incluye a secciones de su cache L2), gracias a un uso más inteligente de todas ellas, proporcionando el mayor rendimiento posible y un bajo consumo.

Además incluye hardware dedicado que monitorea en tiempo real las transferencias entre el CPU y el GPU, mejorando aún más la eficiencia de ambos componentes (importante para los futuros APUs basados en Steamroller).

Productos basados en Steamroller

AMD anuncia futuros microprocesadores y APUs Opteron basados en Steamroller, pero en su presentación muchas veces menciona la gran mejora en el rendimiento de los juegos con Steamroller, por lo que es seguro que veremos también APUs y CPUs basados en Steamroller para equipos de escritorio y portátiles.

Que viene después

Sabemos que el sucesor de Steamroller será la futura micro-arquitectura Excavator, la que promete un salto de rendimiento tan o más importante que el que tendrá Steamroller; pero lamentablemente no tendremos datos sobre Excavator hasta por lo menos el próximo año.

---------------

También pueden comentar en nuestro foro.

powered byDisqus