Regresar   Foros de CHW > Para Entendidos > Highly Technical


Estás leyendo el thread

La clave para el rendimiento del K10

 en el foro Highly Technical, que dice: "Estoy escribiendo un código SSE2 y me topé con una presentación [1] para desarrolladores de "



bienvenido

Tags
, ,

Responder

 

LinkBack Herramientas
Old 09-sep-2007, 10:19   #1
x
Ziggy stardust
 
Avatar de x
 
Registrado: mayo-2004
Location: Donostia-San Sebastian, España
Posts: 2.320


Enviar un mensaje por MSN a x
La clave para el rendimiento del K10

Estoy escribiendo un código SSE2 y me topé con una presentación [1] para desarrolladores de AMD que habla sobre Barcelona desde el punto de vista de optimización.

[1] http://developer.amd.com/assets/GDC2...lticore_JB.pdf

Y aparte de lo que ya es popularmente sabido, la FPU de 128 bits, mencionan que en Barcelona se pueden leer bloques de 128 bits desde la memoria sin penalización por alineamiento.

Explicaré un poco más por si no se entiende, en SSE para leer un vector desde memoria hay dos clases de instrucciones, MOVAPD que leen de una dirección de memoria que esta alineada a 16 bytes (es decir, la direccion es multiplo de 16) y otra MOVUPD que lee de cualquier dirección de memoria.

Hasta ahora en todas las implementaciones de SSE2, la primera instrucción es muchisimo más eficiente que la segunda, tanto que Intel recomienda no usar MOVUPD y reemplazarla por dos lecturas secuenciales.

A la hora de programar, el alineamiento es un lio, por que no siempre es posible saber (para el compilador o para el programador) si la dirección de memoria está o no alineada y por lo tanto hay que usar MOVUPD o hacer malabares para tener direcciones alineadas.

Pero en Barcelona, MOVUPD cuesta escencialmente lo mismo que MOVAPD y por lo tanto permite un mayor rendimiento, flexibilidad a la hora de programar y aprovechar mejor la unidad de punto flotante, que requiere usar vectores SSE completos.

Probablemente esto no se verá reflejado de inmediato en el rendimiento, por que los programas y compiladores estan optimizados para usar MOVAPD, pero a futuro probablemente se verá.

Nota: Aca usé como ejemplo MOVAP/MOVUPD, pero lo mismo es valido para las otras versiones de estas instrucciones: MOVUPS y MOVDQU.

Editado por x en 09-sep-2007 a las 12:35.
x is offline   Citar y responder
Recuerda que no verás este banner una vez que te registres

Old 09-sep-2007, 10:51   #2
Dark Zero
Avanzado
 
Avatar de Dark Zero
 
Registrado: abril-2004
Posts: 2.341

Mi PC

Enviar un mensaje por ICQ a Dark Zero
si puede leer de corrido 128 bits asumo que optimizar para ese procesador rutinas de lecturas ipv6 de 128bits seria mucho mas eficiente o me equivoco?
__________________


Athlon 64 X2 4400+ 939 - 2 GB - WD+Hitachi 2 TB - Palit 8800GT - NEC 2490WUXi - Plextor 755SA - Corsair 620W - GTD 5.2/0.4 (3.2/0.4)
Dark Zero is offline   Citar y responder
Old 09-sep-2007, 11:17   #3
x
Ziggy stardust
 
Avatar de x
 
Registrado: mayo-2004
Location: Donostia-San Sebastian, España
Posts: 2.320


Enviar un mensaje por MSN a x
Quote:
Originalmente publicado por Dark Zero Ver post
si puede leer de corrido 128 bits asumo que optimizar para ese procesador rutinas de lecturas ipv6 de 128bits seria mucho mas eficiente o me equivoco?
Desde el P3 se pueden leer de corrido 128 bits, la ventaja del K10 es que puede hacerlo de manera óptima desde cualquier direccion de memoria.

Respecto a IPV6, no se demasiado del tema, pero no creo que influya demasiado el manejo de direcciones en el rendimiento, pero si, podrias almacenar una direccion en un registro SSE y cargar y almacenar con una sola instrucción.
x is offline   Citar y responder
Old 09-sep-2007, 11:46   #4
neoyagami
fondo de botella user
Server Admin
 
Avatar de neoyagami
 
Registrado: febrero-2005
Location: lo mas probable que trabajando
Posts: 6.979


Enviar un mensaje por MSN a neoyagami Send a message via Skype™ to neoyagami
interesante texto que nice = ahora me imagino que para la computacion de calculo habra un buen avanze en rendimiento

ahora como que te confundiste aqui cierto?
Quote:
la primera instrucción es muchisimo más eficiente que la primera
__________________
DELL Precision M90.
HDD:200GB 7200RPM
VID:Nvidia Quadro FX 2500M 512M
PAN:XUVGA 1920x1200 mi blog

Give me enough downtime & I can rebuild the world
neoyagami is offline   Citar y responder
Old 09-sep-2007, 12:38   #5
x
Ziggy stardust
 
Avatar de x
 
Registrado: mayo-2004
Location: Donostia-San Sebastian, España
Posts: 2.320


Enviar un mensaje por MSN a x
Quote:
Originalmente publicado por neoyagami Ver post
interesante texto que nice = ahora me imagino que para la computacion de calculo habra un buen avanze en rendimiento
Yo creo que si, al menos en nuestro código significa que podemos optimizar bastante. Lo del alineamiento es un cacho.

Quote:
Originalmente publicado por neoyagami Ver post
ahora como que te confundiste aqui cierto?
Si me confundí, corregido. Gracias.
x is offline   Citar y responder
Old 13-sep-2007, 01:33   #6
hexagram
Escuchador de EMO
 
Avatar de hexagram
 
Registrado: febrero-2006
Posts: 1.667

Mi PC

Enviar un mensaje por AIM a hexagram Enviar un mensaje por MSN a hexagram
Amo las conversaciones de ingenieros, que me hacen darme cuenta que n o sé nada
__________________

http://www.192.cl/blog

Intel Core 2 Duo 2.16 GHZ
Ati Mobility Radeon x1600
Monitor Apple 20'
hexagram is offline   Citar y responder
Old 13-sep-2007, 01:55   #7
alvaritz...
Avanzado
 
Avatar de alvaritz...
 
Registrado: mayo-2006
Location: Santiago, Chile
Posts: 1.365


Enviar un mensaje por MSN a alvaritz...
yo también....
__________________


Servicios Fotograficos!!!!!
alvaritz... is offline   Citar y responder
Old 13-sep-2007, 02:05   #8
nata_ratero
Persona
 
Avatar de nata_ratero
 
Registrado: septiembre-2006
Location: Puerto Montt y weacillo
Posts: 660


Enviar un mensaje por MSN a nata_ratero
niceee. Había leído bastante que Barcelona era mejor en operaciones de (punto/coma) flotante, pero ahora entiendo el porqué

saludos!
__________________

jugosa la weá de firma, no tiene nada..
nata_ratero is offline   Citar y responder
Old 08-ene-2008, 00:50   #9
Fotón
Experto
 
Avatar de Fotón
 
Registrado: marzo-2005
Posts: 4.772


wow vamos ver si puedo digerirlo...
__________________
Fotón is offline   Citar y responder
Old 08-ene-2008, 01:11   #10
Metro
Chuck Norris
CHW RR.PP.
 
Avatar de Metro
 
Registrado: julio-2005
Posts: 20.151


Enviar un mensaje por MSN a Metro
Se supone que hay un par mas de optimizaciones para que K10 ande mejor, el cacho es que hay que programar o reprogramar y con las velocidades actuales pocos desarrolladores estan interesados.
__________________

Red & Black
Metro is offline   Citar y responder
Old 09-mar-2008, 22:24   #11
az_spirit
newbie
 
Avatar de az_spirit
 
Registrado: diciembre-2006
Posts: 21


solo se que nada se pero ahora se que se un poco mas de lo que nunca pensé saber
az_spirit is offline   Citar y responder
Old 09-mar-2008, 23:09   #12
Danikin
Wn Ocioso
 
Avatar de Danikin
 
Registrado: marzo-2007
Location: hace mucho tiempo en una galaxia muy lejana
Posts: 3.689

Mi PC

Enviar un mensaje por MSN a Danikin
y yo pensando que hablaban de una ciudad
__________________
Danikin is offline   Citar y responder
Old 10-mar-2008, 05:31   #13
AlCapone
CEO ITSource & IBM Guy
Moderador
 
Avatar de AlCapone
 
Registrado: octubre-2005
Location: Jofré, Santiago, Chilito
Posts: 3.244

Mi PC

Enviar un mensaje por ICQ a AlCapone
No jugo aquí please... Atte. Su mod. favorito
__________________
Muy Pronto...

Mr. Metrosexual 2007 - Niñitas de la Reina Fan! - Ex Blog - .mac User -
AlCapone is offline   Citar y responder
Old 10-mar-2008, 08:09   #14
tetepox
Lord Copper Pc
 
Avatar de tetepox
 
Registrado: julio-2005
Location: Vallenar / III Región
Posts: 2.560

Mi PC

Enviar un mensaje por MSN a tetepox
Quote:
Originalmente publicado por Metro Ver post
Se supone que hay un par mas de optimizaciones para que K10 ande mejor, el cacho es que hay que programar o reprogramar y con las velocidades actuales pocos desarrolladores estan interesados.
¿Pero en la practica que tan complicado seria reprogramar esa parte? porque supongo que en el desarrollo de un software esa parte es la menor en el conjunto del programa, por lo tanto hacer una optimizacion seria "un tema menor" y que debendria muchos beneficios.
__________________
tetepox is offline   Citar y responder
Old 10-mar-2008, 12:52   #15
AlCapone
CEO ITSource & IBM Guy
Moderador
 
Avatar de AlCapone
 
Registrado: octubre-2005
Location: Jofré, Santiago, Chilito
Posts: 3.244

Mi PC

Enviar un mensaje por ICQ a AlCapone
No es tan asi por dos razones. El manejo de entrada de los vectores te cambia basicamente todas las funciones ó más profundamente el flujo que diseñas para que el programa que sea limpio y eficiente. Además de eso, redistribuir software recompilado por razones como esta es algo que en pocos ambientes puede llegar a ocurrir. Es demasiado trabajo.
__________________
Muy Pronto...

Mr. Metrosexual 2007 - Niñitas de la Reina Fan! - Ex Blog - .mac User -
AlCapone is offline   Citar y responder
Old 10-mar-2008, 17:35   #16
x
Ziggy stardust
 
Avatar de x
 
Registrado: mayo-2004
Location: Donostia-San Sebastian, España
Posts: 2.320


Enviar un mensaje por MSN a x
Quote:
Originalmente publicado por Metro Ver post
Se supone que hay un par mas de optimizaciones para que K10 ande mejor, el cacho es que hay que programar o reprogramar y con las velocidades actuales pocos desarrolladores estan interesados.
Por el contrario, en el K10 es más facil de optimizar por que el compilador o el programador no tiene que preocuparse si la memoria esta alineada o no, que es principal cacho de usar SSE.
x is offline   Citar y responder
Responder

  Foros de CHW > Para Entendidos > Highly Technical

Herramientas

Ir a

Discusiones similares

Discusión Iniciada por Foro Respuestas Último post
Como hago para poner nombre de usuario y clave a router? callo76 Internet y Redes 8 31-ago-2008 02:47
Samsung mejora proceso clave para LCDs Amenadiel Noticias Breves 17 03-nov-2007 19:22
que tarjeta de video puede darme rendimiento tanto para juegos como para renders Maverick85 [Notebooks] Dell 1 15-feb-2007 11:13
clave para red inalambrica fireball Internet y Redes 2 24-ene-2007 11:44
Para los que quiran quitar el asesor de contenido, sin clave deo Windows y programas varios 2 02-jun-2004 06:07


Todas las horas son GMT -4. La hora es 19:54.