¿Por qué 2 * (i * i) es más rápido que 2 * i * i en Java?

Question

Más

Fuente Versión no AMP Editar

¿Por qué 2 * (i * i) es más rápido que 2 * i * i en Java?

El siguiente programa Java tarda una media de entre 0,50 y 0,55 segundos en ejecutarse:

public static void main(String[] args) {
    long startTime = System.nanoTime();
    int n = 0;
    for (int i = 0; i < 1000000000; i++) {
        n += 2 * (i * i);
    }
    System.out.println((double) (System.nanoTime() - startTime) / 1000000000 + " s");
    System.out.println("n = " + n);
}

Si sustituyo 2 * (i * i) por 2 * i * i, tarda entre 0,60 y 0,65 s en ejecutarse. ¿Por qué?

He ejecutado cada versión del programa 15 veces, alternando entre las dos. Estos son los resultados:

 2*(i*i)  |  2*i*i
----------+----------
0.5183738 | 0.6246434
0.5298337 | 0.6049722
0.5308647 | 0.6603363
0.5133458 | 0.6243328
0.5003011 | 0.6541802
0.5366181 | 0.6312638
0.515149  | 0.6241105
0.5237389 | 0.627815
0.5249942 | 0.6114252
0.5641624 | 0.6781033
0.538412  | 0.6393969
0.5466744 | 0.6608845
0.531159  | 0.6201077
0.5048032 | 0.6511559
0.5232789 | 0.6544526

La ejecución más rápida de 2 * i * i tomó más tiempo que la ejecución más lenta de 2 * (i * i). Si ambos fueran igual de eficientes, la probabilidad de que esto ocurra sería inferior a 1/2^15 * 100% = 0,00305%.

Peter Mortensen

Pregunta editada 24º abril 2019 в 3:03

Programación

benchmarking java performance jit bytecode

23º noviembre 2018 в 8:40

13 vistas

DSchmidt · Answer 1 · 2018-11-23T21:19:06+00:00

Códigos de bytes: https://cs.nyu.edu/courses/fall00/V22.0201-001/jvm2.html Visor de códigos de bytes: https://github.com/Konloch/bytecode-viewer

En mi JDK (Windows 10 64 bit, 1.8.0_65-b17) puedo reproducir y explicar:

public static void main(String[] args) {
    int repeat = 10;
    long A = 0;
    long B = 0;
    for (int i = 0; i < repeat; i++) {
        A += test();
        B += testB();
    }

    System.out.println(A / repeat + " ms");
    System.out.println(B / repeat + " ms");
}

private static long test() {
    int n = 0;
    for (int i = 0; i < 1000; i++) {
        n += multi(i);
    }
    long startTime = System.currentTimeMillis();
    for (int i = 0; i < 1000000000; i++) {
        n += multi(i);
    }
    long ms = (System.currentTimeMillis() - startTime);
    System.out.println(ms + " ms A " + n);
    return ms;
}

private static long testB() {
    int n = 0;
    for (int i = 0; i < 1000; i++) {
        n += multiB(i);
    }
    long startTime = System.currentTimeMillis();
    for (int i = 0; i < 1000000000; i++) {
        n += multiB(i);
    }
    long ms = (System.currentTimeMillis() - startTime);
    System.out.println(ms + " ms B " + n);
    return ms;
}

private static int multiB(int i) {
    return 2 * (i * i);
}

private static int multi(int i) {
    return 2 * i * i;
}

Salida:

...
405 ms A 785527736
327 ms B 785527736
404 ms A 785527736
329 ms B 785527736
404 ms A 785527736
328 ms B 785527736
404 ms A 785527736
328 ms B 785527736
410 ms
333 ms

¿Y por qué? El código de bytes es este:

 private static multiB(int arg0) { // 2 * (i * i)


     L1 {
         iconst_2
         iload0
         iload0
         imul
         imul
         ireturn
     }
     L2 {
     }
 }

 private static multi(int arg0) { // 2 * i * i


     L1 {
         iconst_2
         iload0
         imul
         iload0
         imul
         ireturn
     }
     L2 {
     }
 }

La diferencia es: Con paréntesis (2 * (i * i)):

push const stack
push local en pila
push local en la pila
multiplicar la parte superior de la pila
multiplicar la parte superior de la pila

Sin paréntesis (2 * i * i):

push const stack
empujar local en la pila
multiplicar la parte superior de la pila
empujar local en la pila
multiplicar la parte superior de la pila

Cargar todo en la pila y luego trabajar hacia abajo es más rápido que cambiar entre poner en la pila y operar en ella.

paulsm4 · Answer 2 · 2018-11-23T21:10:06+00:00

Obtuve resultados similares:

2 * (i * i): 0.458765943 s, n=119860736
2 * i * i: 0.580255126 s, n=119860736

Obtuve los resultados SAME si ambos bucles estaban en el mismo programa, o si cada uno estaba en un archivo .java/.class separado, ejecutado en una ejecución separada.

Finalmente, aquí está un javap -c -v descompilar de cada uno:

     3: ldc           #3                  // String 2 * (i * i):
     5: invokevirtual #4                  // Method java/io/PrintStream.print:(Ljava/lang/String;)V
     8: invokestatic  #5                  // Method java/lang/System.nanoTime:()J
     8: invokestatic  #5                  // Method java/lang/System.nanoTime:()J
    11: lstore_1
    12: iconst_0
    13: istore_3
    14: iconst_0
    15: istore        4
    17: iload         4
    19: ldc           #6                  // int 1000000000
    21: if_icmpge     40
    24: iload_3
    25: iconst_2
    26: iload         4
    28: iload         4
    30: imul
    31: imul
    32: iadd
    33: istore_3
    34: iinc          4, 1
    37: goto          17

vs.

     3: ldc           #3                  // String 2 * i * i:
     5: invokevirtual #4                  // Method java/io/PrintStream.print:(Ljava/lang/String;)V
     8: invokestatic  #5                  // Method java/lang/System.nanoTime:()J
    11: lstore_1
    12: iconst_0
    13: istore_3
    14: iconst_0
    15: istore        4
    17: iload         4
    19: ldc           #6                  // int 1000000000
    21: if_icmpge     40
    24: iload_3
    25: iconst_2
    26: iload         4
    28: imul
    29: iload         4
    31: imul
    32: iadd
    33: istore_3
    34: iinc          4, 1
    37: goto          17

PARA QUE SEPAS...

java -version
java version "1.8.0_121"
Java(TM) SE Runtime Environment (build 1.8.0_121-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.121-b13, mixed mode)

Jorn Vernee · Answer 3 · 2018-11-23T20:54:45+00:00

Los dos métodos de adición generan un código de bytes ligeramente diferente:

  17: iconst_2
  18: iload         4
  20: iload         4
  22: imul
  23: imul
  24: iadd

Para 2 * (i * i) vs:

  17: iconst_2
  18: iload         4
  20: imul
  21: iload         4
  23: imul
  24: iadd

Para 2 * i * i.

Y cuando se utiliza un punto de referencia JMH como este:

@Warmup(iterations = 5, batchSize = 1)
@Measurement(iterations = 5, batchSize = 1)
@Fork(1)
@BenchmarkMode(Mode.AverageTime)
@OutputTimeUnit(TimeUnit.MILLISECONDS)
@State(Scope.Benchmark)
public class MyBenchmark {

    @Benchmark
    public int noBrackets() {
        int n = 0;
        for (int i = 0; i < 1000000000; i++) {
            n += 2 * i * i;
        }
        return n;
    }

    @Benchmark
    public int brackets() {
        int n = 0;
        for (int i = 0; i < 1000000000; i++) {
            n += 2 * (i * i);
        }
        return n;
    }

}

La diferencia es clara:

# JMH version: 1.21
# VM version: JDK 11, Java HotSpot(TM) 64-Bit Server VM, 11+28
# VM options: 

Benchmark                      (n)  Mode  Cnt    Score    Error  Units
MyBenchmark.brackets    1000000000  avgt    5  380.889 ± 58.011  ms/op
MyBenchmark.noBrackets  1000000000  avgt    5  512.464 ± 11.098  ms/op

Lo que observas es correcto, y no sólo una anomalía de tu estilo de benchmarking (es decir, sin calentamiento, ver ¿Cómo escribo un micro-benchmark correcto en Java?)

Corriendo de nuevo con Graal:

# JMH version: 1.21
# VM version: JDK 11, Java HotSpot(TM) 64-Bit Server VM, 11+28
# VM options: -XX:+UnlockExperimentalVMOptions -XX:+EnableJVMCI -XX:+UseJVMCICompiler

Benchmark                      (n)  Mode  Cnt    Score    Error  Units
MyBenchmark.brackets    1000000000  avgt    5  335.100 ± 23.085  ms/op
MyBenchmark.noBrackets  1000000000  avgt    5  331.163 ± 50.670  ms/op

Verás que los resultados son mucho más parecidos, lo que tiene sentido, ya que Graal es un compilador más moderno y de mejor rendimiento en general.

Así que esto es realmente sólo depende de lo bien que el compilador JIT es capaz de optimizar un pedazo de código en particular, y no tiene necesariamente una razón lógica a la misma.