Speed up -m 20 in -a 3 mode
authorJens Steube <jens.steube@gmail.com>
Tue, 23 Feb 2016 11:18:47 +0000 (12:18 +0100)
committerJens Steube <jens.steube@gmail.com>
Tue, 23 Feb 2016 11:18:47 +0000 (12:18 +0100)
OpenCL/common.c
OpenCL/m00020_a3.cl

index 40b7b8d..2445e0f 100644 (file)
@@ -5498,6 +5498,556 @@ static void overwrite_at_be (u32x sw[16], const u32x w0, const u32 salt_len)
   }
 }
 
+static void overwrite_at_le_4x4 (u32x w0[4], u32x w1[4], u32x w2[4], u32x w3[4], const u32x wx, const u32 salt_len)
+{
+  #if defined cl_amd_media_ops
+  switch (salt_len)
+  {
+    case  0:  w0[0] = wx;
+              break;
+    case  1:  w0[0] = amd_bytealign (wx, w0[0] << 24, 3);
+              w0[1] = amd_bytealign (w0[1] >>  8, wx, 3);
+              break;
+    case  2:  w0[0] = amd_bytealign (wx, w0[0] << 16, 2);
+              w0[1] = amd_bytealign (w0[1] >> 16, wx, 2);
+              break;
+    case  3:  w0[0] = amd_bytealign (wx, w0[0] <<  8, 1);
+              w0[1] = amd_bytealign (w0[1] >> 24, wx, 1);
+              break;
+    case  4:  w0[1] = wx;
+              break;
+    case  5:  w0[1] = amd_bytealign (wx, w0[1] << 24, 3);
+              w0[2] = amd_bytealign (w0[2] >>  8, wx, 3);
+              break;
+    case  6:  w0[1] = amd_bytealign (wx, w0[1] << 16, 2);
+              w0[2] = amd_bytealign (w0[2] >> 16, wx, 2);
+              break;
+    case  7:  w0[1] = amd_bytealign (wx, w0[1] <<  8, 1);
+              w0[2] = amd_bytealign (w0[2] >> 24, wx, 1);
+              break;
+    case  8:  w0[2] = wx;
+              break;
+    case  9:  w0[2] = amd_bytealign (wx, w0[2] << 24, 3);
+              w0[3] = amd_bytealign (w0[3] >>  8, wx, 3);
+              break;
+    case 10:  w0[2] = amd_bytealign (wx, w0[2] << 16, 2);
+              w0[3] = amd_bytealign (w0[3] >> 16, wx, 2);
+              break;
+    case 11:  w0[2] = amd_bytealign (wx, w0[2] <<  8, 1);
+              w0[3] = amd_bytealign (w0[3] >> 24, wx, 1);
+              break;
+    case 12:  w0[3] = wx;
+              break;
+    case 13:  w0[3] = amd_bytealign (wx, w0[3] << 24, 3);
+              w1[0] = amd_bytealign (w1[0] >>  8, wx, 3);
+              break;
+    case 14:  w0[3] = amd_bytealign (wx, w0[3] << 16, 2);
+              w1[0] = amd_bytealign (w1[0] >> 16, wx, 2);
+              break;
+    case 15:  w0[3] = amd_bytealign (wx, w0[3] <<  8, 1);
+              w1[0] = amd_bytealign (w1[0] >> 24, wx, 1);
+              break;
+    case 16:  w1[0] = wx;
+              break;
+    case 17:  w1[0] = amd_bytealign (wx, w1[0] << 24, 3);
+              w1[1] = amd_bytealign (w1[1] >>  8, wx, 3);
+              break;
+    case 18:  w1[0] = amd_bytealign (wx, w1[0] << 16, 2);
+              w1[1] = amd_bytealign (w1[1] >> 16, wx, 2);
+              break;
+    case 19:  w1[0] = amd_bytealign (wx, w1[0] <<  8, 1);
+              w1[1] = amd_bytealign (w1[1] >> 24, wx, 1);
+              break;
+    case 20:  w1[1] = wx;
+              break;
+    case 21:  w1[1] = amd_bytealign (wx, w1[1] << 24, 3);
+              w1[2] = amd_bytealign (w1[2] >>  8, wx, 3);
+              break;
+    case 22:  w1[1] = amd_bytealign (wx, w1[1] << 16, 2);
+              w1[2] = amd_bytealign (w1[2] >> 16, wx, 2);
+              break;
+    case 23:  w1[1] = amd_bytealign (wx, w1[1] <<  8, 1);
+              w1[2] = amd_bytealign (w1[2] >> 24, wx, 1);
+              break;
+    case 24:  w1[2] = wx;
+              break;
+    case 25:  w1[2] = amd_bytealign (wx, w1[2] << 24, 3);
+              w1[3] = amd_bytealign (w1[3] >>  8, wx, 3);
+              break;
+    case 26:  w1[2] = amd_bytealign (wx, w1[2] << 16, 2);
+              w1[3] = amd_bytealign (w1[3] >> 16, wx, 2);
+              break;
+    case 27:  w1[2] = amd_bytealign (wx, w1[2] <<  8, 1);
+              w1[3] = amd_bytealign (w1[3] >> 24, wx, 1);
+              break;
+    case 28:  w1[3] = wx;
+              break;
+    case 29:  w1[3] = amd_bytealign (wx, w1[3] << 24, 3);
+              w2[0] = amd_bytealign (w2[0] >>  8, wx, 3);
+              break;
+    case 30:  w1[3] = amd_bytealign (wx, w1[3] << 16, 2);
+              w2[0] = amd_bytealign (w2[0] >> 16, wx, 2);
+              break;
+    case 31:  w1[3] = amd_bytealign (wx, w1[3] <<  8, 1);
+              w2[0] = amd_bytealign (w2[0] >> 24, wx, 1);
+              break;
+    case 32:  w0[0] = wx;
+              break;
+    case 33:  w2[0] = amd_bytealign (wx, w2[0] << 24, 3);
+              w2[1] = amd_bytealign (w2[1] >>  8, wx, 3);
+              break;
+    case 34:  w2[0] = amd_bytealign (wx, w2[0] << 16, 2);
+              w2[1] = amd_bytealign (w2[1] >> 16, wx, 2);
+              break;
+    case 35:  w2[0] = amd_bytealign (wx, w2[0] <<  8, 1);
+              w2[1] = amd_bytealign (w2[1] >> 24, wx, 1);
+              break;
+    case 36:  w2[1] = wx;
+              break;
+    case 37:  w2[1] = amd_bytealign (wx, w2[1] << 24, 3);
+              w2[2] = amd_bytealign (w2[2] >>  8, wx, 3);
+              break;
+    case 38:  w2[1] = amd_bytealign (wx, w2[1] << 16, 2);
+              w2[2] = amd_bytealign (w2[2] >> 16, wx, 2);
+              break;
+    case 39:  w2[1] = amd_bytealign (wx, w2[1] <<  8, 1);
+              w2[2] = amd_bytealign (w2[2] >> 24, wx, 1);
+              break;
+    case 40:  w2[2] = wx;
+              break;
+    case 41:  w2[2] = amd_bytealign (wx, w2[2] << 24, 3);
+              w2[3] = amd_bytealign (w2[3] >>  8, wx, 3);
+              break;
+    case 42:  w2[2] = amd_bytealign (wx, w2[2] << 16, 2);
+              w2[3] = amd_bytealign (w2[3] >> 16, wx, 2);
+              break;
+    case 43:  w2[2] = amd_bytealign (wx, w2[2] <<  8, 1);
+              w2[3] = amd_bytealign (w2[3] >> 24, wx, 1);
+              break;
+    case 44:  w2[3] = wx;
+              break;
+    case 45:  w2[3] = amd_bytealign (wx, w2[3] << 24, 3);
+              w3[0] = amd_bytealign (w3[0] >>  8, wx, 3);
+              break;
+    case 46:  w2[3] = amd_bytealign (wx, w2[3] << 16, 2);
+              w3[0] = amd_bytealign (w3[0] >> 16, wx, 2);
+              break;
+    case 47:  w2[3] = amd_bytealign (wx, w2[3] <<  8, 1);
+              w3[0] = amd_bytealign (w3[0] >> 24, wx, 1);
+              break;
+    case 48:  w3[0] = wx;
+              break;
+    case 49:  w3[0] = amd_bytealign (wx, w3[0] << 24, 3);
+              w3[1] = amd_bytealign (w3[1] >>  8, wx, 3);
+              break;
+    case 50:  w3[0] = amd_bytealign (wx, w3[0] << 16, 2);
+              w3[1] = amd_bytealign (w3[1] >> 16, wx, 2);
+              break;
+    case 51:  w3[0] = amd_bytealign (wx, w3[0] <<  8, 1);
+              w3[1] = amd_bytealign (w3[1] >> 24, wx, 1);
+              break;
+    case 52:  w3[1] = wx;
+              break;
+    case 53:  w3[1] = amd_bytealign (wx, w3[1] << 24, 3);
+              w3[2] = amd_bytealign (w3[2] >>  8, wx, 3);
+              break;
+    case 54:  w3[1] = amd_bytealign (wx, w3[1] << 16, 2);
+              w3[2] = amd_bytealign (w3[2] >> 16, wx, 2);
+              break;
+    case 55:  w3[1] = amd_bytealign (wx, w3[1] <<  8, 1);
+              w3[2] = amd_bytealign (w3[2] >> 24, wx, 1);
+              break;
+    case 56:  w3[2] = wx;
+              break;
+    case 57:  w3[2] = amd_bytealign (wx, w3[2] << 24, 3);
+              w3[3] = amd_bytealign (w3[3] >>  8, wx, 3);
+              break;
+    case 58:  w3[2] = amd_bytealign (wx, w3[2] << 16, 2);
+              w3[3] = amd_bytealign (w3[3] >> 16, wx, 2);
+              break;
+    case 59:  w3[2] = amd_bytealign (wx, w3[2] <<  8, 1);
+              w3[3] = amd_bytealign (w3[3] >> 24, wx, 1);
+              break;
+    case 60:  w3[3] = wx;
+              break;
+    case 61:  w3[3] = amd_bytealign (wx, w3[3] << 24, 3);
+              //w4[0] = amd_bytealign (w4[0] >>  8, wx, 3);
+              break;
+    case 62:  w3[3] = amd_bytealign (wx, w3[3] << 16, 2);
+              //w4[0] = amd_bytealign (w4[0] >> 16, wx, 2);
+              break;
+    case 63:  w3[3] = amd_bytealign (wx, w3[3] <<  8, 1);
+              //w4[0] = amd_bytealign (w4[0] >> 24, wx, 1);
+              break;
+  }
+  #else
+  switch (salt_len)
+  {
+    case  0:  w0[0] =  wx;
+              break;
+    case  1:  w0[0] = (w0[0] & 0x000000ff) | (wx <<  8);
+              w0[1] = (w0[1] & 0xffffff00) | (wx >> 24);
+              break;
+    case  2:  w0[0] = (w0[0] & 0x0000ffff) | (wx << 16);
+              w0[1] = (w0[1] & 0xffff0000) | (wx >> 16);
+              break;
+    case  3:  w0[0] = (w0[0] & 0x00ffffff) | (wx << 24);
+              w0[1] = (w0[1] & 0xff000000) | (wx >>  8);
+              break;
+    case  4:  w0[1] =  wx;
+              break;
+    case  5:  w0[1] = (w0[1] & 0x000000ff) | (wx <<  8);
+              w0[2] = (w0[2] & 0xffffff00) | (wx >> 24);
+              break;
+    case  6:  w0[1] = (w0[1] & 0x0000ffff) | (wx << 16);
+              w0[2] = (w0[2] & 0xffff0000) | (wx >> 16);
+              break;
+    case  7:  w0[1] = (w0[1] & 0x00ffffff) | (wx << 24);
+              w0[2] = (w0[2] & 0xff000000) | (wx >>  8);
+              break;
+    case  8:  w0[2] =  wx;
+              break;
+    case  9:  w0[2] = (w0[2] & 0x000000ff) | (wx <<  8);
+              w0[3] = (w0[3] & 0xffffff00) | (wx >> 24);
+              break;
+    case 10:  w0[2] = (w0[2] & 0x0000ffff) | (wx << 16);
+              w0[3] = (w0[3] & 0xffff0000) | (wx >> 16);
+              break;
+    case 11:  w0[2] = (w0[2] & 0x00ffffff) | (wx << 24);
+              w0[3] = (w0[3] & 0xff000000) | (wx >>  8);
+              break;
+    case 12:  w0[3] =  wx;
+              break;
+    case 13:  w0[3] = (w0[3] & 0x000000ff) | (wx <<  8);
+              w1[0] = (w1[0] & 0xffffff00) | (wx >> 24);
+              break;
+    case 14:  w0[3] = (w0[3] & 0x0000ffff) | (wx << 16);
+              w1[0] = (w1[0] & 0xffff0000) | (wx >> 16);
+              break;
+    case 15:  w0[3] = (w0[3] & 0x00ffffff) | (wx << 24);
+              w1[0] = (w1[0] & 0xff000000) | (wx >>  8);
+              break;
+    case 16:  w1[0] =  wx;
+              break;
+    case 17:  w1[0] = (w1[0] & 0x000000ff) | (wx <<  8);
+              w1[1] = (w1[1] & 0xffffff00) | (wx >> 24);
+              break;
+    case 18:  w1[0] = (w1[0] & 0x0000ffff) | (wx << 16);
+              w1[1] = (w1[1] & 0xffff0000) | (wx >> 16);
+              break;
+    case 19:  w1[0] = (w1[0] & 0x00ffffff) | (wx << 24);
+              w1[1] = (w1[1] & 0xff000000) | (wx >>  8);
+              break;
+    case 20:  w1[1] =  wx;
+              break;
+    case 21:  w1[1] = (w1[1] & 0x000000ff) | (wx <<  8);
+              w1[2] = (w1[2] & 0xffffff00) | (wx >> 24);
+              break;
+    case 22:  w1[1] = (w1[1] & 0x0000ffff) | (wx << 16);
+              w1[2] = (w1[2] & 0xffff0000) | (wx >> 16);
+              break;
+    case 23:  w1[1] = (w1[1] & 0x00ffffff) | (wx << 24);
+              w1[2] = (w1[2] & 0xff000000) | (wx >>  8);
+              break;
+    case 24:  w1[2] =  wx;
+              break;
+    case 25:  w1[2] = (w1[2] & 0x000000ff) | (wx <<  8);
+              w1[3] = (w1[3] & 0xffffff00) | (wx >> 24);
+              break;
+    case 26:  w1[2] = (w1[2] & 0x0000ffff) | (wx << 16);
+              w1[3] = (w1[3] & 0xffff0000) | (wx >> 16);
+              break;
+    case 27:  w1[2] = (w1[2] & 0x00ffffff) | (wx << 24);
+              w1[3] = (w1[3] & 0xff000000) | (wx >>  8);
+              break;
+    case 28:  w1[3] =  wx;
+              break;
+    case 29:  w1[3] = (w1[3] & 0x000000ff) | (wx <<  8);
+              w2[0] = (w2[0] & 0xffffff00) | (wx >> 24);
+              break;
+    case 30:  w1[3] = (w1[3] & 0x0000ffff) | (wx << 16);
+              w2[0] = (w2[0] & 0xffff0000) | (wx >> 16);
+              break;
+    case 31:  w1[3] = (w1[3] & 0x00ffffff) | (wx << 24);
+              w2[0] = (w2[0] & 0xff000000) | (wx >>  8);
+              break;
+    case 32:  w2[0] =  wx;
+              break;
+    case 33:  w2[0] = (w2[0] & 0x000000ff) | (wx <<  8);
+              w2[1] = (w2[1] & 0xffffff00) | (wx >> 24);
+              break;
+    case 34:  w2[0] = (w2[0] & 0x0000ffff) | (wx << 16);
+              w2[1] = (w2[1] & 0xffff0000) | (wx >> 16);
+              break;
+    case 35:  w2[0] = (w2[0] & 0x00ffffff) | (wx << 24);
+              w2[1] = (w2[1] & 0xff000000) | (wx >>  8);
+              break;
+    case 36:  w2[1] =  wx;
+              break;
+    case 37:  w2[1] = (w2[1] & 0x000000ff) | (wx <<  8);
+              w2[2] = (w2[2] & 0xffffff00) | (wx >> 24);
+              break;
+    case 38:  w2[1] = (w2[1] & 0x0000ffff) | (wx << 16);
+              w2[2] = (w2[2] & 0xffff0000) | (wx >> 16);
+              break;
+    case 39:  w2[1] = (w2[1] & 0x00ffffff) | (wx << 24);
+              w2[2] = (w2[2] & 0xff000000) | (wx >>  8);
+              break;
+    case 40:  w2[2] =  wx;
+              break;
+    case 41:  w2[2] = (w2[2] & 0x000000ff) | (wx <<  8);
+              w2[3] = (w2[3] & 0xffffff00) | (wx >> 24);
+              break;
+    case 42:  w2[2] = (w2[2] & 0x0000ffff) | (wx << 16);
+              w2[3] = (w2[3] & 0xffff0000) | (wx >> 16);
+              break;
+    case 43:  w2[2] = (w2[2] & 0x00ffffff) | (wx << 24);
+              w2[3] = (w2[3] & 0xff000000) | (wx >>  8);
+              break;
+    case 44:  w2[3] =  wx;
+              break;
+    case 45:  w2[3] = (w2[3] & 0x000000ff) | (wx <<  8);
+              w3[0] = (w3[0] & 0xffffff00) | (wx >> 24);
+              break;
+    case 46:  w2[3] = (w2[3] & 0x0000ffff) | (wx << 16);
+              w3[0] = (w3[0] & 0xffff0000) | (wx >> 16);
+              break;
+    case 47:  w2[3] = (w2[3] & 0x00ffffff) | (wx << 24);
+              w3[0] = (w3[0] & 0xff000000) | (wx >>  8);
+              break;
+    case 48:  w3[0] =  wx;
+              break;
+    case 49:  w3[0] = (w3[0] & 0x000000ff) | (wx <<  8);
+              w3[1] = (w3[1] & 0xffffff00) | (wx >> 24);
+              break;
+    case 50:  w3[0] = (w3[0] & 0x0000ffff) | (wx << 16);
+              w3[1] = (w3[1] & 0xffff0000) | (wx >> 16);
+              break;
+    case 51:  w3[0] = (w3[0] & 0x00ffffff) | (wx << 24);
+              w3[1] = (w3[1] & 0xff000000) | (wx >>  8);
+              break;
+    case 52:  w3[1] =  wx;
+              break;
+    case 53:  w3[1] = (w3[1] & 0x000000ff) | (wx <<  8);
+              w3[2] = (w3[2] & 0xffffff00) | (wx >> 24);
+              break;
+    case 54:  w3[1] = (w3[1] & 0x0000ffff) | (wx << 16);
+              w3[2] = (w3[2] & 0xffff0000) | (wx >> 16);
+              break;
+    case 55:  w3[1] = (w3[1] & 0x00ffffff) | (wx << 24);
+              w3[2] = (w3[2] & 0xff000000) | (wx >>  8);
+              break;
+    case 56:  w3[2] =  wx;
+              break;
+    case 57:  w3[2] = (w3[2] & 0x000000ff) | (wx <<  8);
+              w3[3] = (w3[3] & 0xffffff00) | (wx >> 24);
+              break;
+    case 58:  w3[2] = (w3[2] & 0x0000ffff) | (wx << 16);
+              w3[3] = (w3[3] & 0xffff0000) | (wx >> 16);
+              break;
+    case 59:  w3[2] = (w3[2] & 0x00ffffff) | (wx << 24);
+              w3[3] = (w3[3] & 0xff000000) | (wx >>  8);
+              break;
+    case 60:  w3[3] =  wx;
+              break;
+    case 61:  w3[3] = (w3[3] & 0x000000ff) | (wx <<  8);
+              //w4[0] = (w4[0] & 0xffffff00) | (wx >> 24);
+              break;
+    case 62:  w3[3] = (w3[3] & 0x0000ffff) | (wx << 16);
+              //w4[0] = (w4[0] & 0xffff0000) | (wx >> 16);
+              break;
+    case 63:  w3[3] = (w3[3] & 0x00ffffff) | (wx << 24);
+              //w4[0] = (w4[0] & 0xff000000) | (wx >>  8);
+              break;
+  }
+  #endif
+}
+
+static void overwrite_at_be_4x4 (u32x w0[4], u32x w1[4], u32x w2[4], u32x w3[4], const u32x wx, const u32 salt_len)
+{
+  // would be nice to have optimization based on amd_bytealign as with _le counterpart
+
+  switch (salt_len)
+  {
+    case  0:  w0[0] =  wx;
+              break;
+    case  1:  w0[0] = (w0[0] & 0xff000000) | (wx >>  8);
+              w0[1] = (w0[1] & 0x00ffffff) | (wx << 24);
+              break;
+    case  2:  w0[0] = (w0[0] & 0xffff0000) | (wx >> 16);
+              w0[1] = (w0[1] & 0x0000ffff) | (wx << 16);
+              break;
+    case  3:  w0[0] = (w0[0] & 0xffffff00) | (wx >> 24);
+              w0[1] = (w0[1] & 0x000000ff) | (wx <<  8);
+              break;
+    case  4:  w0[1] =  wx;
+              break;
+    case  5:  w0[1] = (w0[1] & 0xff000000) | (wx >>  8);
+              w0[2] = (w0[2] & 0x00ffffff) | (wx << 24);
+              break;
+    case  6:  w0[1] = (w0[1] & 0xffff0000) | (wx >> 16);
+              w0[2] = (w0[2] & 0x0000ffff) | (wx << 16);
+              break;
+    case  7:  w0[1] = (w0[1] & 0xffffff00) | (wx >> 24);
+              w0[2] = (w0[2] & 0x000000ff) | (wx <<  8);
+              break;
+    case  8:  w0[2] =  wx;
+              break;
+    case  9:  w0[2] = (w0[2] & 0xff000000) | (wx >>  8);
+              w0[3] = (w0[3] & 0x00ffffff) | (wx << 24);
+              break;
+    case 10:  w0[2] = (w0[2] & 0xffff0000) | (wx >> 16);
+              w0[3] = (w0[3] & 0x0000ffff) | (wx << 16);
+              break;
+    case 11:  w0[2] = (w0[2] & 0xffffff00) | (wx >> 24);
+              w0[3] = (w0[3] & 0x000000ff) | (wx <<  8);
+              break;
+    case 12:  w0[3] =  wx;
+              break;
+    case 13:  w0[3] = (w0[3] & 0xff000000) | (wx >>  8);
+              w1[0] = (w1[0] & 0x00ffffff) | (wx << 24);
+              break;
+    case 14:  w0[3] = (w0[3] & 0xffff0000) | (wx >> 16);
+              w1[0] = (w1[0] & 0x0000ffff) | (wx << 16);
+              break;
+    case 15:  w0[3] = (w0[3] & 0xffffff00) | (wx >> 24);
+              w1[0] = (w1[0] & 0x000000ff) | (wx <<  8);
+              break;
+    case 16:  w1[0] =  wx;
+              break;
+    case 17:  w1[0] = (w1[0] & 0xff000000) | (wx >>  8);
+              w1[1] = (w1[1] & 0x00ffffff) | (wx << 24);
+              break;
+    case 18:  w1[0] = (w1[0] & 0xffff0000) | (wx >> 16);
+              w1[1] = (w1[1] & 0x0000ffff) | (wx << 16);
+              break;
+    case 19:  w1[0] = (w1[0] & 0xffffff00) | (wx >> 24);
+              w1[1] = (w1[1] & 0x000000ff) | (wx <<  8);
+              break;
+    case 20:  w1[1] =  wx;
+              break;
+    case 21:  w1[1] = (w1[1] & 0xff000000) | (wx >>  8);
+              w1[2] = (w1[2] & 0x00ffffff) | (wx << 24);
+              break;
+    case 22:  w1[1] = (w1[1] & 0xffff0000) | (wx >> 16);
+              w1[2] = (w1[2] & 0x0000ffff) | (wx << 16);
+              break;
+    case 23:  w1[1] = (w1[1] & 0xffffff00) | (wx >> 24);
+              w1[2] = (w1[2] & 0x000000ff) | (wx <<  8);
+              break;
+    case 24:  w1[2] =  wx;
+              break;
+    case 25:  w1[2] = (w1[2] & 0xff000000) | (wx >>  8);
+              w1[3] = (w1[3] & 0x00ffffff) | (wx << 24);
+              break;
+    case 26:  w1[2] = (w1[2] & 0xffff0000) | (wx >> 16);
+              w1[3] = (w1[3] & 0x0000ffff) | (wx << 16);
+              break;
+    case 27:  w1[2] = (w1[2] & 0xffffff00) | (wx >> 24);
+              w1[3] = (w1[3] & 0x000000ff) | (wx <<  8);
+              break;
+    case 28:  w1[3] =  wx;
+              break;
+    case 29:  w1[3] = (w1[3] & 0xff000000) | (wx >>  8);
+              w2[0] = (w2[0] & 0x00ffffff) | (wx << 24);
+              break;
+    case 30:  w1[3] = (w1[3] & 0xffff0000) | (wx >> 16);
+              w2[0] = (w2[0] & 0x0000ffff) | (wx << 16);
+              break;
+    case 31:  w1[3] = (w1[3] & 0xffffff00) | (wx >> 24);
+              w2[0] = (w2[0] & 0x000000ff) | (wx <<  8);
+              break;
+    case 32:  w2[0] =  wx;
+              break;
+    case 33:  w2[0] = (w2[0] & 0xff000000) | (wx >>  8);
+              w2[1] = (w2[1] & 0x00ffffff) | (wx << 24);
+              break;
+    case 34:  w2[0] = (w2[0] & 0xffff0000) | (wx >> 16);
+              w2[1] = (w2[1] & 0x0000ffff) | (wx << 16);
+              break;
+    case 35:  w2[0] = (w2[0] & 0xffffff00) | (wx >> 24);
+              w2[1] = (w2[1] & 0x000000ff) | (wx <<  8);
+              break;
+    case 36:  w2[1] =  wx;
+              break;
+    case 37:  w2[1] = (w2[1] & 0xff000000) | (wx >>  8);
+              w2[2] = (w2[2] & 0x00ffffff) | (wx << 24);
+              break;
+    case 38:  w2[1] = (w2[1] & 0xffff0000) | (wx >> 16);
+              w2[2] = (w2[2] & 0x0000ffff) | (wx << 16);
+              break;
+    case 39:  w2[1] = (w2[1] & 0xffffff00) | (wx >> 24);
+              w2[2] = (w2[2] & 0x000000ff) | (wx <<  8);
+              break;
+    case 40:  w2[2] =  wx;
+              break;
+    case 41:  w2[2] = (w2[2] & 0xff000000) | (wx >>  8);
+              w2[3] = (w2[3] & 0x00ffffff) | (wx << 24);
+              break;
+    case 42:  w2[2] = (w2[2] & 0xffff0000) | (wx >> 16);
+              w2[3] = (w2[3] & 0x0000ffff) | (wx << 16);
+              break;
+    case 43:  w2[2] = (w2[2] & 0xffffff00) | (wx >> 24);
+              w2[3] = (w2[3] & 0x000000ff) | (wx <<  8);
+              break;
+    case 44:  w2[3] =  wx;
+              break;
+    case 45:  w2[3] = (w2[3] & 0xff000000) | (wx >>  8);
+              w3[0] = (w3[0] & 0x00ffffff) | (wx << 24);
+              break;
+    case 46:  w2[3] = (w2[3] & 0xffff0000) | (wx >> 16);
+              w3[0] = (w3[0] & 0x0000ffff) | (wx << 16);
+              break;
+    case 47:  w2[3] = (w2[3] & 0xffffff00) | (wx >> 24);
+              w3[0] = (w3[0] & 0x000000ff) | (wx <<  8);
+              break;
+    case 48:  w3[0] =  wx;
+              break;
+    case 49:  w3[0] = (w3[0] & 0xff000000) | (wx >>  8);
+              w3[1] = (w3[1] & 0x00ffffff) | (wx << 24);
+              break;
+    case 50:  w3[0] = (w3[0] & 0xffff0000) | (wx >> 16);
+              w3[1] = (w3[1] & 0x0000ffff) | (wx << 16);
+              break;
+    case 51:  w3[0] = (w3[0] & 0xffffff00) | (wx >> 24);
+              w3[1] = (w3[1] & 0x000000ff) | (wx <<  8);
+              break;
+    case 52:  w3[1] =  wx;
+              break;
+    case 53:  w3[1] = (w3[1] & 0xff000000) | (wx >>  8);
+              w3[2] = (w3[2] & 0x00ffffff) | (wx << 24);
+              break;
+    case 54:  w3[1] = (w3[1] & 0xffff0000) | (wx >> 16);
+              w3[2] = (w3[2] & 0x0000ffff) | (wx << 16);
+              break;
+    case 55:  w3[1] = (w3[1] & 0xffffff00) | (wx >> 24);
+              w3[2] = (w3[2] & 0x000000ff) | (wx <<  8);
+              break;
+    case 56:  w3[2] =  wx;
+              break;
+    case 57:  w3[2] = (w3[2] & 0xff000000) | (wx >>  8);
+              w3[3] = (w3[3] & 0x00ffffff) | (wx << 24);
+              break;
+    case 58:  w3[2] = (w3[2] & 0xffff0000) | (wx >> 16);
+              w3[3] = (w3[3] & 0x0000ffff) | (wx << 16);
+              break;
+    case 59:  w3[2] = (w3[2] & 0xffffff00) | (wx >> 24);
+              w3[3] = (w3[3] & 0x000000ff) | (wx <<  8);
+              break;
+    case 60:  w3[3] =  wx;
+              break;
+    case 61:  w3[3] = (w3[3] & 0xff000000) | (wx >>  8);
+              //w4[0] = (w4[0] & 0x00ffffff) | (wx << 24);
+              break;
+    case 62:  w3[3] = (w3[3] & 0xffff0000) | (wx >> 16);
+              //w4[0] = (w4[0] & 0x0000ffff) | (wx << 16);
+              break;
+    case 63:  w3[3] = (w3[3] & 0xffffff00) | (wx >> 24);
+              //w4[0] = (w4[0] & 0x000000ff) | (wx <<  8);
+              break;
+  }
+}
+
 /**
  * vector functions as scalar (for outer loop usage)
  */
index 1c6d8b1..742905c 100644 (file)
@@ -20,7 +20,7 @@
 #include "OpenCL/common.c"
 #include "OpenCL/simd.c"
 
-static void m00020m (u32 t0[4], u32 t1[4], u32 t2[4], u32 t3[4], const u32 pw_len, __global pw_t *pws, __global kernel_rule_t *rules_buf, __global comb_t *combs_buf, __global bf_t *bfs_buf, __global void *tmps, __global void *hooks, __global u32 *bitmaps_buf_s1_a, __global u32 *bitmaps_buf_s1_b, __global u32 *bitmaps_buf_s1_c, __global u32 *bitmaps_buf_s1_d, __global u32 *bitmaps_buf_s2_a, __global u32 *bitmaps_buf_s2_b, __global u32 *bitmaps_buf_s2_c, __global u32 *bitmaps_buf_s2_d, __global plain_t *plains_buf, __global digest_t *digests_buf, __global u32 *hashes_shown, __global salt_t *salt_bufs, __global void *esalt_bufs, __global u32 *d_return_buf, __global u32 *d_scryptV_buf, const u32 bitmap_mask, const u32 bitmap_shift1, const u32 bitmap_shift2, const u32 salt_pos, const u32 loop_pos, const u32 loop_cnt, const u32 bfs_cnt, const u32 digests_cnt, const u32 digests_offset)
+static void m00020m (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_len, __global pw_t *pws, __global kernel_rule_t *rules_buf, __global comb_t *combs_buf, __global bf_t *bfs_buf, __global void *tmps, __global void *hooks, __global u32 *bitmaps_buf_s1_a, __global u32 *bitmaps_buf_s1_b, __global u32 *bitmaps_buf_s1_c, __global u32 *bitmaps_buf_s1_d, __global u32 *bitmaps_buf_s2_a, __global u32 *bitmaps_buf_s2_b, __global u32 *bitmaps_buf_s2_c, __global u32 *bitmaps_buf_s2_d, __global plain_t *plains_buf, __global digest_t *digests_buf, __global u32 *hashes_shown, __global salt_t *salt_bufs, __global void *esalt_bufs, __global u32 *d_return_buf, __global u32 *d_scryptV_buf, const u32 bitmap_mask, const u32 bitmap_shift1, const u32 bitmap_shift2, const u32 salt_pos, const u32 loop_pos, const u32 loop_cnt, const u32 bfs_cnt, const u32 digests_cnt, const u32 digests_offset)
 {
   /**
    * modifier
@@ -63,101 +63,60 @@ static void m00020m (u32 t0[4], u32 t1[4], u32 t2[4], u32 t3[4], const u32 pw_le
    * prepend salt
    */
 
-  u32 w0_t[4];
-  u32 w1_t[4];
-  u32 w2_t[4];
-  u32 w3_t[4];
-
-  w0_t[0] = t0[0];
-  w0_t[1] = t0[1];
-  w0_t[2] = t0[2];
-  w0_t[3] = t0[3];
-  w1_t[0] = t1[0];
-  w1_t[1] = t1[1];
-  w1_t[2] = t1[2];
-  w1_t[3] = t1[3];
-  w2_t[0] = t2[0];
-  w2_t[1] = t2[1];
-  w2_t[2] = t2[2];
-  w2_t[3] = t2[3];
-  w3_t[0] = t3[0];
-  w3_t[1] = t3[1];
-  w3_t[2] = t3[2];
-  w3_t[3] = t3[3];
-
-  switch_buffer_by_offset_le_S (w0_t, w1_t, w2_t, w3_t, salt_len);
-
-  w0_t[0] |= salt_buf0[0];
-  w0_t[1] |= salt_buf0[1];
-  w0_t[2] |= salt_buf0[2];
-  w0_t[3] |= salt_buf0[3];
-  w1_t[0] |= salt_buf1[0];
-  w1_t[1] |= salt_buf1[1];
-  w1_t[2] |= salt_buf1[2];
-  w1_t[3] |= salt_buf1[3];
-  w2_t[0] |= salt_buf2[0];
-  w2_t[1] |= salt_buf2[1];
-  w2_t[2] |= salt_buf2[2];
-  w2_t[3] |= salt_buf2[3];
-  w3_t[0] |= salt_buf3[0];
-  w3_t[1] |= salt_buf3[1];
-  w3_t[2] |= salt_buf3[2];
-  w3_t[3] |= salt_buf3[3];
+  const u32 w0l = w0[0];
+
+  switch_buffer_by_offset_le_S (w0, w1, w2, w3, salt_len);
+
+  w0[0] |= salt_buf0[0];
+  w0[1] |= salt_buf0[1];
+  w0[2] |= salt_buf0[2];
+  w0[3] |= salt_buf0[3];
+  w1[0] |= salt_buf1[0];
+  w1[1] |= salt_buf1[1];
+  w1[2] |= salt_buf1[2];
+  w1[3] |= salt_buf1[3];
+  w2[0] |= salt_buf2[0];
+  w2[1] |= salt_buf2[1];
+  w2[2] |= salt_buf2[2];
+  w2[3] |= salt_buf2[3];
+  w3[0] |= salt_buf3[0];
+  w3[1] |= salt_buf3[1];
+  w3[2] |= salt_buf3[2];
+  w3[3] |= salt_buf3[3];
 
   /**
    * loop
    */
 
-  u32 w0l = t0[0];
-
   for (u32 il_pos = 0; il_pos < bfs_cnt; il_pos += VECT_SIZE)
   {
     const u32x w0r = ix_create_bft (bfs_buf, il_pos);
 
     const u32x w0lr = w0l | w0r;
 
-    u32x wx[16];
-
-    wx[ 0] = w0_t[0];
-    wx[ 1] = w0_t[1];
-    wx[ 2] = w0_t[2];
-    wx[ 3] = w0_t[3];
-    wx[ 4] = w1_t[0];
-    wx[ 5] = w1_t[1];
-    wx[ 6] = w1_t[2];
-    wx[ 7] = w1_t[3];
-    wx[ 8] = w2_t[0];
-    wx[ 9] = w2_t[1];
-    wx[10] = w2_t[2];
-    wx[11] = w2_t[3];
-    wx[12] = w3_t[0];
-    wx[13] = w3_t[1];
-    wx[14] = w3_t[2];
-    wx[15] = w3_t[3];
-
-    overwrite_at_le (wx, w0lr, salt_len);
-
-    u32x w0[4];
-    u32x w1[4];
-    u32x w2[4];
-    u32x w3[4];
-
-    w0[0] = wx[ 0];
-    w0[1] = wx[ 1];
-    w0[2] = wx[ 2];
-    w0[3] = wx[ 3];
-    w1[0] = wx[ 4];
-    w1[1] = wx[ 5];
-    w1[2] = wx[ 6];
-    w1[3] = wx[ 7];
-    w2[0] = wx[ 8];
-    w2[1] = wx[ 9];
-    w2[2] = wx[10];
-    w2[3] = wx[11];
-    w3[0] = wx[12];
-    w3[1] = wx[13];
-    w3[2] = pw_salt_len * 8;
-    w3[3] = 0;
+    u32x w0_t[4];
+    u32x w1_t[4];
+    u32x w2_t[4];
+    u32x w3_t[4];
+
+    w0_t[0] = w0[0];
+    w0_t[1] = w0[1];
+    w0_t[2] = w0[2];
+    w0_t[3] = w0[3];
+    w1_t[0] = w1[0];
+    w1_t[1] = w1[1];
+    w1_t[2] = w1[2];
+    w1_t[3] = w1[3];
+    w2_t[0] = w2[0];
+    w2_t[1] = w2[1];
+    w2_t[2] = w2[2];
+    w2_t[3] = w2[3];
+    w3_t[0] = w3[0];
+    w3_t[1] = w3[1];
+    w3_t[2] = pw_salt_len * 8;
+    w3_t[3] = 0;
+
+    overwrite_at_le_4x4 (w0_t, w1_t, w2_t, w3_t, w0lr, salt_len);
 
     /**
      * md5
@@ -168,73 +127,73 @@ static void m00020m (u32 t0[4], u32 t1[4], u32 t2[4], u32 t3[4], const u32 pw_le
     u32x c = MD5M_C;
     u32x d = MD5M_D;
 
-    MD5_STEP (MD5_Fo, a, b, c, d, w0[0], MD5C00, MD5S00);
-    MD5_STEP (MD5_Fo, d, a, b, c, w0[1], MD5C01, MD5S01);
-    MD5_STEP (MD5_Fo, c, d, a, b, w0[2], MD5C02, MD5S02);
-    MD5_STEP (MD5_Fo, b, c, d, a, w0[3], MD5C03, MD5S03);
-    MD5_STEP (MD5_Fo, a, b, c, d, w1[0], MD5C04, MD5S00);
-    MD5_STEP (MD5_Fo, d, a, b, c, w1[1], MD5C05, MD5S01);
-    MD5_STEP (MD5_Fo, c, d, a, b, w1[2], MD5C06, MD5S02);
-    MD5_STEP (MD5_Fo, b, c, d, a, w1[3], MD5C07, MD5S03);
-    MD5_STEP (MD5_Fo, a, b, c, d, w2[0], MD5C08, MD5S00);
-    MD5_STEP (MD5_Fo, d, a, b, c, w2[1], MD5C09, MD5S01);
-    MD5_STEP (MD5_Fo, c, d, a, b, w2[2], MD5C0a, MD5S02);
-    MD5_STEP (MD5_Fo, b, c, d, a, w2[3], MD5C0b, MD5S03);
-    MD5_STEP (MD5_Fo, a, b, c, d, w3[0], MD5C0c, MD5S00);
-    MD5_STEP (MD5_Fo, d, a, b, c, w3[1], MD5C0d, MD5S01);
-    MD5_STEP (MD5_Fo, c, d, a, b, w3[2], MD5C0e, MD5S02);
-    MD5_STEP (MD5_Fo, b, c, d, a, w3[3], MD5C0f, MD5S03);
-
-    MD5_STEP (MD5_Go, a, b, c, d, w0[1], MD5C10, MD5S10);
-    MD5_STEP (MD5_Go, d, a, b, c, w1[2], MD5C11, MD5S11);
-    MD5_STEP (MD5_Go, c, d, a, b, w2[3], MD5C12, MD5S12);
-    MD5_STEP (MD5_Go, b, c, d, a, w0[0], MD5C13, MD5S13);
-    MD5_STEP (MD5_Go, a, b, c, d, w1[1], MD5C14, MD5S10);
-    MD5_STEP (MD5_Go, d, a, b, c, w2[2], MD5C15, MD5S11);
-    MD5_STEP (MD5_Go, c, d, a, b, w3[3], MD5C16, MD5S12);
-    MD5_STEP (MD5_Go, b, c, d, a, w1[0], MD5C17, MD5S13);
-    MD5_STEP (MD5_Go, a, b, c, d, w2[1], MD5C18, MD5S10);
-    MD5_STEP (MD5_Go, d, a, b, c, w3[2], MD5C19, MD5S11);
-    MD5_STEP (MD5_Go, c, d, a, b, w0[3], MD5C1a, MD5S12);
-    MD5_STEP (MD5_Go, b, c, d, a, w2[0], MD5C1b, MD5S13);
-    MD5_STEP (MD5_Go, a, b, c, d, w3[1], MD5C1c, MD5S10);
-    MD5_STEP (MD5_Go, d, a, b, c, w0[2], MD5C1d, MD5S11);
-    MD5_STEP (MD5_Go, c, d, a, b, w1[3], MD5C1e, MD5S12);
-    MD5_STEP (MD5_Go, b, c, d, a, w3[0], MD5C1f, MD5S13);
-
-    MD5_STEP (MD5_H , a, b, c, d, w1[1], MD5C20, MD5S20);
-    MD5_STEP (MD5_H , d, a, b, c, w2[0], MD5C21, MD5S21);
-    MD5_STEP (MD5_H , c, d, a, b, w2[3], MD5C22, MD5S22);
-    MD5_STEP (MD5_H , b, c, d, a, w3[2], MD5C23, MD5S23);
-    MD5_STEP (MD5_H , a, b, c, d, w0[1], MD5C24, MD5S20);
-    MD5_STEP (MD5_H , d, a, b, c, w1[0], MD5C25, MD5S21);
-    MD5_STEP (MD5_H , c, d, a, b, w1[3], MD5C26, MD5S22);
-    MD5_STEP (MD5_H , b, c, d, a, w2[2], MD5C27, MD5S23);
-    MD5_STEP (MD5_H , a, b, c, d, w3[1], MD5C28, MD5S20);
-    MD5_STEP (MD5_H , d, a, b, c, w0[0], MD5C29, MD5S21);
-    MD5_STEP (MD5_H , c, d, a, b, w0[3], MD5C2a, MD5S22);
-    MD5_STEP (MD5_H , b, c, d, a, w1[2], MD5C2b, MD5S23);
-    MD5_STEP (MD5_H , a, b, c, d, w2[1], MD5C2c, MD5S20);
-    MD5_STEP (MD5_H , d, a, b, c, w3[0], MD5C2d, MD5S21);
-    MD5_STEP (MD5_H , c, d, a, b, w3[3], MD5C2e, MD5S22);
-    MD5_STEP (MD5_H , b, c, d, a, w0[2], MD5C2f, MD5S23);
-
-    MD5_STEP (MD5_I , a, b, c, d, w0[0], MD5C30, MD5S30);
-    MD5_STEP (MD5_I , d, a, b, c, w1[3], MD5C31, MD5S31);
-    MD5_STEP (MD5_I , c, d, a, b, w3[2], MD5C32, MD5S32);
-    MD5_STEP (MD5_I , b, c, d, a, w1[1], MD5C33, MD5S33);
-    MD5_STEP (MD5_I , a, b, c, d, w3[0], MD5C34, MD5S30);
-    MD5_STEP (MD5_I , d, a, b, c, w0[3], MD5C35, MD5S31);
-    MD5_STEP (MD5_I , c, d, a, b, w2[2], MD5C36, MD5S32);
-    MD5_STEP (MD5_I , b, c, d, a, w0[1], MD5C37, MD5S33);
-    MD5_STEP (MD5_I , a, b, c, d, w2[0], MD5C38, MD5S30);
-    MD5_STEP (MD5_I , d, a, b, c, w3[3], MD5C39, MD5S31);
-    MD5_STEP (MD5_I , c, d, a, b, w1[2], MD5C3a, MD5S32);
-    MD5_STEP (MD5_I , b, c, d, a, w3[1], MD5C3b, MD5S33);
-    MD5_STEP (MD5_I , a, b, c, d, w1[0], MD5C3c, MD5S30);
-    MD5_STEP (MD5_I , d, a, b, c, w2[3], MD5C3d, MD5S31);
-    MD5_STEP (MD5_I , c, d, a, b, w0[2], MD5C3e, MD5S32);
-    MD5_STEP (MD5_I , b, c, d, a, w2[1], MD5C3f, MD5S33);
+    MD5_STEP (MD5_Fo, a, b, c, d, w0_t[0], MD5C00, MD5S00);
+    MD5_STEP (MD5_Fo, d, a, b, c, w0_t[1], MD5C01, MD5S01);
+    MD5_STEP (MD5_Fo, c, d, a, b, w0_t[2], MD5C02, MD5S02);
+    MD5_STEP (MD5_Fo, b, c, d, a, w0_t[3], MD5C03, MD5S03);
+    MD5_STEP (MD5_Fo, a, b, c, d, w1_t[0], MD5C04, MD5S00);
+    MD5_STEP (MD5_Fo, d, a, b, c, w1_t[1], MD5C05, MD5S01);
+    MD5_STEP (MD5_Fo, c, d, a, b, w1_t[2], MD5C06, MD5S02);
+    MD5_STEP (MD5_Fo, b, c, d, a, w1_t[3], MD5C07, MD5S03);
+    MD5_STEP (MD5_Fo, a, b, c, d, w2_t[0], MD5C08, MD5S00);
+    MD5_STEP (MD5_Fo, d, a, b, c, w2_t[1], MD5C09, MD5S01);
+    MD5_STEP (MD5_Fo, c, d, a, b, w2_t[2], MD5C0a, MD5S02);
+    MD5_STEP (MD5_Fo, b, c, d, a, w2_t[3], MD5C0b, MD5S03);
+    MD5_STEP (MD5_Fo, a, b, c, d, w3_t[0], MD5C0c, MD5S00);
+    MD5_STEP (MD5_Fo, d, a, b, c, w3_t[1], MD5C0d, MD5S01);
+    MD5_STEP (MD5_Fo, c, d, a, b, w3_t[2], MD5C0e, MD5S02);
+    MD5_STEP (MD5_Fo, b, c, d, a, w3_t[3], MD5C0f, MD5S03);
+
+    MD5_STEP (MD5_Go, a, b, c, d, w0_t[1], MD5C10, MD5S10);
+    MD5_STEP (MD5_Go, d, a, b, c, w1_t[2], MD5C11, MD5S11);
+    MD5_STEP (MD5_Go, c, d, a, b, w2_t[3], MD5C12, MD5S12);
+    MD5_STEP (MD5_Go, b, c, d, a, w0_t[0], MD5C13, MD5S13);
+    MD5_STEP (MD5_Go, a, b, c, d, w1_t[1], MD5C14, MD5S10);
+    MD5_STEP (MD5_Go, d, a, b, c, w2_t[2], MD5C15, MD5S11);
+    MD5_STEP (MD5_Go, c, d, a, b, w3_t[3], MD5C16, MD5S12);
+    MD5_STEP (MD5_Go, b, c, d, a, w1_t[0], MD5C17, MD5S13);
+    MD5_STEP (MD5_Go, a, b, c, d, w2_t[1], MD5C18, MD5S10);
+    MD5_STEP (MD5_Go, d, a, b, c, w3_t[2], MD5C19, MD5S11);
+    MD5_STEP (MD5_Go, c, d, a, b, w0_t[3], MD5C1a, MD5S12);
+    MD5_STEP (MD5_Go, b, c, d, a, w2_t[0], MD5C1b, MD5S13);
+    MD5_STEP (MD5_Go, a, b, c, d, w3_t[1], MD5C1c, MD5S10);
+    MD5_STEP (MD5_Go, d, a, b, c, w0_t[2], MD5C1d, MD5S11);
+    MD5_STEP (MD5_Go, c, d, a, b, w1_t[3], MD5C1e, MD5S12);
+    MD5_STEP (MD5_Go, b, c, d, a, w3_t[0], MD5C1f, MD5S13);
+
+    MD5_STEP (MD5_H , a, b, c, d, w1_t[1], MD5C20, MD5S20);
+    MD5_STEP (MD5_H , d, a, b, c, w2_t[0], MD5C21, MD5S21);
+    MD5_STEP (MD5_H , c, d, a, b, w2_t[3], MD5C22, MD5S22);
+    MD5_STEP (MD5_H , b, c, d, a, w3_t[2], MD5C23, MD5S23);
+    MD5_STEP (MD5_H , a, b, c, d, w0_t[1], MD5C24, MD5S20);
+    MD5_STEP (MD5_H , d, a, b, c, w1_t[0], MD5C25, MD5S21);
+    MD5_STEP (MD5_H , c, d, a, b, w1_t[3], MD5C26, MD5S22);
+    MD5_STEP (MD5_H , b, c, d, a, w2_t[2], MD5C27, MD5S23);
+    MD5_STEP (MD5_H , a, b, c, d, w3_t[1], MD5C28, MD5S20);
+    MD5_STEP (MD5_H , d, a, b, c, w0_t[0], MD5C29, MD5S21);
+    MD5_STEP (MD5_H , c, d, a, b, w0_t[3], MD5C2a, MD5S22);
+    MD5_STEP (MD5_H , b, c, d, a, w1_t[2], MD5C2b, MD5S23);
+    MD5_STEP (MD5_H , a, b, c, d, w2_t[1], MD5C2c, MD5S20);
+    MD5_STEP (MD5_H , d, a, b, c, w3_t[0], MD5C2d, MD5S21);
+    MD5_STEP (MD5_H , c, d, a, b, w3_t[3], MD5C2e, MD5S22);
+    MD5_STEP (MD5_H , b, c, d, a, w0_t[2], MD5C2f, MD5S23);
+
+    MD5_STEP (MD5_I , a, b, c, d, w0_t[0], MD5C30, MD5S30);
+    MD5_STEP (MD5_I , d, a, b, c, w1_t[3], MD5C31, MD5S31);
+    MD5_STEP (MD5_I , c, d, a, b, w3_t[2], MD5C32, MD5S32);
+    MD5_STEP (MD5_I , b, c, d, a, w1_t[1], MD5C33, MD5S33);
+    MD5_STEP (MD5_I , a, b, c, d, w3_t[0], MD5C34, MD5S30);
+    MD5_STEP (MD5_I , d, a, b, c, w0_t[3], MD5C35, MD5S31);
+    MD5_STEP (MD5_I , c, d, a, b, w2_t[2], MD5C36, MD5S32);
+    MD5_STEP (MD5_I , b, c, d, a, w0_t[1], MD5C37, MD5S33);
+    MD5_STEP (MD5_I , a, b, c, d, w2_t[0], MD5C38, MD5S30);
+    MD5_STEP (MD5_I , d, a, b, c, w3_t[3], MD5C39, MD5S31);
+    MD5_STEP (MD5_I , c, d, a, b, w1_t[2], MD5C3a, MD5S32);
+    MD5_STEP (MD5_I , b, c, d, a, w3_t[1], MD5C3b, MD5S33);
+    MD5_STEP (MD5_I , a, b, c, d, w1_t[0], MD5C3c, MD5S30);
+    MD5_STEP (MD5_I , d, a, b, c, w2_t[3], MD5C3d, MD5S31);
+    MD5_STEP (MD5_I , c, d, a, b, w0_t[2], MD5C3e, MD5S32);
+    MD5_STEP (MD5_I , b, c, d, a, w2_t[1], MD5C3f, MD5S33);
 
     COMPARE_M_SIMD (a, d, c, b);
   }
@@ -295,102 +254,61 @@ static void m00020s (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_le
    * prepend salt
    */
 
-  u32 w0_t[4];
-  u32 w1_t[4];
-  u32 w2_t[4];
-  u32 w3_t[4];
-
-  w0_t[0] = w0[0];
-  w0_t[1] = w0[1];
-  w0_t[2] = w0[2];
-  w0_t[3] = w0[3];
-  w1_t[0] = w1[0];
-  w1_t[1] = w1[1];
-  w1_t[2] = w1[2];
-  w1_t[3] = w1[3];
-  w2_t[0] = w2[0];
-  w2_t[1] = w2[1];
-  w2_t[2] = w2[2];
-  w2_t[3] = w2[3];
-  w3_t[0] = w3[0];
-  w3_t[1] = w3[1];
-  w3_t[2] = w3[2];
-  w3_t[3] = w3[3];
-
-  switch_buffer_by_offset_le_S (w0_t, w1_t, w2_t, w3_t, salt_len);
-
-  w0_t[0] |= salt_buf0[0];
-  w0_t[1] |= salt_buf0[1];
-  w0_t[2] |= salt_buf0[2];
-  w0_t[3] |= salt_buf0[3];
-  w1_t[0] |= salt_buf1[0];
-  w1_t[1] |= salt_buf1[1];
-  w1_t[2] |= salt_buf1[2];
-  w1_t[3] |= salt_buf1[3];
-  w2_t[0] |= salt_buf2[0];
-  w2_t[1] |= salt_buf2[1];
-  w2_t[2] |= salt_buf2[2];
-  w2_t[3] |= salt_buf2[3];
-  w3_t[0] |= salt_buf3[0];
-  w3_t[1] |= salt_buf3[1];
-  w3_t[2] |= salt_buf3[2];
-  w3_t[3] |= salt_buf3[3];
+  const u32 w0l = w0[0];
+
+  switch_buffer_by_offset_le_S (w0, w1, w2, w3, salt_len);
+
+  w0[0] |= salt_buf0[0];
+  w0[1] |= salt_buf0[1];
+  w0[2] |= salt_buf0[2];
+  w0[3] |= salt_buf0[3];
+  w1[0] |= salt_buf1[0];
+  w1[1] |= salt_buf1[1];
+  w1[2] |= salt_buf1[2];
+  w1[3] |= salt_buf1[3];
+  w2[0] |= salt_buf2[0];
+  w2[1] |= salt_buf2[1];
+  w2[2] |= salt_buf2[2];
+  w2[3] |= salt_buf2[3];
+  w3[0] |= salt_buf3[0];
+  w3[1] |= salt_buf3[1];
+  w3[2] |= salt_buf3[2];
+  w3[3] |= salt_buf3[3];
 
   /**
    * loop
    */
 
-  u32 w0l = w0[0];
-
   for (u32 il_pos = 0; il_pos < bfs_cnt; il_pos += VECT_SIZE)
   {
     const u32x w0r = ix_create_bft (bfs_buf, il_pos);
 
     const u32x w0lr = w0l | w0r;
 
-    u32x wx[16];
-
-    wx[ 0] = w0_t[0];
-    wx[ 1] = w0_t[1];
-    wx[ 2] = w0_t[2];
-    wx[ 3] = w0_t[3];
-    wx[ 4] = w1_t[0];
-    wx[ 5] = w1_t[1];
-    wx[ 6] = w1_t[2];
-    wx[ 7] = w1_t[3];
-    wx[ 8] = w2_t[0];
-    wx[ 9] = w2_t[1];
-    wx[10] = w2_t[2];
-    wx[11] = w2_t[3];
-    wx[12] = w3_t[0];
-    wx[13] = w3_t[1];
-    wx[14] = w3_t[2];
-    wx[15] = w3_t[3];
-
-    overwrite_at_le (wx, w0lr, salt_len);
-
     u32x w0_t[4];
     u32x w1_t[4];
     u32x w2_t[4];
     u32x w3_t[4];
 
-    w0_t[0] = wx[ 0];
-    w0_t[1] = wx[ 1];
-    w0_t[2] = wx[ 2];
-    w0_t[3] = wx[ 3];
-    w1_t[0] = wx[ 4];
-    w1_t[1] = wx[ 5];
-    w1_t[2] = wx[ 6];
-    w1_t[3] = wx[ 7];
-    w2_t[0] = wx[ 8];
-    w2_t[1] = wx[ 9];
-    w2_t[2] = wx[10];
-    w2_t[3] = wx[11];
-    w3_t[0] = wx[12];
-    w3_t[1] = wx[13];
+    w0_t[0] = w0[0];
+    w0_t[1] = w0[1];
+    w0_t[2] = w0[2];
+    w0_t[3] = w0[3];
+    w1_t[0] = w1[0];
+    w1_t[1] = w1[1];
+    w1_t[2] = w1[2];
+    w1_t[3] = w1[3];
+    w2_t[0] = w2[0];
+    w2_t[1] = w2[1];
+    w2_t[2] = w2[2];
+    w2_t[3] = w2[3];
+    w3_t[0] = w3[0];
+    w3_t[1] = w3[1];
     w3_t[2] = pw_salt_len * 8;
     w3_t[3] = 0;
 
+    overwrite_at_le_4x4 (w0_t, w1_t, w2_t, w3_t, w0lr, salt_len);
+
     /**
      * md5
      */