Cleanup of all raw-MD5 based algorithms; small change important for later changes
authorJens Steube <jens.steube@gmail.com>
Wed, 24 Feb 2016 12:40:38 +0000 (13:40 +0100)
committerJens Steube <jens.steube@gmail.com>
Wed, 24 Feb 2016 12:40:38 +0000 (13:40 +0100)
OpenCL/m00020_a3.cl
OpenCL/m00040_a3.cl

index cd9e7ba..f6c8a6f 100644 (file)
@@ -81,8 +81,30 @@ static void m00020m (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_le
   w2[3] |= salt_buf2[3];
   w3[0] |= salt_buf3[0];
   w3[1] |= salt_buf3[1];
-  w3[2]  = pw_salt_len * 8;
-  w3[3]  = 0;
+  w3[2] |= salt_buf3[2];
+  w3[3] |= salt_buf3[3];
+
+  u32x t0[4];
+  u32x t1[4];
+  u32x t2[4];
+  u32x t3[4];
+
+  t0[0] = w0[0];
+  t0[1] = w0[1];
+  t0[2] = w0[2];
+  t0[3] = w0[3];
+  t1[0] = w1[0];
+  t1[1] = w1[1];
+  t1[2] = w1[2];
+  t1[3] = w1[3];
+  t2[0] = w2[0];
+  t2[1] = w2[1];
+  t2[2] = w2[2];
+  t2[3] = w2[3];
+  t3[0] = w3[0];
+  t3[1] = w3[1];
+  t3[2] = pw_salt_len * 8;
+  t3[3] = 0;
 
   /**
    * loop
@@ -94,29 +116,7 @@ static void m00020m (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_le
 
     const u32x w0lr = w0l | w0r;
 
-    u32x w0_t[4];
-    u32x w1_t[4];
-    u32x w2_t[4];
-    u32x w3_t[4];
-
-    w0_t[0] = w0[0];
-    w0_t[1] = w0[1];
-    w0_t[2] = w0[2];
-    w0_t[3] = w0[3];
-    w1_t[0] = w1[0];
-    w1_t[1] = w1[1];
-    w1_t[2] = w1[2];
-    w1_t[3] = w1[3];
-    w2_t[0] = w2[0];
-    w2_t[1] = w2[1];
-    w2_t[2] = w2[2];
-    w2_t[3] = w2[3];
-    w3_t[0] = w3[0];
-    w3_t[1] = w3[1];
-    w3_t[2] = w3[2];
-    w3_t[3] = w3[3];
-
-    overwrite_at_le_4x4 (w0_t, w1_t, w2_t, w3_t, w0lr, salt_len);
+    overwrite_at_le_4x4 (t0, t1, t2, t3, w0lr, salt_len);
 
     /**
      * md5
@@ -127,73 +127,73 @@ static void m00020m (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_le
     u32x c = MD5M_C;
     u32x d = MD5M_D;
 
-    MD5_STEP (MD5_Fo, a, b, c, d, w0_t[0], MD5C00, MD5S00);
-    MD5_STEP (MD5_Fo, d, a, b, c, w0_t[1], MD5C01, MD5S01);
-    MD5_STEP (MD5_Fo, c, d, a, b, w0_t[2], MD5C02, MD5S02);
-    MD5_STEP (MD5_Fo, b, c, d, a, w0_t[3], MD5C03, MD5S03);
-    MD5_STEP (MD5_Fo, a, b, c, d, w1_t[0], MD5C04, MD5S00);
-    MD5_STEP (MD5_Fo, d, a, b, c, w1_t[1], MD5C05, MD5S01);
-    MD5_STEP (MD5_Fo, c, d, a, b, w1_t[2], MD5C06, MD5S02);
-    MD5_STEP (MD5_Fo, b, c, d, a, w1_t[3], MD5C07, MD5S03);
-    MD5_STEP (MD5_Fo, a, b, c, d, w2_t[0], MD5C08, MD5S00);
-    MD5_STEP (MD5_Fo, d, a, b, c, w2_t[1], MD5C09, MD5S01);
-    MD5_STEP (MD5_Fo, c, d, a, b, w2_t[2], MD5C0a, MD5S02);
-    MD5_STEP (MD5_Fo, b, c, d, a, w2_t[3], MD5C0b, MD5S03);
-    MD5_STEP (MD5_Fo, a, b, c, d, w3_t[0], MD5C0c, MD5S00);
-    MD5_STEP (MD5_Fo, d, a, b, c, w3_t[1], MD5C0d, MD5S01);
-    MD5_STEP (MD5_Fo, c, d, a, b, w3_t[2], MD5C0e, MD5S02);
-    MD5_STEP (MD5_Fo, b, c, d, a, w3_t[3], MD5C0f, MD5S03);
-
-    MD5_STEP (MD5_Go, a, b, c, d, w0_t[1], MD5C10, MD5S10);
-    MD5_STEP (MD5_Go, d, a, b, c, w1_t[2], MD5C11, MD5S11);
-    MD5_STEP (MD5_Go, c, d, a, b, w2_t[3], MD5C12, MD5S12);
-    MD5_STEP (MD5_Go, b, c, d, a, w0_t[0], MD5C13, MD5S13);
-    MD5_STEP (MD5_Go, a, b, c, d, w1_t[1], MD5C14, MD5S10);
-    MD5_STEP (MD5_Go, d, a, b, c, w2_t[2], MD5C15, MD5S11);
-    MD5_STEP (MD5_Go, c, d, a, b, w3_t[3], MD5C16, MD5S12);
-    MD5_STEP (MD5_Go, b, c, d, a, w1_t[0], MD5C17, MD5S13);
-    MD5_STEP (MD5_Go, a, b, c, d, w2_t[1], MD5C18, MD5S10);
-    MD5_STEP (MD5_Go, d, a, b, c, w3_t[2], MD5C19, MD5S11);
-    MD5_STEP (MD5_Go, c, d, a, b, w0_t[3], MD5C1a, MD5S12);
-    MD5_STEP (MD5_Go, b, c, d, a, w2_t[0], MD5C1b, MD5S13);
-    MD5_STEP (MD5_Go, a, b, c, d, w3_t[1], MD5C1c, MD5S10);
-    MD5_STEP (MD5_Go, d, a, b, c, w0_t[2], MD5C1d, MD5S11);
-    MD5_STEP (MD5_Go, c, d, a, b, w1_t[3], MD5C1e, MD5S12);
-    MD5_STEP (MD5_Go, b, c, d, a, w3_t[0], MD5C1f, MD5S13);
-
-    MD5_STEP (MD5_H , a, b, c, d, w1_t[1], MD5C20, MD5S20);
-    MD5_STEP (MD5_H , d, a, b, c, w2_t[0], MD5C21, MD5S21);
-    MD5_STEP (MD5_H , c, d, a, b, w2_t[3], MD5C22, MD5S22);
-    MD5_STEP (MD5_H , b, c, d, a, w3_t[2], MD5C23, MD5S23);
-    MD5_STEP (MD5_H , a, b, c, d, w0_t[1], MD5C24, MD5S20);
-    MD5_STEP (MD5_H , d, a, b, c, w1_t[0], MD5C25, MD5S21);
-    MD5_STEP (MD5_H , c, d, a, b, w1_t[3], MD5C26, MD5S22);
-    MD5_STEP (MD5_H , b, c, d, a, w2_t[2], MD5C27, MD5S23);
-    MD5_STEP (MD5_H , a, b, c, d, w3_t[1], MD5C28, MD5S20);
-    MD5_STEP (MD5_H , d, a, b, c, w0_t[0], MD5C29, MD5S21);
-    MD5_STEP (MD5_H , c, d, a, b, w0_t[3], MD5C2a, MD5S22);
-    MD5_STEP (MD5_H , b, c, d, a, w1_t[2], MD5C2b, MD5S23);
-    MD5_STEP (MD5_H , a, b, c, d, w2_t[1], MD5C2c, MD5S20);
-    MD5_STEP (MD5_H , d, a, b, c, w3_t[0], MD5C2d, MD5S21);
-    MD5_STEP (MD5_H , c, d, a, b, w3_t[3], MD5C2e, MD5S22);
-    MD5_STEP (MD5_H , b, c, d, a, w0_t[2], MD5C2f, MD5S23);
-
-    MD5_STEP (MD5_I , a, b, c, d, w0_t[0], MD5C30, MD5S30);
-    MD5_STEP (MD5_I , d, a, b, c, w1_t[3], MD5C31, MD5S31);
-    MD5_STEP (MD5_I , c, d, a, b, w3_t[2], MD5C32, MD5S32);
-    MD5_STEP (MD5_I , b, c, d, a, w1_t[1], MD5C33, MD5S33);
-    MD5_STEP (MD5_I , a, b, c, d, w3_t[0], MD5C34, MD5S30);
-    MD5_STEP (MD5_I , d, a, b, c, w0_t[3], MD5C35, MD5S31);
-    MD5_STEP (MD5_I , c, d, a, b, w2_t[2], MD5C36, MD5S32);
-    MD5_STEP (MD5_I , b, c, d, a, w0_t[1], MD5C37, MD5S33);
-    MD5_STEP (MD5_I , a, b, c, d, w2_t[0], MD5C38, MD5S30);
-    MD5_STEP (MD5_I , d, a, b, c, w3_t[3], MD5C39, MD5S31);
-    MD5_STEP (MD5_I , c, d, a, b, w1_t[2], MD5C3a, MD5S32);
-    MD5_STEP (MD5_I , b, c, d, a, w3_t[1], MD5C3b, MD5S33);
-    MD5_STEP (MD5_I , a, b, c, d, w1_t[0], MD5C3c, MD5S30);
-    MD5_STEP (MD5_I , d, a, b, c, w2_t[3], MD5C3d, MD5S31);
-    MD5_STEP (MD5_I , c, d, a, b, w0_t[2], MD5C3e, MD5S32);
-    MD5_STEP (MD5_I , b, c, d, a, w2_t[1], MD5C3f, MD5S33);
+    MD5_STEP (MD5_Fo, a, b, c, d, t0[0], MD5C00, MD5S00);
+    MD5_STEP (MD5_Fo, d, a, b, c, t0[1], MD5C01, MD5S01);
+    MD5_STEP (MD5_Fo, c, d, a, b, t0[2], MD5C02, MD5S02);
+    MD5_STEP (MD5_Fo, b, c, d, a, t0[3], MD5C03, MD5S03);
+    MD5_STEP (MD5_Fo, a, b, c, d, t1[0], MD5C04, MD5S00);
+    MD5_STEP (MD5_Fo, d, a, b, c, t1[1], MD5C05, MD5S01);
+    MD5_STEP (MD5_Fo, c, d, a, b, t1[2], MD5C06, MD5S02);
+    MD5_STEP (MD5_Fo, b, c, d, a, t1[3], MD5C07, MD5S03);
+    MD5_STEP (MD5_Fo, a, b, c, d, t2[0], MD5C08, MD5S00);
+    MD5_STEP (MD5_Fo, d, a, b, c, t2[1], MD5C09, MD5S01);
+    MD5_STEP (MD5_Fo, c, d, a, b, t2[2], MD5C0a, MD5S02);
+    MD5_STEP (MD5_Fo, b, c, d, a, t2[3], MD5C0b, MD5S03);
+    MD5_STEP (MD5_Fo, a, b, c, d, t3[0], MD5C0c, MD5S00);
+    MD5_STEP (MD5_Fo, d, a, b, c, t3[1], MD5C0d, MD5S01);
+    MD5_STEP (MD5_Fo, c, d, a, b, t3[2], MD5C0e, MD5S02);
+    MD5_STEP (MD5_Fo, b, c, d, a, t3[3], MD5C0f, MD5S03);
+
+    MD5_STEP (MD5_Go, a, b, c, d, t0[1], MD5C10, MD5S10);
+    MD5_STEP (MD5_Go, d, a, b, c, t1[2], MD5C11, MD5S11);
+    MD5_STEP (MD5_Go, c, d, a, b, t2[3], MD5C12, MD5S12);
+    MD5_STEP (MD5_Go, b, c, d, a, t0[0], MD5C13, MD5S13);
+    MD5_STEP (MD5_Go, a, b, c, d, t1[1], MD5C14, MD5S10);
+    MD5_STEP (MD5_Go, d, a, b, c, t2[2], MD5C15, MD5S11);
+    MD5_STEP (MD5_Go, c, d, a, b, t3[3], MD5C16, MD5S12);
+    MD5_STEP (MD5_Go, b, c, d, a, t1[0], MD5C17, MD5S13);
+    MD5_STEP (MD5_Go, a, b, c, d, t2[1], MD5C18, MD5S10);
+    MD5_STEP (MD5_Go, d, a, b, c, t3[2], MD5C19, MD5S11);
+    MD5_STEP (MD5_Go, c, d, a, b, t0[3], MD5C1a, MD5S12);
+    MD5_STEP (MD5_Go, b, c, d, a, t2[0], MD5C1b, MD5S13);
+    MD5_STEP (MD5_Go, a, b, c, d, t3[1], MD5C1c, MD5S10);
+    MD5_STEP (MD5_Go, d, a, b, c, t0[2], MD5C1d, MD5S11);
+    MD5_STEP (MD5_Go, c, d, a, b, t1[3], MD5C1e, MD5S12);
+    MD5_STEP (MD5_Go, b, c, d, a, t3[0], MD5C1f, MD5S13);
+
+    MD5_STEP (MD5_H , a, b, c, d, t1[1], MD5C20, MD5S20);
+    MD5_STEP (MD5_H , d, a, b, c, t2[0], MD5C21, MD5S21);
+    MD5_STEP (MD5_H , c, d, a, b, t2[3], MD5C22, MD5S22);
+    MD5_STEP (MD5_H , b, c, d, a, t3[2], MD5C23, MD5S23);
+    MD5_STEP (MD5_H , a, b, c, d, t0[1], MD5C24, MD5S20);
+    MD5_STEP (MD5_H , d, a, b, c, t1[0], MD5C25, MD5S21);
+    MD5_STEP (MD5_H , c, d, a, b, t1[3], MD5C26, MD5S22);
+    MD5_STEP (MD5_H , b, c, d, a, t2[2], MD5C27, MD5S23);
+    MD5_STEP (MD5_H , a, b, c, d, t3[1], MD5C28, MD5S20);
+    MD5_STEP (MD5_H , d, a, b, c, t0[0], MD5C29, MD5S21);
+    MD5_STEP (MD5_H , c, d, a, b, t0[3], MD5C2a, MD5S22);
+    MD5_STEP (MD5_H , b, c, d, a, t1[2], MD5C2b, MD5S23);
+    MD5_STEP (MD5_H , a, b, c, d, t2[1], MD5C2c, MD5S20);
+    MD5_STEP (MD5_H , d, a, b, c, t3[0], MD5C2d, MD5S21);
+    MD5_STEP (MD5_H , c, d, a, b, t3[3], MD5C2e, MD5S22);
+    MD5_STEP (MD5_H , b, c, d, a, t0[2], MD5C2f, MD5S23);
+
+    MD5_STEP (MD5_I , a, b, c, d, t0[0], MD5C30, MD5S30);
+    MD5_STEP (MD5_I , d, a, b, c, t1[3], MD5C31, MD5S31);
+    MD5_STEP (MD5_I , c, d, a, b, t3[2], MD5C32, MD5S32);
+    MD5_STEP (MD5_I , b, c, d, a, t1[1], MD5C33, MD5S33);
+    MD5_STEP (MD5_I , a, b, c, d, t3[0], MD5C34, MD5S30);
+    MD5_STEP (MD5_I , d, a, b, c, t0[3], MD5C35, MD5S31);
+    MD5_STEP (MD5_I , c, d, a, b, t2[2], MD5C36, MD5S32);
+    MD5_STEP (MD5_I , b, c, d, a, t0[1], MD5C37, MD5S33);
+    MD5_STEP (MD5_I , a, b, c, d, t2[0], MD5C38, MD5S30);
+    MD5_STEP (MD5_I , d, a, b, c, t3[3], MD5C39, MD5S31);
+    MD5_STEP (MD5_I , c, d, a, b, t1[2], MD5C3a, MD5S32);
+    MD5_STEP (MD5_I , b, c, d, a, t3[1], MD5C3b, MD5S33);
+    MD5_STEP (MD5_I , a, b, c, d, t1[0], MD5C3c, MD5S30);
+    MD5_STEP (MD5_I , d, a, b, c, t2[3], MD5C3d, MD5S31);
+    MD5_STEP (MD5_I , c, d, a, b, t0[2], MD5C3e, MD5S32);
+    MD5_STEP (MD5_I , b, c, d, a, t2[1], MD5C3f, MD5S33);
 
     COMPARE_M_SIMD (a, d, c, b);
   }
@@ -272,8 +272,30 @@ static void m00020s (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_le
   w2[3] |= salt_buf2[3];
   w3[0] |= salt_buf3[0];
   w3[1] |= salt_buf3[1];
-  w3[2]  = pw_salt_len * 8;
-  w3[3]  = 0;
+  w3[2] |= salt_buf3[2];
+  w3[3] |= salt_buf3[3];
+
+  u32x t0[4];
+  u32x t1[4];
+  u32x t2[4];
+  u32x t3[4];
+
+  t0[0] = w0[0];
+  t0[1] = w0[1];
+  t0[2] = w0[2];
+  t0[3] = w0[3];
+  t1[0] = w1[0];
+  t1[1] = w1[1];
+  t1[2] = w1[2];
+  t1[3] = w1[3];
+  t2[0] = w2[0];
+  t2[1] = w2[1];
+  t2[2] = w2[2];
+  t2[3] = w2[3];
+  t3[0] = w3[0];
+  t3[1] = w3[1];
+  t3[2] = pw_salt_len * 8;
+  t3[3] = 0;
 
   /**
    * loop
@@ -285,29 +307,7 @@ static void m00020s (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_le
 
     const u32x w0lr = w0l | w0r;
 
-    u32x w0_t[4];
-    u32x w1_t[4];
-    u32x w2_t[4];
-    u32x w3_t[4];
-
-    w0_t[0] = w0[0];
-    w0_t[1] = w0[1];
-    w0_t[2] = w0[2];
-    w0_t[3] = w0[3];
-    w1_t[0] = w1[0];
-    w1_t[1] = w1[1];
-    w1_t[2] = w1[2];
-    w1_t[3] = w1[3];
-    w2_t[0] = w2[0];
-    w2_t[1] = w2[1];
-    w2_t[2] = w2[2];
-    w2_t[3] = w2[3];
-    w3_t[0] = w3[0];
-    w3_t[1] = w3[1];
-    w3_t[2] = w3[2];
-    w3_t[3] = w3[3];
-
-    overwrite_at_le_4x4 (w0_t, w1_t, w2_t, w3_t, w0lr, salt_len);
+    overwrite_at_le_4x4 (t0, t1, t2, t3, w0lr, salt_len);
 
     /**
      * md5
@@ -318,76 +318,76 @@ static void m00020s (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_le
     u32x c = MD5M_C;
     u32x d = MD5M_D;
 
-    MD5_STEP (MD5_Fo, a, b, c, d, w0_t[0], MD5C00, MD5S00);
-    MD5_STEP (MD5_Fo, d, a, b, c, w0_t[1], MD5C01, MD5S01);
-    MD5_STEP (MD5_Fo, c, d, a, b, w0_t[2], MD5C02, MD5S02);
-    MD5_STEP (MD5_Fo, b, c, d, a, w0_t[3], MD5C03, MD5S03);
-    MD5_STEP (MD5_Fo, a, b, c, d, w1_t[0], MD5C04, MD5S00);
-    MD5_STEP (MD5_Fo, d, a, b, c, w1_t[1], MD5C05, MD5S01);
-    MD5_STEP (MD5_Fo, c, d, a, b, w1_t[2], MD5C06, MD5S02);
-    MD5_STEP (MD5_Fo, b, c, d, a, w1_t[3], MD5C07, MD5S03);
-    MD5_STEP (MD5_Fo, a, b, c, d, w2_t[0], MD5C08, MD5S00);
-    MD5_STEP (MD5_Fo, d, a, b, c, w2_t[1], MD5C09, MD5S01);
-    MD5_STEP (MD5_Fo, c, d, a, b, w2_t[2], MD5C0a, MD5S02);
-    MD5_STEP (MD5_Fo, b, c, d, a, w2_t[3], MD5C0b, MD5S03);
-    MD5_STEP (MD5_Fo, a, b, c, d, w3_t[0], MD5C0c, MD5S00);
-    MD5_STEP (MD5_Fo, d, a, b, c, w3_t[1], MD5C0d, MD5S01);
-    MD5_STEP (MD5_Fo, c, d, a, b, w3_t[2], MD5C0e, MD5S02);
-    MD5_STEP (MD5_Fo, b, c, d, a, w3_t[3], MD5C0f, MD5S03);
-
-    MD5_STEP (MD5_Go, a, b, c, d, w0_t[1], MD5C10, MD5S10);
-    MD5_STEP (MD5_Go, d, a, b, c, w1_t[2], MD5C11, MD5S11);
-    MD5_STEP (MD5_Go, c, d, a, b, w2_t[3], MD5C12, MD5S12);
-    MD5_STEP (MD5_Go, b, c, d, a, w0_t[0], MD5C13, MD5S13);
-    MD5_STEP (MD5_Go, a, b, c, d, w1_t[1], MD5C14, MD5S10);
-    MD5_STEP (MD5_Go, d, a, b, c, w2_t[2], MD5C15, MD5S11);
-    MD5_STEP (MD5_Go, c, d, a, b, w3_t[3], MD5C16, MD5S12);
-    MD5_STEP (MD5_Go, b, c, d, a, w1_t[0], MD5C17, MD5S13);
-    MD5_STEP (MD5_Go, a, b, c, d, w2_t[1], MD5C18, MD5S10);
-    MD5_STEP (MD5_Go, d, a, b, c, w3_t[2], MD5C19, MD5S11);
-    MD5_STEP (MD5_Go, c, d, a, b, w0_t[3], MD5C1a, MD5S12);
-    MD5_STEP (MD5_Go, b, c, d, a, w2_t[0], MD5C1b, MD5S13);
-    MD5_STEP (MD5_Go, a, b, c, d, w3_t[1], MD5C1c, MD5S10);
-    MD5_STEP (MD5_Go, d, a, b, c, w0_t[2], MD5C1d, MD5S11);
-    MD5_STEP (MD5_Go, c, d, a, b, w1_t[3], MD5C1e, MD5S12);
-    MD5_STEP (MD5_Go, b, c, d, a, w3_t[0], MD5C1f, MD5S13);
-
-    MD5_STEP (MD5_H , a, b, c, d, w1_t[1], MD5C20, MD5S20);
-    MD5_STEP (MD5_H , d, a, b, c, w2_t[0], MD5C21, MD5S21);
-    MD5_STEP (MD5_H , c, d, a, b, w2_t[3], MD5C22, MD5S22);
-    MD5_STEP (MD5_H , b, c, d, a, w3_t[2], MD5C23, MD5S23);
-    MD5_STEP (MD5_H , a, b, c, d, w0_t[1], MD5C24, MD5S20);
-    MD5_STEP (MD5_H , d, a, b, c, w1_t[0], MD5C25, MD5S21);
-    MD5_STEP (MD5_H , c, d, a, b, w1_t[3], MD5C26, MD5S22);
-    MD5_STEP (MD5_H , b, c, d, a, w2_t[2], MD5C27, MD5S23);
-    MD5_STEP (MD5_H , a, b, c, d, w3_t[1], MD5C28, MD5S20);
-    MD5_STEP (MD5_H , d, a, b, c, w0_t[0], MD5C29, MD5S21);
-    MD5_STEP (MD5_H , c, d, a, b, w0_t[3], MD5C2a, MD5S22);
-    MD5_STEP (MD5_H , b, c, d, a, w1_t[2], MD5C2b, MD5S23);
-    MD5_STEP (MD5_H , a, b, c, d, w2_t[1], MD5C2c, MD5S20);
-    MD5_STEP (MD5_H , d, a, b, c, w3_t[0], MD5C2d, MD5S21);
-    MD5_STEP (MD5_H , c, d, a, b, w3_t[3], MD5C2e, MD5S22);
-    MD5_STEP (MD5_H , b, c, d, a, w0_t[2], MD5C2f, MD5S23);
-
-    MD5_STEP (MD5_I , a, b, c, d, w0_t[0], MD5C30, MD5S30);
-    MD5_STEP (MD5_I , d, a, b, c, w1_t[3], MD5C31, MD5S31);
-    MD5_STEP (MD5_I , c, d, a, b, w3_t[2], MD5C32, MD5S32);
-    MD5_STEP (MD5_I , b, c, d, a, w1_t[1], MD5C33, MD5S33);
-    MD5_STEP (MD5_I , a, b, c, d, w3_t[0], MD5C34, MD5S30);
-    MD5_STEP (MD5_I , d, a, b, c, w0_t[3], MD5C35, MD5S31);
-    MD5_STEP (MD5_I , c, d, a, b, w2_t[2], MD5C36, MD5S32);
-    MD5_STEP (MD5_I , b, c, d, a, w0_t[1], MD5C37, MD5S33);
-    MD5_STEP (MD5_I , a, b, c, d, w2_t[0], MD5C38, MD5S30);
-    MD5_STEP (MD5_I , d, a, b, c, w3_t[3], MD5C39, MD5S31);
-    MD5_STEP (MD5_I , c, d, a, b, w1_t[2], MD5C3a, MD5S32);
-    MD5_STEP (MD5_I , b, c, d, a, w3_t[1], MD5C3b, MD5S33);
-    MD5_STEP (MD5_I , a, b, c, d, w1_t[0], MD5C3c, MD5S30);
+    MD5_STEP (MD5_Fo, a, b, c, d, t0[0], MD5C00, MD5S00);
+    MD5_STEP (MD5_Fo, d, a, b, c, t0[1], MD5C01, MD5S01);
+    MD5_STEP (MD5_Fo, c, d, a, b, t0[2], MD5C02, MD5S02);
+    MD5_STEP (MD5_Fo, b, c, d, a, t0[3], MD5C03, MD5S03);
+    MD5_STEP (MD5_Fo, a, b, c, d, t1[0], MD5C04, MD5S00);
+    MD5_STEP (MD5_Fo, d, a, b, c, t1[1], MD5C05, MD5S01);
+    MD5_STEP (MD5_Fo, c, d, a, b, t1[2], MD5C06, MD5S02);
+    MD5_STEP (MD5_Fo, b, c, d, a, t1[3], MD5C07, MD5S03);
+    MD5_STEP (MD5_Fo, a, b, c, d, t2[0], MD5C08, MD5S00);
+    MD5_STEP (MD5_Fo, d, a, b, c, t2[1], MD5C09, MD5S01);
+    MD5_STEP (MD5_Fo, c, d, a, b, t2[2], MD5C0a, MD5S02);
+    MD5_STEP (MD5_Fo, b, c, d, a, t2[3], MD5C0b, MD5S03);
+    MD5_STEP (MD5_Fo, a, b, c, d, t3[0], MD5C0c, MD5S00);
+    MD5_STEP (MD5_Fo, d, a, b, c, t3[1], MD5C0d, MD5S01);
+    MD5_STEP (MD5_Fo, c, d, a, b, t3[2], MD5C0e, MD5S02);
+    MD5_STEP (MD5_Fo, b, c, d, a, t3[3], MD5C0f, MD5S03);
+
+    MD5_STEP (MD5_Go, a, b, c, d, t0[1], MD5C10, MD5S10);
+    MD5_STEP (MD5_Go, d, a, b, c, t1[2], MD5C11, MD5S11);
+    MD5_STEP (MD5_Go, c, d, a, b, t2[3], MD5C12, MD5S12);
+    MD5_STEP (MD5_Go, b, c, d, a, t0[0], MD5C13, MD5S13);
+    MD5_STEP (MD5_Go, a, b, c, d, t1[1], MD5C14, MD5S10);
+    MD5_STEP (MD5_Go, d, a, b, c, t2[2], MD5C15, MD5S11);
+    MD5_STEP (MD5_Go, c, d, a, b, t3[3], MD5C16, MD5S12);
+    MD5_STEP (MD5_Go, b, c, d, a, t1[0], MD5C17, MD5S13);
+    MD5_STEP (MD5_Go, a, b, c, d, t2[1], MD5C18, MD5S10);
+    MD5_STEP (MD5_Go, d, a, b, c, t3[2], MD5C19, MD5S11);
+    MD5_STEP (MD5_Go, c, d, a, b, t0[3], MD5C1a, MD5S12);
+    MD5_STEP (MD5_Go, b, c, d, a, t2[0], MD5C1b, MD5S13);
+    MD5_STEP (MD5_Go, a, b, c, d, t3[1], MD5C1c, MD5S10);
+    MD5_STEP (MD5_Go, d, a, b, c, t0[2], MD5C1d, MD5S11);
+    MD5_STEP (MD5_Go, c, d, a, b, t1[3], MD5C1e, MD5S12);
+    MD5_STEP (MD5_Go, b, c, d, a, t3[0], MD5C1f, MD5S13);
+
+    MD5_STEP (MD5_H , a, b, c, d, t1[1], MD5C20, MD5S20);
+    MD5_STEP (MD5_H , d, a, b, c, t2[0], MD5C21, MD5S21);
+    MD5_STEP (MD5_H , c, d, a, b, t2[3], MD5C22, MD5S22);
+    MD5_STEP (MD5_H , b, c, d, a, t3[2], MD5C23, MD5S23);
+    MD5_STEP (MD5_H , a, b, c, d, t0[1], MD5C24, MD5S20);
+    MD5_STEP (MD5_H , d, a, b, c, t1[0], MD5C25, MD5S21);
+    MD5_STEP (MD5_H , c, d, a, b, t1[3], MD5C26, MD5S22);
+    MD5_STEP (MD5_H , b, c, d, a, t2[2], MD5C27, MD5S23);
+    MD5_STEP (MD5_H , a, b, c, d, t3[1], MD5C28, MD5S20);
+    MD5_STEP (MD5_H , d, a, b, c, t0[0], MD5C29, MD5S21);
+    MD5_STEP (MD5_H , c, d, a, b, t0[3], MD5C2a, MD5S22);
+    MD5_STEP (MD5_H , b, c, d, a, t1[2], MD5C2b, MD5S23);
+    MD5_STEP (MD5_H , a, b, c, d, t2[1], MD5C2c, MD5S20);
+    MD5_STEP (MD5_H , d, a, b, c, t3[0], MD5C2d, MD5S21);
+    MD5_STEP (MD5_H , c, d, a, b, t3[3], MD5C2e, MD5S22);
+    MD5_STEP (MD5_H , b, c, d, a, t0[2], MD5C2f, MD5S23);
+
+    MD5_STEP (MD5_I , a, b, c, d, t0[0], MD5C30, MD5S30);
+    MD5_STEP (MD5_I , d, a, b, c, t1[3], MD5C31, MD5S31);
+    MD5_STEP (MD5_I , c, d, a, b, t3[2], MD5C32, MD5S32);
+    MD5_STEP (MD5_I , b, c, d, a, t1[1], MD5C33, MD5S33);
+    MD5_STEP (MD5_I , a, b, c, d, t3[0], MD5C34, MD5S30);
+    MD5_STEP (MD5_I , d, a, b, c, t0[3], MD5C35, MD5S31);
+    MD5_STEP (MD5_I , c, d, a, b, t2[2], MD5C36, MD5S32);
+    MD5_STEP (MD5_I , b, c, d, a, t0[1], MD5C37, MD5S33);
+    MD5_STEP (MD5_I , a, b, c, d, t2[0], MD5C38, MD5S30);
+    MD5_STEP (MD5_I , d, a, b, c, t3[3], MD5C39, MD5S31);
+    MD5_STEP (MD5_I , c, d, a, b, t1[2], MD5C3a, MD5S32);
+    MD5_STEP (MD5_I , b, c, d, a, t3[1], MD5C3b, MD5S33);
+    MD5_STEP (MD5_I , a, b, c, d, t1[0], MD5C3c, MD5S30);
 
     if (MATCHES_NONE_VS (a, search[0])) continue;
 
-    MD5_STEP (MD5_I , d, a, b, c, w2_t[3], MD5C3d, MD5S31);
-    MD5_STEP (MD5_I , c, d, a, b, w0_t[2], MD5C3e, MD5S32);
-    MD5_STEP (MD5_I , b, c, d, a, w2_t[1], MD5C3f, MD5S33);
+    MD5_STEP (MD5_I , d, a, b, c, t2[3], MD5C3d, MD5S31);
+    MD5_STEP (MD5_I , c, d, a, b, t0[2], MD5C3e, MD5S32);
+    MD5_STEP (MD5_I , b, c, d, a, t2[1], MD5C3f, MD5S33);
 
     COMPARE_S_SIMD (a, d, c, b);
   }
index fd8449b..29e7e91 100644 (file)
@@ -81,8 +81,30 @@ static void m00040m (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_le
   w2[3] |= salt_buf2[3];
   w3[0] |= salt_buf3[0];
   w3[1] |= salt_buf3[1];
-  w3[2]  = pw_salt_len * 8;
-  w3[3]  = 0;
+  w3[2] |= salt_buf3[2];
+  w3[3] |= salt_buf3[3];
+
+  u32x t0[4];
+  u32x t1[4];
+  u32x t2[4];
+  u32x t3[4];
+
+  t0[0] = w0[0];
+  t0[1] = w0[1];
+  t0[2] = w0[2];
+  t0[3] = w0[3];
+  t1[0] = w1[0];
+  t1[1] = w1[1];
+  t1[2] = w1[2];
+  t1[3] = w1[3];
+  t2[0] = w2[0];
+  t2[1] = w2[1];
+  t2[2] = w2[2];
+  t2[3] = w2[3];
+  t3[0] = w3[0];
+  t3[1] = w3[1];
+  t3[2] = pw_salt_len * 8;
+  t3[3] = 0;
 
   /**
    * loop
@@ -94,29 +116,7 @@ static void m00040m (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_le
 
     const u32x w0lr = w0l | w0r;
 
-    u32x w0_t[4];
-    u32x w1_t[4];
-    u32x w2_t[4];
-    u32x w3_t[4];
-
-    w0_t[0] = w0[0];
-    w0_t[1] = w0[1];
-    w0_t[2] = w0[2];
-    w0_t[3] = w0[3];
-    w1_t[0] = w1[0];
-    w1_t[1] = w1[1];
-    w1_t[2] = w1[2];
-    w1_t[3] = w1[3];
-    w2_t[0] = w2[0];
-    w2_t[1] = w2[1];
-    w2_t[2] = w2[2];
-    w2_t[3] = w2[3];
-    w3_t[0] = w3[0];
-    w3_t[1] = w3[1];
-    w3_t[2] = w3[2];
-    w3_t[3] = w3[3];
-
-    overwrite_at_le_4x4 (w0_t, w1_t, w2_t, w3_t, w0lr, salt_len);
+    overwrite_at_le_4x4 (t0, t1, t2, t3, w0lr, salt_len);
 
     /**
      * md5
@@ -127,73 +127,73 @@ static void m00040m (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_le
     u32x c = MD5M_C;
     u32x d = MD5M_D;
 
-    MD5_STEP (MD5_Fo, a, b, c, d, w0_t[0], MD5C00, MD5S00);
-    MD5_STEP (MD5_Fo, d, a, b, c, w0_t[1], MD5C01, MD5S01);
-    MD5_STEP (MD5_Fo, c, d, a, b, w0_t[2], MD5C02, MD5S02);
-    MD5_STEP (MD5_Fo, b, c, d, a, w0_t[3], MD5C03, MD5S03);
-    MD5_STEP (MD5_Fo, a, b, c, d, w1_t[0], MD5C04, MD5S00);
-    MD5_STEP (MD5_Fo, d, a, b, c, w1_t[1], MD5C05, MD5S01);
-    MD5_STEP (MD5_Fo, c, d, a, b, w1_t[2], MD5C06, MD5S02);
-    MD5_STEP (MD5_Fo, b, c, d, a, w1_t[3], MD5C07, MD5S03);
-    MD5_STEP (MD5_Fo, a, b, c, d, w2_t[0], MD5C08, MD5S00);
-    MD5_STEP (MD5_Fo, d, a, b, c, w2_t[1], MD5C09, MD5S01);
-    MD5_STEP (MD5_Fo, c, d, a, b, w2_t[2], MD5C0a, MD5S02);
-    MD5_STEP (MD5_Fo, b, c, d, a, w2_t[3], MD5C0b, MD5S03);
-    MD5_STEP (MD5_Fo, a, b, c, d, w3_t[0], MD5C0c, MD5S00);
-    MD5_STEP (MD5_Fo, d, a, b, c, w3_t[1], MD5C0d, MD5S01);
-    MD5_STEP (MD5_Fo, c, d, a, b, w3_t[2], MD5C0e, MD5S02);
-    MD5_STEP (MD5_Fo, b, c, d, a, w3_t[3], MD5C0f, MD5S03);
-
-    MD5_STEP (MD5_Go, a, b, c, d, w0_t[1], MD5C10, MD5S10);
-    MD5_STEP (MD5_Go, d, a, b, c, w1_t[2], MD5C11, MD5S11);
-    MD5_STEP (MD5_Go, c, d, a, b, w2_t[3], MD5C12, MD5S12);
-    MD5_STEP (MD5_Go, b, c, d, a, w0_t[0], MD5C13, MD5S13);
-    MD5_STEP (MD5_Go, a, b, c, d, w1_t[1], MD5C14, MD5S10);
-    MD5_STEP (MD5_Go, d, a, b, c, w2_t[2], MD5C15, MD5S11);
-    MD5_STEP (MD5_Go, c, d, a, b, w3_t[3], MD5C16, MD5S12);
-    MD5_STEP (MD5_Go, b, c, d, a, w1_t[0], MD5C17, MD5S13);
-    MD5_STEP (MD5_Go, a, b, c, d, w2_t[1], MD5C18, MD5S10);
-    MD5_STEP (MD5_Go, d, a, b, c, w3_t[2], MD5C19, MD5S11);
-    MD5_STEP (MD5_Go, c, d, a, b, w0_t[3], MD5C1a, MD5S12);
-    MD5_STEP (MD5_Go, b, c, d, a, w2_t[0], MD5C1b, MD5S13);
-    MD5_STEP (MD5_Go, a, b, c, d, w3_t[1], MD5C1c, MD5S10);
-    MD5_STEP (MD5_Go, d, a, b, c, w0_t[2], MD5C1d, MD5S11);
-    MD5_STEP (MD5_Go, c, d, a, b, w1_t[3], MD5C1e, MD5S12);
-    MD5_STEP (MD5_Go, b, c, d, a, w3_t[0], MD5C1f, MD5S13);
-
-    MD5_STEP (MD5_H , a, b, c, d, w1_t[1], MD5C20, MD5S20);
-    MD5_STEP (MD5_H , d, a, b, c, w2_t[0], MD5C21, MD5S21);
-    MD5_STEP (MD5_H , c, d, a, b, w2_t[3], MD5C22, MD5S22);
-    MD5_STEP (MD5_H , b, c, d, a, w3_t[2], MD5C23, MD5S23);
-    MD5_STEP (MD5_H , a, b, c, d, w0_t[1], MD5C24, MD5S20);
-    MD5_STEP (MD5_H , d, a, b, c, w1_t[0], MD5C25, MD5S21);
-    MD5_STEP (MD5_H , c, d, a, b, w1_t[3], MD5C26, MD5S22);
-    MD5_STEP (MD5_H , b, c, d, a, w2_t[2], MD5C27, MD5S23);
-    MD5_STEP (MD5_H , a, b, c, d, w3_t[1], MD5C28, MD5S20);
-    MD5_STEP (MD5_H , d, a, b, c, w0_t[0], MD5C29, MD5S21);
-    MD5_STEP (MD5_H , c, d, a, b, w0_t[3], MD5C2a, MD5S22);
-    MD5_STEP (MD5_H , b, c, d, a, w1_t[2], MD5C2b, MD5S23);
-    MD5_STEP (MD5_H , a, b, c, d, w2_t[1], MD5C2c, MD5S20);
-    MD5_STEP (MD5_H , d, a, b, c, w3_t[0], MD5C2d, MD5S21);
-    MD5_STEP (MD5_H , c, d, a, b, w3_t[3], MD5C2e, MD5S22);
-    MD5_STEP (MD5_H , b, c, d, a, w0_t[2], MD5C2f, MD5S23);
-
-    MD5_STEP (MD5_I , a, b, c, d, w0_t[0], MD5C30, MD5S30);
-    MD5_STEP (MD5_I , d, a, b, c, w1_t[3], MD5C31, MD5S31);
-    MD5_STEP (MD5_I , c, d, a, b, w3_t[2], MD5C32, MD5S32);
-    MD5_STEP (MD5_I , b, c, d, a, w1_t[1], MD5C33, MD5S33);
-    MD5_STEP (MD5_I , a, b, c, d, w3_t[0], MD5C34, MD5S30);
-    MD5_STEP (MD5_I , d, a, b, c, w0_t[3], MD5C35, MD5S31);
-    MD5_STEP (MD5_I , c, d, a, b, w2_t[2], MD5C36, MD5S32);
-    MD5_STEP (MD5_I , b, c, d, a, w0_t[1], MD5C37, MD5S33);
-    MD5_STEP (MD5_I , a, b, c, d, w2_t[0], MD5C38, MD5S30);
-    MD5_STEP (MD5_I , d, a, b, c, w3_t[3], MD5C39, MD5S31);
-    MD5_STEP (MD5_I , c, d, a, b, w1_t[2], MD5C3a, MD5S32);
-    MD5_STEP (MD5_I , b, c, d, a, w3_t[1], MD5C3b, MD5S33);
-    MD5_STEP (MD5_I , a, b, c, d, w1_t[0], MD5C3c, MD5S30);
-    MD5_STEP (MD5_I , d, a, b, c, w2_t[3], MD5C3d, MD5S31);
-    MD5_STEP (MD5_I , c, d, a, b, w0_t[2], MD5C3e, MD5S32);
-    MD5_STEP (MD5_I , b, c, d, a, w2_t[1], MD5C3f, MD5S33);
+    MD5_STEP (MD5_Fo, a, b, c, d, t0[0], MD5C00, MD5S00);
+    MD5_STEP (MD5_Fo, d, a, b, c, t0[1], MD5C01, MD5S01);
+    MD5_STEP (MD5_Fo, c, d, a, b, t0[2], MD5C02, MD5S02);
+    MD5_STEP (MD5_Fo, b, c, d, a, t0[3], MD5C03, MD5S03);
+    MD5_STEP (MD5_Fo, a, b, c, d, t1[0], MD5C04, MD5S00);
+    MD5_STEP (MD5_Fo, d, a, b, c, t1[1], MD5C05, MD5S01);
+    MD5_STEP (MD5_Fo, c, d, a, b, t1[2], MD5C06, MD5S02);
+    MD5_STEP (MD5_Fo, b, c, d, a, t1[3], MD5C07, MD5S03);
+    MD5_STEP (MD5_Fo, a, b, c, d, t2[0], MD5C08, MD5S00);
+    MD5_STEP (MD5_Fo, d, a, b, c, t2[1], MD5C09, MD5S01);
+    MD5_STEP (MD5_Fo, c, d, a, b, t2[2], MD5C0a, MD5S02);
+    MD5_STEP (MD5_Fo, b, c, d, a, t2[3], MD5C0b, MD5S03);
+    MD5_STEP (MD5_Fo, a, b, c, d, t3[0], MD5C0c, MD5S00);
+    MD5_STEP (MD5_Fo, d, a, b, c, t3[1], MD5C0d, MD5S01);
+    MD5_STEP (MD5_Fo, c, d, a, b, t3[2], MD5C0e, MD5S02);
+    MD5_STEP (MD5_Fo, b, c, d, a, t3[3], MD5C0f, MD5S03);
+
+    MD5_STEP (MD5_Go, a, b, c, d, t0[1], MD5C10, MD5S10);
+    MD5_STEP (MD5_Go, d, a, b, c, t1[2], MD5C11, MD5S11);
+    MD5_STEP (MD5_Go, c, d, a, b, t2[3], MD5C12, MD5S12);
+    MD5_STEP (MD5_Go, b, c, d, a, t0[0], MD5C13, MD5S13);
+    MD5_STEP (MD5_Go, a, b, c, d, t1[1], MD5C14, MD5S10);
+    MD5_STEP (MD5_Go, d, a, b, c, t2[2], MD5C15, MD5S11);
+    MD5_STEP (MD5_Go, c, d, a, b, t3[3], MD5C16, MD5S12);
+    MD5_STEP (MD5_Go, b, c, d, a, t1[0], MD5C17, MD5S13);
+    MD5_STEP (MD5_Go, a, b, c, d, t2[1], MD5C18, MD5S10);
+    MD5_STEP (MD5_Go, d, a, b, c, t3[2], MD5C19, MD5S11);
+    MD5_STEP (MD5_Go, c, d, a, b, t0[3], MD5C1a, MD5S12);
+    MD5_STEP (MD5_Go, b, c, d, a, t2[0], MD5C1b, MD5S13);
+    MD5_STEP (MD5_Go, a, b, c, d, t3[1], MD5C1c, MD5S10);
+    MD5_STEP (MD5_Go, d, a, b, c, t0[2], MD5C1d, MD5S11);
+    MD5_STEP (MD5_Go, c, d, a, b, t1[3], MD5C1e, MD5S12);
+    MD5_STEP (MD5_Go, b, c, d, a, t3[0], MD5C1f, MD5S13);
+
+    MD5_STEP (MD5_H , a, b, c, d, t1[1], MD5C20, MD5S20);
+    MD5_STEP (MD5_H , d, a, b, c, t2[0], MD5C21, MD5S21);
+    MD5_STEP (MD5_H , c, d, a, b, t2[3], MD5C22, MD5S22);
+    MD5_STEP (MD5_H , b, c, d, a, t3[2], MD5C23, MD5S23);
+    MD5_STEP (MD5_H , a, b, c, d, t0[1], MD5C24, MD5S20);
+    MD5_STEP (MD5_H , d, a, b, c, t1[0], MD5C25, MD5S21);
+    MD5_STEP (MD5_H , c, d, a, b, t1[3], MD5C26, MD5S22);
+    MD5_STEP (MD5_H , b, c, d, a, t2[2], MD5C27, MD5S23);
+    MD5_STEP (MD5_H , a, b, c, d, t3[1], MD5C28, MD5S20);
+    MD5_STEP (MD5_H , d, a, b, c, t0[0], MD5C29, MD5S21);
+    MD5_STEP (MD5_H , c, d, a, b, t0[3], MD5C2a, MD5S22);
+    MD5_STEP (MD5_H , b, c, d, a, t1[2], MD5C2b, MD5S23);
+    MD5_STEP (MD5_H , a, b, c, d, t2[1], MD5C2c, MD5S20);
+    MD5_STEP (MD5_H , d, a, b, c, t3[0], MD5C2d, MD5S21);
+    MD5_STEP (MD5_H , c, d, a, b, t3[3], MD5C2e, MD5S22);
+    MD5_STEP (MD5_H , b, c, d, a, t0[2], MD5C2f, MD5S23);
+
+    MD5_STEP (MD5_I , a, b, c, d, t0[0], MD5C30, MD5S30);
+    MD5_STEP (MD5_I , d, a, b, c, t1[3], MD5C31, MD5S31);
+    MD5_STEP (MD5_I , c, d, a, b, t3[2], MD5C32, MD5S32);
+    MD5_STEP (MD5_I , b, c, d, a, t1[1], MD5C33, MD5S33);
+    MD5_STEP (MD5_I , a, b, c, d, t3[0], MD5C34, MD5S30);
+    MD5_STEP (MD5_I , d, a, b, c, t0[3], MD5C35, MD5S31);
+    MD5_STEP (MD5_I , c, d, a, b, t2[2], MD5C36, MD5S32);
+    MD5_STEP (MD5_I , b, c, d, a, t0[1], MD5C37, MD5S33);
+    MD5_STEP (MD5_I , a, b, c, d, t2[0], MD5C38, MD5S30);
+    MD5_STEP (MD5_I , d, a, b, c, t3[3], MD5C39, MD5S31);
+    MD5_STEP (MD5_I , c, d, a, b, t1[2], MD5C3a, MD5S32);
+    MD5_STEP (MD5_I , b, c, d, a, t3[1], MD5C3b, MD5S33);
+    MD5_STEP (MD5_I , a, b, c, d, t1[0], MD5C3c, MD5S30);
+    MD5_STEP (MD5_I , d, a, b, c, t2[3], MD5C3d, MD5S31);
+    MD5_STEP (MD5_I , c, d, a, b, t0[2], MD5C3e, MD5S32);
+    MD5_STEP (MD5_I , b, c, d, a, t2[1], MD5C3f, MD5S33);
 
     COMPARE_M_SIMD (a, d, c, b);
   }
@@ -272,8 +272,30 @@ static void m00040s (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_le
   w2[3] |= salt_buf2[3];
   w3[0] |= salt_buf3[0];
   w3[1] |= salt_buf3[1];
-  w3[2]  = pw_salt_len * 8;
-  w3[3]  = 0;
+  w3[2] |= salt_buf3[2];
+  w3[3] |= salt_buf3[3];
+
+  u32x t0[4];
+  u32x t1[4];
+  u32x t2[4];
+  u32x t3[4];
+
+  t0[0] = w0[0];
+  t0[1] = w0[1];
+  t0[2] = w0[2];
+  t0[3] = w0[3];
+  t1[0] = w1[0];
+  t1[1] = w1[1];
+  t1[2] = w1[2];
+  t1[3] = w1[3];
+  t2[0] = w2[0];
+  t2[1] = w2[1];
+  t2[2] = w2[2];
+  t2[3] = w2[3];
+  t3[0] = w3[0];
+  t3[1] = w3[1];
+  t3[2] = pw_salt_len * 8;
+  t3[3] = 0;
 
   /**
    * loop
@@ -285,29 +307,7 @@ static void m00040s (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_le
 
     const u32x w0lr = w0l | w0r;
 
-    u32x w0_t[4];
-    u32x w1_t[4];
-    u32x w2_t[4];
-    u32x w3_t[4];
-
-    w0_t[0] = w0[0];
-    w0_t[1] = w0[1];
-    w0_t[2] = w0[2];
-    w0_t[3] = w0[3];
-    w1_t[0] = w1[0];
-    w1_t[1] = w1[1];
-    w1_t[2] = w1[2];
-    w1_t[3] = w1[3];
-    w2_t[0] = w2[0];
-    w2_t[1] = w2[1];
-    w2_t[2] = w2[2];
-    w2_t[3] = w2[3];
-    w3_t[0] = w3[0];
-    w3_t[1] = w3[1];
-    w3_t[2] = w3[2];
-    w3_t[3] = w3[3];
-
-    overwrite_at_le_4x4 (w0_t, w1_t, w2_t, w3_t, w0lr, salt_len);
+    overwrite_at_le_4x4 (t0, t1, t2, t3, w0lr, salt_len);
 
     /**
      * md5
@@ -318,76 +318,76 @@ static void m00040s (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_le
     u32x c = MD5M_C;
     u32x d = MD5M_D;
 
-    MD5_STEP (MD5_Fo, a, b, c, d, w0_t[0], MD5C00, MD5S00);
-    MD5_STEP (MD5_Fo, d, a, b, c, w0_t[1], MD5C01, MD5S01);
-    MD5_STEP (MD5_Fo, c, d, a, b, w0_t[2], MD5C02, MD5S02);
-    MD5_STEP (MD5_Fo, b, c, d, a, w0_t[3], MD5C03, MD5S03);
-    MD5_STEP (MD5_Fo, a, b, c, d, w1_t[0], MD5C04, MD5S00);
-    MD5_STEP (MD5_Fo, d, a, b, c, w1_t[1], MD5C05, MD5S01);
-    MD5_STEP (MD5_Fo, c, d, a, b, w1_t[2], MD5C06, MD5S02);
-    MD5_STEP (MD5_Fo, b, c, d, a, w1_t[3], MD5C07, MD5S03);
-    MD5_STEP (MD5_Fo, a, b, c, d, w2_t[0], MD5C08, MD5S00);
-    MD5_STEP (MD5_Fo, d, a, b, c, w2_t[1], MD5C09, MD5S01);
-    MD5_STEP (MD5_Fo, c, d, a, b, w2_t[2], MD5C0a, MD5S02);
-    MD5_STEP (MD5_Fo, b, c, d, a, w2_t[3], MD5C0b, MD5S03);
-    MD5_STEP (MD5_Fo, a, b, c, d, w3_t[0], MD5C0c, MD5S00);
-    MD5_STEP (MD5_Fo, d, a, b, c, w3_t[1], MD5C0d, MD5S01);
-    MD5_STEP (MD5_Fo, c, d, a, b, w3_t[2], MD5C0e, MD5S02);
-    MD5_STEP (MD5_Fo, b, c, d, a, w3_t[3], MD5C0f, MD5S03);
-
-    MD5_STEP (MD5_Go, a, b, c, d, w0_t[1], MD5C10, MD5S10);
-    MD5_STEP (MD5_Go, d, a, b, c, w1_t[2], MD5C11, MD5S11);
-    MD5_STEP (MD5_Go, c, d, a, b, w2_t[3], MD5C12, MD5S12);
-    MD5_STEP (MD5_Go, b, c, d, a, w0_t[0], MD5C13, MD5S13);
-    MD5_STEP (MD5_Go, a, b, c, d, w1_t[1], MD5C14, MD5S10);
-    MD5_STEP (MD5_Go, d, a, b, c, w2_t[2], MD5C15, MD5S11);
-    MD5_STEP (MD5_Go, c, d, a, b, w3_t[3], MD5C16, MD5S12);
-    MD5_STEP (MD5_Go, b, c, d, a, w1_t[0], MD5C17, MD5S13);
-    MD5_STEP (MD5_Go, a, b, c, d, w2_t[1], MD5C18, MD5S10);
-    MD5_STEP (MD5_Go, d, a, b, c, w3_t[2], MD5C19, MD5S11);
-    MD5_STEP (MD5_Go, c, d, a, b, w0_t[3], MD5C1a, MD5S12);
-    MD5_STEP (MD5_Go, b, c, d, a, w2_t[0], MD5C1b, MD5S13);
-    MD5_STEP (MD5_Go, a, b, c, d, w3_t[1], MD5C1c, MD5S10);
-    MD5_STEP (MD5_Go, d, a, b, c, w0_t[2], MD5C1d, MD5S11);
-    MD5_STEP (MD5_Go, c, d, a, b, w1_t[3], MD5C1e, MD5S12);
-    MD5_STEP (MD5_Go, b, c, d, a, w3_t[0], MD5C1f, MD5S13);
-
-    MD5_STEP (MD5_H , a, b, c, d, w1_t[1], MD5C20, MD5S20);
-    MD5_STEP (MD5_H , d, a, b, c, w2_t[0], MD5C21, MD5S21);
-    MD5_STEP (MD5_H , c, d, a, b, w2_t[3], MD5C22, MD5S22);
-    MD5_STEP (MD5_H , b, c, d, a, w3_t[2], MD5C23, MD5S23);
-    MD5_STEP (MD5_H , a, b, c, d, w0_t[1], MD5C24, MD5S20);
-    MD5_STEP (MD5_H , d, a, b, c, w1_t[0], MD5C25, MD5S21);
-    MD5_STEP (MD5_H , c, d, a, b, w1_t[3], MD5C26, MD5S22);
-    MD5_STEP (MD5_H , b, c, d, a, w2_t[2], MD5C27, MD5S23);
-    MD5_STEP (MD5_H , a, b, c, d, w3_t[1], MD5C28, MD5S20);
-    MD5_STEP (MD5_H , d, a, b, c, w0_t[0], MD5C29, MD5S21);
-    MD5_STEP (MD5_H , c, d, a, b, w0_t[3], MD5C2a, MD5S22);
-    MD5_STEP (MD5_H , b, c, d, a, w1_t[2], MD5C2b, MD5S23);
-    MD5_STEP (MD5_H , a, b, c, d, w2_t[1], MD5C2c, MD5S20);
-    MD5_STEP (MD5_H , d, a, b, c, w3_t[0], MD5C2d, MD5S21);
-    MD5_STEP (MD5_H , c, d, a, b, w3_t[3], MD5C2e, MD5S22);
-    MD5_STEP (MD5_H , b, c, d, a, w0_t[2], MD5C2f, MD5S23);
-
-    MD5_STEP (MD5_I , a, b, c, d, w0_t[0], MD5C30, MD5S30);
-    MD5_STEP (MD5_I , d, a, b, c, w1_t[3], MD5C31, MD5S31);
-    MD5_STEP (MD5_I , c, d, a, b, w3_t[2], MD5C32, MD5S32);
-    MD5_STEP (MD5_I , b, c, d, a, w1_t[1], MD5C33, MD5S33);
-    MD5_STEP (MD5_I , a, b, c, d, w3_t[0], MD5C34, MD5S30);
-    MD5_STEP (MD5_I , d, a, b, c, w0_t[3], MD5C35, MD5S31);
-    MD5_STEP (MD5_I , c, d, a, b, w2_t[2], MD5C36, MD5S32);
-    MD5_STEP (MD5_I , b, c, d, a, w0_t[1], MD5C37, MD5S33);
-    MD5_STEP (MD5_I , a, b, c, d, w2_t[0], MD5C38, MD5S30);
-    MD5_STEP (MD5_I , d, a, b, c, w3_t[3], MD5C39, MD5S31);
-    MD5_STEP (MD5_I , c, d, a, b, w1_t[2], MD5C3a, MD5S32);
-    MD5_STEP (MD5_I , b, c, d, a, w3_t[1], MD5C3b, MD5S33);
-    MD5_STEP (MD5_I , a, b, c, d, w1_t[0], MD5C3c, MD5S30);
+    MD5_STEP (MD5_Fo, a, b, c, d, t0[0], MD5C00, MD5S00);
+    MD5_STEP (MD5_Fo, d, a, b, c, t0[1], MD5C01, MD5S01);
+    MD5_STEP (MD5_Fo, c, d, a, b, t0[2], MD5C02, MD5S02);
+    MD5_STEP (MD5_Fo, b, c, d, a, t0[3], MD5C03, MD5S03);
+    MD5_STEP (MD5_Fo, a, b, c, d, t1[0], MD5C04, MD5S00);
+    MD5_STEP (MD5_Fo, d, a, b, c, t1[1], MD5C05, MD5S01);
+    MD5_STEP (MD5_Fo, c, d, a, b, t1[2], MD5C06, MD5S02);
+    MD5_STEP (MD5_Fo, b, c, d, a, t1[3], MD5C07, MD5S03);
+    MD5_STEP (MD5_Fo, a, b, c, d, t2[0], MD5C08, MD5S00);
+    MD5_STEP (MD5_Fo, d, a, b, c, t2[1], MD5C09, MD5S01);
+    MD5_STEP (MD5_Fo, c, d, a, b, t2[2], MD5C0a, MD5S02);
+    MD5_STEP (MD5_Fo, b, c, d, a, t2[3], MD5C0b, MD5S03);
+    MD5_STEP (MD5_Fo, a, b, c, d, t3[0], MD5C0c, MD5S00);
+    MD5_STEP (MD5_Fo, d, a, b, c, t3[1], MD5C0d, MD5S01);
+    MD5_STEP (MD5_Fo, c, d, a, b, t3[2], MD5C0e, MD5S02);
+    MD5_STEP (MD5_Fo, b, c, d, a, t3[3], MD5C0f, MD5S03);
+
+    MD5_STEP (MD5_Go, a, b, c, d, t0[1], MD5C10, MD5S10);
+    MD5_STEP (MD5_Go, d, a, b, c, t1[2], MD5C11, MD5S11);
+    MD5_STEP (MD5_Go, c, d, a, b, t2[3], MD5C12, MD5S12);
+    MD5_STEP (MD5_Go, b, c, d, a, t0[0], MD5C13, MD5S13);
+    MD5_STEP (MD5_Go, a, b, c, d, t1[1], MD5C14, MD5S10);
+    MD5_STEP (MD5_Go, d, a, b, c, t2[2], MD5C15, MD5S11);
+    MD5_STEP (MD5_Go, c, d, a, b, t3[3], MD5C16, MD5S12);
+    MD5_STEP (MD5_Go, b, c, d, a, t1[0], MD5C17, MD5S13);
+    MD5_STEP (MD5_Go, a, b, c, d, t2[1], MD5C18, MD5S10);
+    MD5_STEP (MD5_Go, d, a, b, c, t3[2], MD5C19, MD5S11);
+    MD5_STEP (MD5_Go, c, d, a, b, t0[3], MD5C1a, MD5S12);
+    MD5_STEP (MD5_Go, b, c, d, a, t2[0], MD5C1b, MD5S13);
+    MD5_STEP (MD5_Go, a, b, c, d, t3[1], MD5C1c, MD5S10);
+    MD5_STEP (MD5_Go, d, a, b, c, t0[2], MD5C1d, MD5S11);
+    MD5_STEP (MD5_Go, c, d, a, b, t1[3], MD5C1e, MD5S12);
+    MD5_STEP (MD5_Go, b, c, d, a, t3[0], MD5C1f, MD5S13);
+
+    MD5_STEP (MD5_H , a, b, c, d, t1[1], MD5C20, MD5S20);
+    MD5_STEP (MD5_H , d, a, b, c, t2[0], MD5C21, MD5S21);
+    MD5_STEP (MD5_H , c, d, a, b, t2[3], MD5C22, MD5S22);
+    MD5_STEP (MD5_H , b, c, d, a, t3[2], MD5C23, MD5S23);
+    MD5_STEP (MD5_H , a, b, c, d, t0[1], MD5C24, MD5S20);
+    MD5_STEP (MD5_H , d, a, b, c, t1[0], MD5C25, MD5S21);
+    MD5_STEP (MD5_H , c, d, a, b, t1[3], MD5C26, MD5S22);
+    MD5_STEP (MD5_H , b, c, d, a, t2[2], MD5C27, MD5S23);
+    MD5_STEP (MD5_H , a, b, c, d, t3[1], MD5C28, MD5S20);
+    MD5_STEP (MD5_H , d, a, b, c, t0[0], MD5C29, MD5S21);
+    MD5_STEP (MD5_H , c, d, a, b, t0[3], MD5C2a, MD5S22);
+    MD5_STEP (MD5_H , b, c, d, a, t1[2], MD5C2b, MD5S23);
+    MD5_STEP (MD5_H , a, b, c, d, t2[1], MD5C2c, MD5S20);
+    MD5_STEP (MD5_H , d, a, b, c, t3[0], MD5C2d, MD5S21);
+    MD5_STEP (MD5_H , c, d, a, b, t3[3], MD5C2e, MD5S22);
+    MD5_STEP (MD5_H , b, c, d, a, t0[2], MD5C2f, MD5S23);
+
+    MD5_STEP (MD5_I , a, b, c, d, t0[0], MD5C30, MD5S30);
+    MD5_STEP (MD5_I , d, a, b, c, t1[3], MD5C31, MD5S31);
+    MD5_STEP (MD5_I , c, d, a, b, t3[2], MD5C32, MD5S32);
+    MD5_STEP (MD5_I , b, c, d, a, t1[1], MD5C33, MD5S33);
+    MD5_STEP (MD5_I , a, b, c, d, t3[0], MD5C34, MD5S30);
+    MD5_STEP (MD5_I , d, a, b, c, t0[3], MD5C35, MD5S31);
+    MD5_STEP (MD5_I , c, d, a, b, t2[2], MD5C36, MD5S32);
+    MD5_STEP (MD5_I , b, c, d, a, t0[1], MD5C37, MD5S33);
+    MD5_STEP (MD5_I , a, b, c, d, t2[0], MD5C38, MD5S30);
+    MD5_STEP (MD5_I , d, a, b, c, t3[3], MD5C39, MD5S31);
+    MD5_STEP (MD5_I , c, d, a, b, t1[2], MD5C3a, MD5S32);
+    MD5_STEP (MD5_I , b, c, d, a, t3[1], MD5C3b, MD5S33);
+    MD5_STEP (MD5_I , a, b, c, d, t1[0], MD5C3c, MD5S30);
 
     if (MATCHES_NONE_VS (a, search[0])) continue;
 
-    MD5_STEP (MD5_I , d, a, b, c, w2_t[3], MD5C3d, MD5S31);
-    MD5_STEP (MD5_I , c, d, a, b, w0_t[2], MD5C3e, MD5S32);
-    MD5_STEP (MD5_I , b, c, d, a, w2_t[1], MD5C3f, MD5S33);
+    MD5_STEP (MD5_I , d, a, b, c, t2[3], MD5C3d, MD5S31);
+    MD5_STEP (MD5_I , c, d, a, b, t0[2], MD5C3e, MD5S32);
+    MD5_STEP (MD5_I , b, c, d, a, t2[1], MD5C3f, MD5S33);
 
     COMPARE_S_SIMD (a, d, c, b);
   }