Converted _a3 kernels, use SIMD for CPU and GPU

[hashcat.git] / OpenCL / m11200_a3.cl
diff --git a/OpenCL/m11200_a3.cl b/OpenCL/m11200_a3.cl

index ac0de34..8f110ba 100644 (file)
--- a/OpenCL/m11200_a3.cl
+++ b/OpenCL/m11200_a3.cl
@@ -5,6 +5,8 @@
  
  #define _SHA1_
  
+#define NEW_SIMD_CODE
+
  #include "include/constants.h"
  #include "include/kernel_vendor.h"
  
@@ -16,9 +18,7 @@
  #include "include/kernel_functions.c"
  #include "OpenCL/types_ocl.c"
  #include "OpenCL/common.c"
-
-#define COMPARE_S "OpenCL/check_single_comp4.c"
-#define COMPARE_M "OpenCL/check_multi_comp4.c"
+#include "OpenCL/simd.c"
  
  static void m11200m (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_len, __global pw_t *pws, __global kernel_rule_t *rules_buf, __global comb_t *combs_buf, __global bf_t *bfs_buf, __global void *tmps, __global void *hooks, __global u32 *bitmaps_buf_s1_a, __global u32 *bitmaps_buf_s1_b, __global u32 *bitmaps_buf_s1_c, __global u32 *bitmaps_buf_s1_d, __global u32 *bitmaps_buf_s2_a, __global u32 *bitmaps_buf_s2_b, __global u32 *bitmaps_buf_s2_c, __global u32 *bitmaps_buf_s2_d, __global plain_t *plains_buf, __global digest_t *digests_buf, __global u32 *hashes_shown, __global salt_t *salt_bufs, __global void *esalt_bufs, __global u32 *d_return_buf, __global u32 *d_scryptV_buf, const u32 bitmap_mask, const u32 bitmap_shift1, const u32 bitmap_shift2, const u32 salt_pos, const u32 loop_pos, const u32 loop_cnt, const u32 bfs_cnt, const u32 digests_cnt, const u32 digests_offset)
  {
@@ -35,11 +35,11 @@ static void m11200m (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_le
  
    u32 salt_buf[5];
  
-  salt_buf[0] = swap32 (salt_bufs[salt_pos].salt_buf[0]);
-  salt_buf[1] = swap32 (salt_bufs[salt_pos].salt_buf[1]);
-  salt_buf[2] = swap32 (salt_bufs[salt_pos].salt_buf[2]);
-  salt_buf[3] = swap32 (salt_bufs[salt_pos].salt_buf[3]);
-  salt_buf[4] = swap32 (salt_bufs[salt_pos].salt_buf[4]);
+  salt_buf[0] = swap32_S (salt_bufs[salt_pos].salt_buf[0]);
+  salt_buf[1] = swap32_S (salt_bufs[salt_pos].salt_buf[1]);
+  salt_buf[2] = swap32_S (salt_bufs[salt_pos].salt_buf[2]);
+  salt_buf[3] = swap32_S (salt_bufs[salt_pos].salt_buf[3]);
+  salt_buf[4] = swap32_S (salt_bufs[salt_pos].salt_buf[4]);
  
    /**
     * loop
@@ -47,38 +47,38 @@ static void m11200m (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_le
  
    u32 w0l = w0[0];
  
-  for (u32 il_pos = 0; il_pos < bfs_cnt; il_pos++)
+  for (u32 il_pos = 0; il_pos < bfs_cnt; il_pos += VECT_SIZE)
    {
-    const u32 w0r = bfs_buf[il_pos].i;
+    const u32x w0r = w0r_create_bft (bfs_buf, il_pos);
  
-    w0[0] = w0l | w0r;
+    const u32x w0lr = w0l | w0r;
  
      /**
       * sha1 ($pass)
       */
  
-    u32 w0_t = w0[0];
-    u32 w1_t = w0[1];
-    u32 w2_t = w0[2];
-    u32 w3_t = w0[3];
-    u32 w4_t = w1[0];
-    u32 w5_t = w1[1];
-    u32 w6_t = w1[2];
-    u32 w7_t = w1[3];
-    u32 w8_t = w2[0];
-    u32 w9_t = w2[1];
-    u32 wa_t = w2[2];
-    u32 wb_t = w2[3];
-    u32 wc_t = w3[0];
-    u32 wd_t = w3[1];
-    u32 we_t = 0;
-    u32 wf_t = pw_len * 8;
-
-    u32 a = SHA1M_A;
-    u32 b = SHA1M_B;
-    u32 c = SHA1M_C;
-    u32 d = SHA1M_D;
-    u32 e = SHA1M_E;
+    u32x w0_t = w0lr;
+    u32x w1_t = w0[1];
+    u32x w2_t = w0[2];
+    u32x w3_t = w0[3];
+    u32x w4_t = w1[0];
+    u32x w5_t = w1[1];
+    u32x w6_t = w1[2];
+    u32x w7_t = w1[3];
+    u32x w8_t = w2[0];
+    u32x w9_t = w2[1];
+    u32x wa_t = w2[2];
+    u32x wb_t = w2[3];
+    u32x wc_t = w3[0];
+    u32x wd_t = w3[1];
+    u32x we_t = 0;
+    u32x wf_t = pw_len * 8;
+
+    u32x a = SHA1M_A;
+    u32x b = SHA1M_B;
+    u32x c = SHA1M_C;
+    u32x d = SHA1M_D;
+    u32x e = SHA1M_E;
  
      #undef K
      #define K SHA1C00
@@ -176,11 +176,11 @@ static void m11200m (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_le
      we_t = rotl32 ((wb_t ^ w6_t ^ w0_t ^ we_t), 1u); SHA1_STEP (SHA1_F1, c, d, e, a, b, we_t);
      wf_t = rotl32 ((wc_t ^ w7_t ^ w1_t ^ wf_t), 1u); SHA1_STEP (SHA1_F1, b, c, d, e, a, wf_t);
  
-    u32 plain_sha1_a = a + SHA1M_A;
-    u32 plain_sha1_b = b + SHA1M_B;
-    u32 plain_sha1_c = c + SHA1M_C;
-    u32 plain_sha1_d = d + SHA1M_D;
-    u32 plain_sha1_e = e + SHA1M_E;
+    u32x plain_sha1_a = a + SHA1M_A;
+    u32x plain_sha1_b = b + SHA1M_B;
+    u32x plain_sha1_c = c + SHA1M_C;
+    u32x plain_sha1_d = d + SHA1M_D;
+    u32x plain_sha1_e = e + SHA1M_E;
  
      /**
       * sha1 (sha1 ($pass))
@@ -447,12 +447,7 @@ static void m11200m (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_le
      d ^= plain_sha1_d;
      e ^= plain_sha1_e;
  
-    const u32 r0 = d;
-    const u32 r1 = e;
-    const u32 r2 = c;
-    const u32 r3 = b;
-
-    #include COMPARE_M
+    COMPARE_M_SIMD (d, e, c, b);
    }
  }
  
@@ -483,11 +478,11 @@ static void m11200s (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_le
  
    u32 salt_buf[5];
  
-  salt_buf[0] = swap32 (salt_bufs[salt_pos].salt_buf[0]);
-  salt_buf[1] = swap32 (salt_bufs[salt_pos].salt_buf[1]);
-  salt_buf[2] = swap32 (salt_bufs[salt_pos].salt_buf[2]);
-  salt_buf[3] = swap32 (salt_bufs[salt_pos].salt_buf[3]);
-  salt_buf[4] = swap32 (salt_bufs[salt_pos].salt_buf[4]);
+  salt_buf[0] = swap32_S (salt_bufs[salt_pos].salt_buf[0]);
+  salt_buf[1] = swap32_S (salt_bufs[salt_pos].salt_buf[1]);
+  salt_buf[2] = swap32_S (salt_bufs[salt_pos].salt_buf[2]);
+  salt_buf[3] = swap32_S (salt_bufs[salt_pos].salt_buf[3]);
+  salt_buf[4] = swap32_S (salt_bufs[salt_pos].salt_buf[4]);
  
    /**
     * loop
@@ -495,38 +490,38 @@ static void m11200s (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_le
  
    u32 w0l = w0[0];
  
-  for (u32 il_pos = 0; il_pos < bfs_cnt; il_pos++)
+  for (u32 il_pos = 0; il_pos < bfs_cnt; il_pos += VECT_SIZE)
    {
-    const u32 w0r = bfs_buf[il_pos].i;
+    const u32x w0r = w0r_create_bft (bfs_buf, il_pos);
  
-    w0[0] = w0l | w0r;
+    const u32x w0lr = w0l | w0r;
  
      /**
       * sha1 ($pass)
       */
  
-    u32 w0_t = w0[0];
-    u32 w1_t = w0[1];
-    u32 w2_t = w0[2];
-    u32 w3_t = w0[3];
-    u32 w4_t = w1[0];
-    u32 w5_t = w1[1];
-    u32 w6_t = w1[2];
-    u32 w7_t = w1[3];
-    u32 w8_t = w2[0];
-    u32 w9_t = w2[1];
-    u32 wa_t = w2[2];
-    u32 wb_t = w2[3];
-    u32 wc_t = w3[0];
-    u32 wd_t = w3[1];
-    u32 we_t = 0;
-    u32 wf_t = pw_len * 8;
-
-    u32 a = SHA1M_A;
-    u32 b = SHA1M_B;
-    u32 c = SHA1M_C;
-    u32 d = SHA1M_D;
-    u32 e = SHA1M_E;
+    u32x w0_t = w0lr;
+    u32x w1_t = w0[1];
+    u32x w2_t = w0[2];
+    u32x w3_t = w0[3];
+    u32x w4_t = w1[0];
+    u32x w5_t = w1[1];
+    u32x w6_t = w1[2];
+    u32x w7_t = w1[3];
+    u32x w8_t = w2[0];
+    u32x w9_t = w2[1];
+    u32x wa_t = w2[2];
+    u32x wb_t = w2[3];
+    u32x wc_t = w3[0];
+    u32x wd_t = w3[1];
+    u32x we_t = 0;
+    u32x wf_t = pw_len * 8;
+
+    u32x a = SHA1M_A;
+    u32x b = SHA1M_B;
+    u32x c = SHA1M_C;
+    u32x d = SHA1M_D;
+    u32x e = SHA1M_E;
  
      #undef K
      #define K SHA1C00
@@ -624,11 +619,11 @@ static void m11200s (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_le
      we_t = rotl32 ((wb_t ^ w6_t ^ w0_t ^ we_t), 1u); SHA1_STEP (SHA1_F1, c, d, e, a, b, we_t);
      wf_t = rotl32 ((wc_t ^ w7_t ^ w1_t ^ wf_t), 1u); SHA1_STEP (SHA1_F1, b, c, d, e, a, wf_t);
  
-    u32 plain_sha1_a = a + SHA1M_A;
-    u32 plain_sha1_b = b + SHA1M_B;
-    u32 plain_sha1_c = c + SHA1M_C;
-    u32 plain_sha1_d = d + SHA1M_D;
-    u32 plain_sha1_e = e + SHA1M_E;
+    u32x plain_sha1_a = a + SHA1M_A;
+    u32x plain_sha1_b = b + SHA1M_B;
+    u32x plain_sha1_c = c + SHA1M_C;
+    u32x plain_sha1_d = d + SHA1M_D;
+    u32x plain_sha1_e = e + SHA1M_E;
  
      /**
       * sha1 (sha1 ($pass))
@@ -895,12 +890,7 @@ static void m11200s (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], const u32 pw_le
      d ^= plain_sha1_d;
      e ^= plain_sha1_e;
  
-    const u32 r0 = d;
-    const u32 r1 = e;
-    const u32 r2 = c;
-    const u32 r3 = b;
-
-    #include COMPARE_S
+    COMPARE_S_SIMD (d, e, c, b);
    }
  }