Merge pull request #311 from fgaudreault/master
[hashcat.git] / OpenCL / m10400_a3.cl
index 6eb4db3..abc46f3 100644 (file)
@@ -7,6 +7,9 @@
 
 #define _MD5_
 
+//too much register pressure
+//#define NEW_SIMD_CODE
+
 #include "include/constants.h"
 #include "include/kernel_vendor.h"
 
@@ -241,6 +244,10 @@ static void m10400m (__local RC4_KEY *rc4_keys, u32 w0[4], u32 w1[4], u32 w2[4],
   const u32 gid = get_global_id (0);
   const u32 lid = get_local_id (0);
 
+  /**
+   * shared
+   */
+
   __local RC4_KEY *rc4_key = &rc4_keys[lid];
 
   /**
@@ -267,6 +274,47 @@ static void m10400m (__local RC4_KEY *rc4_keys, u32 w0[4], u32 w1[4], u32 w2[4],
   id_buf[2] = pdf_bufs[salt_pos].id_buf[2];
   id_buf[3] = pdf_bufs[salt_pos].id_buf[3];
 
+  u32 p0[4];
+  u32 p1[4];
+  u32 p2[4];
+  u32 p3[4];
+
+  p0[0] = padding[0];
+  p0[1] = padding[1];
+  p0[2] = padding[2];
+  p0[3] = padding[3];
+  p1[0] = padding[4];
+  p1[1] = padding[5];
+  p1[2] = padding[6];
+  p1[3] = padding[7];
+  p2[0] = 0;
+  p2[1] = 0;
+  p2[2] = 0;
+  p2[3] = 0;
+  p3[0] = 0;
+  p3[1] = 0;
+  p3[2] = 0;
+  p3[3] = 0;
+
+  switch_buffer_by_offset_le (p0, p1, p2, p3, pw_len);
+
+  w0[0] |= p0[0];
+  w0[1] |= p0[1];
+  w0[2] |= p0[2];
+  w0[3] |= p0[3];
+  w1[0] |= p1[0];
+  w1[1] |= p1[1];
+  w1[2] |= p1[2];
+  w1[3] |= p1[3];
+  w2[0] |= p2[0];
+  w2[1] |= p2[1];
+  w2[2] |= p2[2];
+  w2[3] |= p2[3];
+  w3[0] |= p3[0];
+  w3[1] |= p3[1];
+  w3[2] |= p3[2];
+  w3[3] |= p3[3];
+
   /**
    * loop
    */
@@ -279,52 +327,35 @@ static void m10400m (__local RC4_KEY *rc4_keys, u32 w0[4], u32 w1[4], u32 w2[4],
 
     w0[0] = w0l | w0r;
 
+    /**
+     * pdf
+     */
+
     u32 w0_t[4];
     u32 w1_t[4];
     u32 w2_t[4];
     u32 w3_t[4];
 
-    // max length supported by pdf11 is 32
-
-    w0_t[0] = padding[0];
-    w0_t[1] = padding[1];
-    w0_t[2] = padding[2];
-    w0_t[3] = padding[3];
-    w1_t[0] = padding[4];
-    w1_t[1] = padding[5];
-    w1_t[2] = padding[6];
-    w1_t[3] = padding[7];
-    w2_t[0] = 0;
-    w2_t[1] = 0;
-    w2_t[2] = 0;
-    w2_t[3] = 0;
-    w3_t[0] = 0;
-    w3_t[1] = 0;
-    w3_t[2] = 0;
-    w3_t[3] = 0;
-
-    switch_buffer_by_offset_le_S (w0_t, w1_t, w2_t, w3_t, pw_len);
-
     // add password
     // truncate at 32 is wanted, not a bug!
     // add o_buf
 
-    w0_t[0] |= w0[0];
-    w0_t[1] |= w0[1];
-    w0_t[2] |= w0[2];
-    w0_t[3] |= w0[3];
-    w1_t[0] |= w1[0];
-    w1_t[1] |= w1[1];
-    w1_t[2] |= w1[2];
-    w1_t[3] |= w1[3];
-    w2_t[0]  = o_buf[0];
-    w2_t[1]  = o_buf[1];
-    w2_t[2]  = o_buf[2];
-    w2_t[3]  = o_buf[3];
-    w3_t[0]  = o_buf[4];
-    w3_t[1]  = o_buf[5];
-    w3_t[2]  = o_buf[6];
-    w3_t[3]  = o_buf[7];
+    w0_t[0] = w0[0];
+    w0_t[1] = w0[1];
+    w0_t[2] = w0[2];
+    w0_t[3] = w0[3];
+    w1_t[0] = w1[0];
+    w1_t[1] = w1[1];
+    w1_t[2] = w1[2];
+    w1_t[3] = w1[3];
+    w2_t[0] = o_buf[0];
+    w2_t[1] = o_buf[1];
+    w2_t[2] = o_buf[2];
+    w2_t[3] = o_buf[3];
+    w3_t[0] = o_buf[4];
+    w3_t[1] = o_buf[5];
+    w3_t[2] = o_buf[6];
+    w3_t[3] = o_buf[7];
 
     u32 digest[4];
 
@@ -356,14 +387,11 @@ static void m10400m (__local RC4_KEY *rc4_keys, u32 w0[4], u32 w1[4], u32 w2[4],
 
     // now the RC4 part
 
-    u32 key[4];
+    digest[1] = digest[1] & 0xff;
+    digest[2] = 0;
+    digest[3] = 0;
 
-    key[0] = digest[0];
-    key[1] = digest[1] & 0xff;
-    key[2] = 0;
-    key[3] = 0;
-
-    rc4_init_16 (rc4_key, key);
+    rc4_init_16 (rc4_key, digest);
 
     u32 out[4];
 
@@ -382,19 +410,11 @@ static void m10400s (__local RC4_KEY *rc4_keys, u32 w0[4], u32 w1[4], u32 w2[4],
   const u32 gid = get_global_id (0);
   const u32 lid = get_local_id (0);
 
-  __local RC4_KEY *rc4_key = &rc4_keys[lid];
-
   /**
-   * digest
+   * shared
    */
 
-  const u32 search[4] =
-  {
-    digests_buf[digests_offset].digest_buf[DGST_R0],
-    digests_buf[digests_offset].digest_buf[DGST_R1],
-    digests_buf[digests_offset].digest_buf[DGST_R2],
-    digests_buf[digests_offset].digest_buf[DGST_R3]
-  };
+  __local RC4_KEY *rc4_key = &rc4_keys[lid];
 
   /**
    * U_buf
@@ -420,6 +440,59 @@ static void m10400s (__local RC4_KEY *rc4_keys, u32 w0[4], u32 w1[4], u32 w2[4],
   id_buf[2] = pdf_bufs[salt_pos].id_buf[2];
   id_buf[3] = pdf_bufs[salt_pos].id_buf[3];
 
+  u32 p0[4];
+  u32 p1[4];
+  u32 p2[4];
+  u32 p3[4];
+
+  p0[0] = padding[0];
+  p0[1] = padding[1];
+  p0[2] = padding[2];
+  p0[3] = padding[3];
+  p1[0] = padding[4];
+  p1[1] = padding[5];
+  p1[2] = padding[6];
+  p1[3] = padding[7];
+  p2[0] = 0;
+  p2[1] = 0;
+  p2[2] = 0;
+  p2[3] = 0;
+  p3[0] = 0;
+  p3[1] = 0;
+  p3[2] = 0;
+  p3[3] = 0;
+
+  switch_buffer_by_offset_le (p0, p1, p2, p3, pw_len);
+
+  w0[0] |= p0[0];
+  w0[1] |= p0[1];
+  w0[2] |= p0[2];
+  w0[3] |= p0[3];
+  w1[0] |= p1[0];
+  w1[1] |= p1[1];
+  w1[2] |= p1[2];
+  w1[3] |= p1[3];
+  w2[0] |= p2[0];
+  w2[1] |= p2[1];
+  w2[2] |= p2[2];
+  w2[3] |= p2[3];
+  w3[0] |= p3[0];
+  w3[1] |= p3[1];
+  w3[2] |= p3[2];
+  w3[3] |= p3[3];
+
+  /**
+   * digest
+   */
+
+  const u32 search[4] =
+  {
+    digests_buf[digests_offset].digest_buf[DGST_R0],
+    digests_buf[digests_offset].digest_buf[DGST_R1],
+    digests_buf[digests_offset].digest_buf[DGST_R2],
+    digests_buf[digests_offset].digest_buf[DGST_R3]
+  };
+
   /**
    * loop
    */
@@ -432,52 +505,35 @@ static void m10400s (__local RC4_KEY *rc4_keys, u32 w0[4], u32 w1[4], u32 w2[4],
 
     w0[0] = w0l | w0r;
 
+    /**
+     * pdf
+     */
+
     u32 w0_t[4];
     u32 w1_t[4];
     u32 w2_t[4];
     u32 w3_t[4];
 
-    // max length supported by pdf11 is 32
-
-    w0_t[0] = padding[0];
-    w0_t[1] = padding[1];
-    w0_t[2] = padding[2];
-    w0_t[3] = padding[3];
-    w1_t[0] = padding[4];
-    w1_t[1] = padding[5];
-    w1_t[2] = padding[6];
-    w1_t[3] = padding[7];
-    w2_t[0] = 0;
-    w2_t[1] = 0;
-    w2_t[2] = 0;
-    w2_t[3] = 0;
-    w3_t[0] = 0;
-    w3_t[1] = 0;
-    w3_t[2] = 0;
-    w3_t[3] = 0;
-
-    switch_buffer_by_offset_le_S (w0_t, w1_t, w2_t, w3_t, pw_len);
-
     // add password
     // truncate at 32 is wanted, not a bug!
     // add o_buf
 
-    w0_t[0] |= w0[0];
-    w0_t[1] |= w0[1];
-    w0_t[2] |= w0[2];
-    w0_t[3] |= w0[3];
-    w1_t[0] |= w1[0];
-    w1_t[1] |= w1[1];
-    w1_t[2] |= w1[2];
-    w1_t[3] |= w1[3];
-    w2_t[0]  = o_buf[0];
-    w2_t[1]  = o_buf[1];
-    w2_t[2]  = o_buf[2];
-    w2_t[3]  = o_buf[3];
-    w3_t[0]  = o_buf[4];
-    w3_t[1]  = o_buf[5];
-    w3_t[2]  = o_buf[6];
-    w3_t[3]  = o_buf[7];
+    w0_t[0] = w0[0];
+    w0_t[1] = w0[1];
+    w0_t[2] = w0[2];
+    w0_t[3] = w0[3];
+    w1_t[0] = w1[0];
+    w1_t[1] = w1[1];
+    w1_t[2] = w1[2];
+    w1_t[3] = w1[3];
+    w2_t[0] = o_buf[0];
+    w2_t[1] = o_buf[1];
+    w2_t[2] = o_buf[2];
+    w2_t[3] = o_buf[3];
+    w3_t[0] = o_buf[4];
+    w3_t[1] = o_buf[5];
+    w3_t[2] = o_buf[6];
+    w3_t[3] = o_buf[7];
 
     u32 digest[4];
 
@@ -509,14 +565,11 @@ static void m10400s (__local RC4_KEY *rc4_keys, u32 w0[4], u32 w1[4], u32 w2[4],
 
     // now the RC4 part
 
-    u32 key[4];
-
-    key[0] = digest[0];
-    key[1] = digest[1] & 0xff;
-    key[2] = 0;
-    key[3] = 0;
+    digest[1] = digest[1] & 0xff;
+    digest[2] = 0;
+    digest[3] = 0;
 
-    rc4_init_16 (rc4_key, key);
+    rc4_init_16 (rc4_key, digest);
 
     u32 out[4];