amd/m07800_a0.cl

   1 /**
   2  * Author......: Jens Steube <jens.steube@gmail.com>
   3  * License.....: MIT
   4  */
   5
   6 #define _SAPG_
   7
   8 #include "include/constants.h"
   9 #include "include/kernel_vendor.h"
  10
  11 #ifdef  VLIW1
  12 #define VECT_SIZE1
  13 #endif
  14
  15 #ifdef  VLIW4
  16 #define VECT_SIZE1
  17 #endif
  18
  19 #ifdef  VLIW5
  20 #define VECT_SIZE1
  21 #endif
  22
  23 #define DGST_R0 3
  24 #define DGST_R1 4
  25 #define DGST_R2 2
  26 #define DGST_R3 1
  27
  28 #include "include/kernel_functions.c"
  29 #include "types_amd.c"
  30 #include "common_amd.c"
  31 #include "include/rp_gpu.h"
  32 #include "rp_amd.c"
  33
  34 #ifdef  VECT_SIZE1
  35 #define VECT_COMPARE_S "check_single_vect1_comp4.c"
  36 #define VECT_COMPARE_M "check_multi_vect1_comp4.c"
  37 #endif
  38
  39 #define GETSHIFTEDINT(a,n) amd_bytealign ((a)[((n)/4)+1], (a)[((n)/4)+0], (n))
  40
  41 #define SETSHIFTEDINT(a,n,v)        \
  42 {                                   \
  43   const u32 s = ((n) & 3) * 8;     \
  44   const u64 x = (u64) (v) << s; \
  45   (a)[((n)/4)+0] |= x;              \
  46   (a)[((n)/4)+1]  = x >> 32;        \
  47 }
  48
  49 __constant u32 theMagicArray[64] =
  50 {
  51   0x1451ac91,0x4354679f,0xe03be724,0xc27b7428,0xeb133386,0x5ccb4f5a,0x37730a08,0x2f1c5d0e,
  52   0xe5e68f33,0xddae9bf8,0x8d4bf216,0xdcd4e12c,0x9ddfcbb0,0x176d70d4,0x3f424df9,0x94111b9b,
  53   0x9bc15b9f,0x039d0506,0x8a135e9d,0xe86a9a1e,0x17147cd9,0xf62ac758,0x0a6399a1,0xc370fdd7,
  54   0x13745ef6,0x040bc903,0x26f79826,0x2593928a,0x230da2b0,0x6d7963ed,0x3cfa3213,0xa39a0235,
  55   0x0a8eddb3,0xc351bf24,0x9f55cd7c,0x4c94af37,0x82520829,0x374e3bb2,0x9107179f,0xcdfd3b11,
  56   0, 0, 0, 0, 0, 0, 0, 0,
  57   0, 0, 0, 0, 0, 0, 0, 0,
  58   0, 0, 0, 0, 0, 0, 0, 0
  59 };
  60
  61 static void swap_buffer (u32x final[16])
  62 {
  63   final[ 0] = swap_workaround (final[ 0]);
  64   final[ 1] = swap_workaround (final[ 1]);
  65   final[ 2] = swap_workaround (final[ 2]);
  66   final[ 3] = swap_workaround (final[ 3]);
  67   final[ 4] = swap_workaround (final[ 4]);
  68   final[ 5] = swap_workaround (final[ 5]);
  69   final[ 6] = swap_workaround (final[ 6]);
  70   final[ 7] = swap_workaround (final[ 7]);
  71   final[ 8] = swap_workaround (final[ 8]);
  72   final[ 9] = swap_workaround (final[ 9]);
  73   final[10] = swap_workaround (final[10]);
  74   final[11] = swap_workaround (final[11]);
  75   final[12] = swap_workaround (final[12]);
  76   final[13] = swap_workaround (final[13]);
  77   final[14] = swap_workaround (final[14]);
  78   final[15] = swap_workaround (final[15]);
  79 }
  80
  81 static void sha1_transform (const u32x w0[4], const u32x w1[4], const u32x w2[4], const u32x w3[4], u32x digest[5])
  82 {
  83   u32x A = digest[0];
  84   u32x B = digest[1];
  85   u32x C = digest[2];
  86   u32x D = digest[3];
  87   u32x E = digest[4];
  88
  89   u32x w0_t = w0[0];
  90   u32x w1_t = w0[1];
  91   u32x w2_t = w0[2];
  92   u32x w3_t = w0[3];
  93   u32x w4_t = w1[0];
  94   u32x w5_t = w1[1];
  95   u32x w6_t = w1[2];
  96   u32x w7_t = w1[3];
  97   u32x w8_t = w2[0];
  98   u32x w9_t = w2[1];
  99   u32x wa_t = w2[2];
 100   u32x wb_t = w2[3];
 101   u32x wc_t = w3[0];
 102   u32x wd_t = w3[1];
 103   u32x we_t = w3[2];
 104   u32x wf_t = w3[3];
 105
 106   #undef K
 107   #define K SHA1C00
 108
 109   SHA1_STEP (SHA1_F0o, A, B, C, D, E, w0_t);
 110   SHA1_STEP (SHA1_F0o, E, A, B, C, D, w1_t);
 111   SHA1_STEP (SHA1_F0o, D, E, A, B, C, w2_t);
 112   SHA1_STEP (SHA1_F0o, C, D, E, A, B, w3_t);
 113   SHA1_STEP (SHA1_F0o, B, C, D, E, A, w4_t);
 114   SHA1_STEP (SHA1_F0o, A, B, C, D, E, w5_t);
 115   SHA1_STEP (SHA1_F0o, E, A, B, C, D, w6_t);
 116   SHA1_STEP (SHA1_F0o, D, E, A, B, C, w7_t);
 117   SHA1_STEP (SHA1_F0o, C, D, E, A, B, w8_t);
 118   SHA1_STEP (SHA1_F0o, B, C, D, E, A, w9_t);
 119   SHA1_STEP (SHA1_F0o, A, B, C, D, E, wa_t);
 120   SHA1_STEP (SHA1_F0o, E, A, B, C, D, wb_t);
 121   SHA1_STEP (SHA1_F0o, D, E, A, B, C, wc_t);
 122   SHA1_STEP (SHA1_F0o, C, D, E, A, B, wd_t);
 123   SHA1_STEP (SHA1_F0o, B, C, D, E, A, we_t);
 124   SHA1_STEP (SHA1_F0o, A, B, C, D, E, wf_t);
 125   w0_t = rotl32 ((wd_t ^ w8_t ^ w2_t ^ w0_t), 1u); SHA1_STEP (SHA1_F0o, E, A, B, C, D, w0_t);
 126   w1_t = rotl32 ((we_t ^ w9_t ^ w3_t ^ w1_t), 1u); SHA1_STEP (SHA1_F0o, D, E, A, B, C, w1_t);
 127   w2_t = rotl32 ((wf_t ^ wa_t ^ w4_t ^ w2_t), 1u); SHA1_STEP (SHA1_F0o, C, D, E, A, B, w2_t);
 128   w3_t = rotl32 ((w0_t ^ wb_t ^ w5_t ^ w3_t), 1u); SHA1_STEP (SHA1_F0o, B, C, D, E, A, w3_t);
 129
 130   #undef K
 131   #define K SHA1C01
 132
 133   w4_t = rotl32 ((w1_t ^ wc_t ^ w6_t ^ w4_t), 1u); SHA1_STEP (SHA1_F1, A, B, C, D, E, w4_t);
 134   w5_t = rotl32 ((w2_t ^ wd_t ^ w7_t ^ w5_t), 1u); SHA1_STEP (SHA1_F1, E, A, B, C, D, w5_t);
 135   w6_t = rotl32 ((w3_t ^ we_t ^ w8_t ^ w6_t), 1u); SHA1_STEP (SHA1_F1, D, E, A, B, C, w6_t);
 136   w7_t = rotl32 ((w4_t ^ wf_t ^ w9_t ^ w7_t), 1u); SHA1_STEP (SHA1_F1, C, D, E, A, B, w7_t);
 137   w8_t = rotl32 ((w5_t ^ w0_t ^ wa_t ^ w8_t), 1u); SHA1_STEP (SHA1_F1, B, C, D, E, A, w8_t);
 138   w9_t = rotl32 ((w6_t ^ w1_t ^ wb_t ^ w9_t), 1u); SHA1_STEP (SHA1_F1, A, B, C, D, E, w9_t);
 139   wa_t = rotl32 ((w7_t ^ w2_t ^ wc_t ^ wa_t), 1u); SHA1_STEP (SHA1_F1, E, A, B, C, D, wa_t);
 140   wb_t = rotl32 ((w8_t ^ w3_t ^ wd_t ^ wb_t), 1u); SHA1_STEP (SHA1_F1, D, E, A, B, C, wb_t);
 141   wc_t = rotl32 ((w9_t ^ w4_t ^ we_t ^ wc_t), 1u); SHA1_STEP (SHA1_F1, C, D, E, A, B, wc_t);
 142   wd_t = rotl32 ((wa_t ^ w5_t ^ wf_t ^ wd_t), 1u); SHA1_STEP (SHA1_F1, B, C, D, E, A, wd_t);
 143   we_t = rotl32 ((wb_t ^ w6_t ^ w0_t ^ we_t), 1u); SHA1_STEP (SHA1_F1, A, B, C, D, E, we_t);
 144   wf_t = rotl32 ((wc_t ^ w7_t ^ w1_t ^ wf_t), 1u); SHA1_STEP (SHA1_F1, E, A, B, C, D, wf_t);
 145   w0_t = rotl32 ((wd_t ^ w8_t ^ w2_t ^ w0_t), 1u); SHA1_STEP (SHA1_F1, D, E, A, B, C, w0_t);
 146   w1_t = rotl32 ((we_t ^ w9_t ^ w3_t ^ w1_t), 1u); SHA1_STEP (SHA1_F1, C, D, E, A, B, w1_t);
 147   w2_t = rotl32 ((wf_t ^ wa_t ^ w4_t ^ w2_t), 1u); SHA1_STEP (SHA1_F1, B, C, D, E, A, w2_t);
 148   w3_t = rotl32 ((w0_t ^ wb_t ^ w5_t ^ w3_t), 1u); SHA1_STEP (SHA1_F1, A, B, C, D, E, w3_t);
 149   w4_t = rotl32 ((w1_t ^ wc_t ^ w6_t ^ w4_t), 1u); SHA1_STEP (SHA1_F1, E, A, B, C, D, w4_t);
 150   w5_t = rotl32 ((w2_t ^ wd_t ^ w7_t ^ w5_t), 1u); SHA1_STEP (SHA1_F1, D, E, A, B, C, w5_t);
 151   w6_t = rotl32 ((w3_t ^ we_t ^ w8_t ^ w6_t), 1u); SHA1_STEP (SHA1_F1, C, D, E, A, B, w6_t);
 152   w7_t = rotl32 ((w4_t ^ wf_t ^ w9_t ^ w7_t), 1u); SHA1_STEP (SHA1_F1, B, C, D, E, A, w7_t);
 153
 154   #undef K
 155   #define K SHA1C02
 156
 157   w8_t = rotl32 ((w5_t ^ w0_t ^ wa_t ^ w8_t), 1u); SHA1_STEP (SHA1_F2o, A, B, C, D, E, w8_t);
 158   w9_t = rotl32 ((w6_t ^ w1_t ^ wb_t ^ w9_t), 1u); SHA1_STEP (SHA1_F2o, E, A, B, C, D, w9_t);
 159   wa_t = rotl32 ((w7_t ^ w2_t ^ wc_t ^ wa_t), 1u); SHA1_STEP (SHA1_F2o, D, E, A, B, C, wa_t);
 160   wb_t = rotl32 ((w8_t ^ w3_t ^ wd_t ^ wb_t), 1u); SHA1_STEP (SHA1_F2o, C, D, E, A, B, wb_t);
 161   wc_t = rotl32 ((w9_t ^ w4_t ^ we_t ^ wc_t), 1u); SHA1_STEP (SHA1_F2o, B, C, D, E, A, wc_t);
 162   wd_t = rotl32 ((wa_t ^ w5_t ^ wf_t ^ wd_t), 1u); SHA1_STEP (SHA1_F2o, A, B, C, D, E, wd_t);
 163   we_t = rotl32 ((wb_t ^ w6_t ^ w0_t ^ we_t), 1u); SHA1_STEP (SHA1_F2o, E, A, B, C, D, we_t);
 164   wf_t = rotl32 ((wc_t ^ w7_t ^ w1_t ^ wf_t), 1u); SHA1_STEP (SHA1_F2o, D, E, A, B, C, wf_t);
 165   w0_t = rotl32 ((wd_t ^ w8_t ^ w2_t ^ w0_t), 1u); SHA1_STEP (SHA1_F2o, C, D, E, A, B, w0_t);
 166   w1_t = rotl32 ((we_t ^ w9_t ^ w3_t ^ w1_t), 1u); SHA1_STEP (SHA1_F2o, B, C, D, E, A, w1_t);
 167   w2_t = rotl32 ((wf_t ^ wa_t ^ w4_t ^ w2_t), 1u); SHA1_STEP (SHA1_F2o, A, B, C, D, E, w2_t);
 168   w3_t = rotl32 ((w0_t ^ wb_t ^ w5_t ^ w3_t), 1u); SHA1_STEP (SHA1_F2o, E, A, B, C, D, w3_t);
 169   w4_t = rotl32 ((w1_t ^ wc_t ^ w6_t ^ w4_t), 1u); SHA1_STEP (SHA1_F2o, D, E, A, B, C, w4_t);
 170   w5_t = rotl32 ((w2_t ^ wd_t ^ w7_t ^ w5_t), 1u); SHA1_STEP (SHA1_F2o, C, D, E, A, B, w5_t);
 171   w6_t = rotl32 ((w3_t ^ we_t ^ w8_t ^ w6_t), 1u); SHA1_STEP (SHA1_F2o, B, C, D, E, A, w6_t);
 172   w7_t = rotl32 ((w4_t ^ wf_t ^ w9_t ^ w7_t), 1u); SHA1_STEP (SHA1_F2o, A, B, C, D, E, w7_t);
 173   w8_t = rotl32 ((w5_t ^ w0_t ^ wa_t ^ w8_t), 1u); SHA1_STEP (SHA1_F2o, E, A, B, C, D, w8_t);
 174   w9_t = rotl32 ((w6_t ^ w1_t ^ wb_t ^ w9_t), 1u); SHA1_STEP (SHA1_F2o, D, E, A, B, C, w9_t);
 175   wa_t = rotl32 ((w7_t ^ w2_t ^ wc_t ^ wa_t), 1u); SHA1_STEP (SHA1_F2o, C, D, E, A, B, wa_t);
 176   wb_t = rotl32 ((w8_t ^ w3_t ^ wd_t ^ wb_t), 1u); SHA1_STEP (SHA1_F2o, B, C, D, E, A, wb_t);
 177
 178   #undef K
 179   #define K SHA1C03
 180
 181   wc_t = rotl32 ((w9_t ^ w4_t ^ we_t ^ wc_t), 1u); SHA1_STEP (SHA1_F1, A, B, C, D, E, wc_t);
 182   wd_t = rotl32 ((wa_t ^ w5_t ^ wf_t ^ wd_t), 1u); SHA1_STEP (SHA1_F1, E, A, B, C, D, wd_t);
 183   we_t = rotl32 ((wb_t ^ w6_t ^ w0_t ^ we_t), 1u); SHA1_STEP (SHA1_F1, D, E, A, B, C, we_t);
 184   wf_t = rotl32 ((wc_t ^ w7_t ^ w1_t ^ wf_t), 1u); SHA1_STEP (SHA1_F1, C, D, E, A, B, wf_t);
 185   w0_t = rotl32 ((wd_t ^ w8_t ^ w2_t ^ w0_t), 1u); SHA1_STEP (SHA1_F1, B, C, D, E, A, w0_t);
 186   w1_t = rotl32 ((we_t ^ w9_t ^ w3_t ^ w1_t), 1u); SHA1_STEP (SHA1_F1, A, B, C, D, E, w1_t);
 187   w2_t = rotl32 ((wf_t ^ wa_t ^ w4_t ^ w2_t), 1u); SHA1_STEP (SHA1_F1, E, A, B, C, D, w2_t);
 188   w3_t = rotl32 ((w0_t ^ wb_t ^ w5_t ^ w3_t), 1u); SHA1_STEP (SHA1_F1, D, E, A, B, C, w3_t);
 189   w4_t = rotl32 ((w1_t ^ wc_t ^ w6_t ^ w4_t), 1u); SHA1_STEP (SHA1_F1, C, D, E, A, B, w4_t);
 190   w5_t = rotl32 ((w2_t ^ wd_t ^ w7_t ^ w5_t), 1u); SHA1_STEP (SHA1_F1, B, C, D, E, A, w5_t);
 191   w6_t = rotl32 ((w3_t ^ we_t ^ w8_t ^ w6_t), 1u); SHA1_STEP (SHA1_F1, A, B, C, D, E, w6_t);
 192   w7_t = rotl32 ((w4_t ^ wf_t ^ w9_t ^ w7_t), 1u); SHA1_STEP (SHA1_F1, E, A, B, C, D, w7_t);
 193   w8_t = rotl32 ((w5_t ^ w0_t ^ wa_t ^ w8_t), 1u); SHA1_STEP (SHA1_F1, D, E, A, B, C, w8_t);
 194   w9_t = rotl32 ((w6_t ^ w1_t ^ wb_t ^ w9_t), 1u); SHA1_STEP (SHA1_F1, C, D, E, A, B, w9_t);
 195   wa_t = rotl32 ((w7_t ^ w2_t ^ wc_t ^ wa_t), 1u); SHA1_STEP (SHA1_F1, B, C, D, E, A, wa_t);
 196   wb_t = rotl32 ((w8_t ^ w3_t ^ wd_t ^ wb_t), 1u); SHA1_STEP (SHA1_F1, A, B, C, D, E, wb_t);
 197   wc_t = rotl32 ((w9_t ^ w4_t ^ we_t ^ wc_t), 1u); SHA1_STEP (SHA1_F1, E, A, B, C, D, wc_t);
 198   wd_t = rotl32 ((wa_t ^ w5_t ^ wf_t ^ wd_t), 1u); SHA1_STEP (SHA1_F1, D, E, A, B, C, wd_t);
 199   we_t = rotl32 ((wb_t ^ w6_t ^ w0_t ^ we_t), 1u); SHA1_STEP (SHA1_F1, C, D, E, A, B, we_t);
 200   wf_t = rotl32 ((wc_t ^ w7_t ^ w1_t ^ wf_t), 1u); SHA1_STEP (SHA1_F1, B, C, D, E, A, wf_t);
 201
 202   digest[0] += A;
 203   digest[1] += B;
 204   digest[2] += C;
 205   digest[3] += D;
 206   digest[4] += E;
 207 }
 208
 209 __kernel void __attribute__((reqd_work_group_size (64, 1, 1))) m07800_m04 (__global pw_t *pws, __global gpu_rule_t *rules_buf, __global comb_t *combs_buf, __global bf_t *bfs_buf, __global void *tmps, __global void *hooks, __global u32 *bitmaps_buf_s1_a, __global u32 *bitmaps_buf_s1_b, __global u32 *bitmaps_buf_s1_c, __global u32 *bitmaps_buf_s1_d, __global u32 *bitmaps_buf_s2_a, __global u32 *bitmaps_buf_s2_b, __global u32 *bitmaps_buf_s2_c, __global u32 *bitmaps_buf_s2_d, __global plain_t *plains_buf, __global digest_t *digests_buf, __global u32 *hashes_shown, __global salt_t *salt_bufs, __global void *esalt_bufs, __global u32 *d_return_buf, __global u32 *d_scryptV_buf, const u32 bitmap_mask, const u32 bitmap_shift1, const u32 bitmap_shift2, const u32 salt_pos, const u32 loop_pos, const u32 loop_cnt, const u32 rules_cnt, const u32 digests_cnt, const u32 digests_offset, const u32 combs_mode, const u32 gid_max)
 210 {
 211   /**
 212    * modifier
 213    */
 214
 215   const u32 lid = get_local_id (0);
 216
 217   /**
 218    * base
 219    */
 220
 221   const u32 gid = get_global_id (0);
 222
 223   if (gid >= gid_max) return;
 224
 225   u32x pw_buf0[4];
 226
 227   pw_buf0[0] = pws[gid].i[ 0];
 228   pw_buf0[1] = pws[gid].i[ 1];
 229   pw_buf0[2] = pws[gid].i[ 2];
 230   pw_buf0[3] = pws[gid].i[ 3];
 231
 232   u32x pw_buf1[4];
 233
 234   pw_buf1[0] = pws[gid].i[ 4];
 235   pw_buf1[1] = pws[gid].i[ 5];
 236   pw_buf1[2] = pws[gid].i[ 6];
 237   pw_buf1[3] = pws[gid].i[ 7];
 238
 239   const u32 pw_len = pws[gid].pw_len;
 240
 241   /**
 242    * salt
 243    */
 244
 245   u32 salt_buf[8];
 246
 247   salt_buf[0] = salt_bufs[salt_pos].salt_buf[0];
 248   salt_buf[1] = salt_bufs[salt_pos].salt_buf[1];
 249   salt_buf[2] = salt_bufs[salt_pos].salt_buf[2];
 250   salt_buf[3] = salt_bufs[salt_pos].salt_buf[3];
 251   salt_buf[4] = salt_bufs[salt_pos].salt_buf[4];
 252   salt_buf[5] = salt_bufs[salt_pos].salt_buf[5];
 253   salt_buf[6] = salt_bufs[salt_pos].salt_buf[6];
 254   salt_buf[7] = salt_bufs[salt_pos].salt_buf[7];
 255
 256   const u32 salt_len = salt_bufs[salt_pos].salt_len;
 257
 258   /**
 259    * loop
 260    */
 261
 262   for (u32 il_pos = 0; il_pos < rules_cnt; il_pos++)
 263   {
 264     u32x w0[4];
 265
 266     w0[0] = pw_buf0[0];
 267     w0[1] = pw_buf0[1];
 268     w0[2] = pw_buf0[2];
 269     w0[3] = pw_buf0[3];
 270
 271     u32x w1[4];
 272
 273     w1[0] = pw_buf1[0];
 274     w1[1] = pw_buf1[1];
 275     w1[2] = pw_buf1[2];
 276     w1[3] = pw_buf1[3];
 277
 278     u32x w2[4];
 279
 280     w2[0] = 0;
 281     w2[1] = 0;
 282     w2[2] = 0;
 283     w2[3] = 0;
 284
 285     u32x w3[4];
 286
 287     w3[0] = 0;
 288     w3[1] = 0;
 289     w3[2] = 0;
 290     w3[3] = 0;
 291
 292     const u32 out_len = apply_rules (rules_buf[il_pos].cmds, w0, w1, pw_len);
 293
 294     /**
 295      * append salt
 296      */
 297
 298     u32 s0[4];
 299
 300     s0[0] = salt_buf[0];
 301     s0[1] = salt_buf[1];
 302     s0[2] = salt_buf[2];
 303     s0[3] = salt_buf[3];
 304
 305     u32 s1[4];
 306
 307     s1[0] = salt_buf[4];
 308     s1[1] = salt_buf[5];
 309     s1[2] = salt_buf[6];
 310     s1[3] = salt_buf[7];
 311
 312     u32 s2[4];
 313
 314     s2[0] = 0;
 315     s2[1] = 0;
 316     s2[2] = 0;
 317     s2[3] = 0;
 318
 319     u32 s3[4];
 320
 321     s3[0] = 0;
 322     s3[1] = 0;
 323     s3[2] = 0;
 324     s3[3] = 0;
 325
 326     switch_buffer_by_offset (s0, s1, s2, s3, out_len);
 327
 328     const u32 pw_salt_len = out_len + salt_len;
 329
 330     /**
 331      * sha1
 332      */
 333
 334     u32x final[256];
 335
 336     final[ 0] = swap_workaround (w0[0] | s0[0]);
 337     final[ 1] = swap_workaround (w0[1] | s0[1]);
 338     final[ 2] = swap_workaround (w0[2] | s0[2]);
 339     final[ 3] = swap_workaround (w0[3] | s0[3]);
 340     final[ 4] = swap_workaround (w1[0] | s1[0]);
 341     final[ 5] = swap_workaround (w1[1] | s1[1]);
 342     final[ 6] = swap_workaround (w1[2] | s1[2]);
 343     final[ 7] = swap_workaround (w1[3] | s1[3]);
 344     final[ 8] = swap_workaround (w2[0] | s2[0]);
 345     final[ 9] = swap_workaround (w2[1] | s2[1]);
 346     final[10] = swap_workaround (w2[2] | s2[2]);
 347     final[11] = swap_workaround (w2[3] | s2[3]);
 348     final[12] = swap_workaround (w3[0] | s3[0]);
 349     final[13] = swap_workaround (w3[1] | s3[1]);
 350     final[14] = 0;
 351     final[15] = pw_salt_len * 8;
 352
 353     u32x digest[5];
 354
 355     digest[0] = SHA1M_A;
 356     digest[1] = SHA1M_B;
 357     digest[2] = SHA1M_C;
 358     digest[3] = SHA1M_D;
 359     digest[4] = SHA1M_E;
 360
 361     sha1_transform (&final[0], &final[4], &final[8], &final[12], digest);
 362
 363     // prepare magic array range
 364
 365     u32x lengthMagicArray = 0x20;
 366     u32x offsetMagicArray = 0;
 367
 368     lengthMagicArray += ((digest[0] >> 24) & 0xff) % 6;
 369     lengthMagicArray += ((digest[0] >> 16) & 0xff) % 6;
 370     lengthMagicArray += ((digest[0] >>  8) & 0xff) % 6;
 371     lengthMagicArray += ((digest[0] >>  0) & 0xff) % 6;
 372     lengthMagicArray += ((digest[1] >> 24) & 0xff) % 6;
 373     lengthMagicArray += ((digest[1] >> 16) & 0xff) % 6;
 374     lengthMagicArray += ((digest[1] >>  8) & 0xff) % 6;
 375     lengthMagicArray += ((digest[1] >>  0) & 0xff) % 6;
 376     lengthMagicArray += ((digest[2] >> 24) & 0xff) % 6;
 377     lengthMagicArray += ((digest[2] >> 16) & 0xff) % 6;
 378     offsetMagicArray += ((digest[2] >>  8) & 0xff) % 8;
 379     offsetMagicArray += ((digest[2] >>  0) & 0xff) % 8;
 380     offsetMagicArray += ((digest[3] >> 24) & 0xff) % 8;
 381     offsetMagicArray += ((digest[3] >> 16) & 0xff) % 8;
 382     offsetMagicArray += ((digest[3] >>  8) & 0xff) % 8;
 383     offsetMagicArray += ((digest[3] >>  0) & 0xff) % 8;
 384     offsetMagicArray += ((digest[4] >> 24) & 0xff) % 8;
 385     offsetMagicArray += ((digest[4] >> 16) & 0xff) % 8;
 386     offsetMagicArray += ((digest[4] >>  8) & 0xff) % 8;
 387     offsetMagicArray += ((digest[4] >>  0) & 0xff) % 8;
 388
 389     // final
 390
 391     digest[0] = SHA1M_A;
 392     digest[1] = SHA1M_B;
 393     digest[2] = SHA1M_C;
 394     digest[3] = SHA1M_D;
 395     digest[4] = SHA1M_E;
 396
 397     #pragma unroll 64
 398     for (int i = 0; i < 64; i++) final[i] = 0;
 399
 400     final[0] = w0[0];
 401     final[1] = w0[1];
 402     final[2] = w0[2];
 403     final[3] = w0[3];
 404     final[4] = w1[0];
 405     final[5] = w1[1];
 406     final[6] = w1[2];
 407     final[7] = w1[3];
 408
 409     u32 final_len = out_len;
 410
 411     int i;
 412
 413     // append MagicArray
 414
 415     for (i = 0; i < lengthMagicArray - 4; i += 4)
 416     {
 417       const u32 tmp = GETSHIFTEDINT (theMagicArray, offsetMagicArray + i);
 418
 419       SETSHIFTEDINT (final, final_len + i, tmp);
 420     }
 421
 422     const u32 mask = 0xffffffff >> (((i - lengthMagicArray) & 3) * 8);
 423
 424     const u32 tmp = GETSHIFTEDINT (theMagicArray, offsetMagicArray + i) & mask;
 425
 426     SETSHIFTEDINT (final, final_len + i, tmp);
 427
 428     final_len += lengthMagicArray;
 429
 430     // append Salt
 431
 432     for (i = 0; i < salt_len + 1; i += 4) // +1 for the 0x80
 433     {
 434       const u32 tmp = salt_buf[i / 4]; // attention, int[] not char[]
 435
 436       SETSHIFTEDINT (final, final_len + i, tmp);
 437     }
 438
 439     final_len += salt_len;
 440
 441     // calculate
 442
 443     int left;
 444     int off;
 445
 446     for (left = final_len, off = 0; left >= 56; left -= 64, off += 16)
 447     {
 448       swap_buffer (&final[off]);
 449
 450       sha1_transform (&final[off + 0], &final[off + 4], &final[off + 8], &final[off + 12], digest);
 451     }
 452
 453     swap_buffer (&final[off]);
 454
 455     final[off + 14] = 0;
 456     final[off + 15] = final_len * 8;
 457
 458     sha1_transform (&final[off + 0], &final[off + 4], &final[off + 8], &final[off + 12], digest);
 459
 460     const u32x r0 = digest[3];
 461     const u32x r1 = digest[4];
 462     const u32x r2 = digest[2];
 463     const u32x r3 = digest[1];
 464
 465     #include VECT_COMPARE_M
 466   }
 467 }
 468
 469 __kernel void __attribute__((reqd_work_group_size (64, 1, 1))) m07800_m08 (__global pw_t *pws, __global gpu_rule_t *rules_buf, __global comb_t *combs_buf, __global bf_t *bfs_buf, __global void *tmps, __global void *hooks, __global u32 *bitmaps_buf_s1_a, __global u32 *bitmaps_buf_s1_b, __global u32 *bitmaps_buf_s1_c, __global u32 *bitmaps_buf_s1_d, __global u32 *bitmaps_buf_s2_a, __global u32 *bitmaps_buf_s2_b, __global u32 *bitmaps_buf_s2_c, __global u32 *bitmaps_buf_s2_d, __global plain_t *plains_buf, __global digest_t *digests_buf, __global u32 *hashes_shown, __global salt_t *salt_bufs, __global void *esalt_bufs, __global u32 *d_return_buf, __global u32 *d_scryptV_buf, const u32 bitmap_mask, const u32 bitmap_shift1, const u32 bitmap_shift2, const u32 salt_pos, const u32 loop_pos, const u32 loop_cnt, const u32 rules_cnt, const u32 digests_cnt, const u32 digests_offset, const u32 combs_mode, const u32 gid_max)
 470 {
 471 }
 472
 473 __kernel void __attribute__((reqd_work_group_size (64, 1, 1))) m07800_m16 (__global pw_t *pws, __global gpu_rule_t *rules_buf, __global comb_t *combs_buf, __global bf_t *bfs_buf, __global void *tmps, __global void *hooks, __global u32 *bitmaps_buf_s1_a, __global u32 *bitmaps_buf_s1_b, __global u32 *bitmaps_buf_s1_c, __global u32 *bitmaps_buf_s1_d, __global u32 *bitmaps_buf_s2_a, __global u32 *bitmaps_buf_s2_b, __global u32 *bitmaps_buf_s2_c, __global u32 *bitmaps_buf_s2_d, __global plain_t *plains_buf, __global digest_t *digests_buf, __global u32 *hashes_shown, __global salt_t *salt_bufs, __global void *esalt_bufs, __global u32 *d_return_buf, __global u32 *d_scryptV_buf, const u32 bitmap_mask, const u32 bitmap_shift1, const u32 bitmap_shift2, const u32 salt_pos, const u32 loop_pos, const u32 loop_cnt, const u32 rules_cnt, const u32 digests_cnt, const u32 digests_offset, const u32 combs_mode, const u32 gid_max)
 474 {
 475 }
 476
 477 __kernel void __attribute__((reqd_work_group_size (64, 1, 1))) m07800_s04 (__global pw_t *pws, __global gpu_rule_t *rules_buf, __global comb_t *combs_buf, __global bf_t *bfs_buf, __global void *tmps, __global void *hooks, __global u32 *bitmaps_buf_s1_a, __global u32 *bitmaps_buf_s1_b, __global u32 *bitmaps_buf_s1_c, __global u32 *bitmaps_buf_s1_d, __global u32 *bitmaps_buf_s2_a, __global u32 *bitmaps_buf_s2_b, __global u32 *bitmaps_buf_s2_c, __global u32 *bitmaps_buf_s2_d, __global plain_t *plains_buf, __global digest_t *digests_buf, __global u32 *hashes_shown, __global salt_t *salt_bufs, __global void *esalt_bufs, __global u32 *d_return_buf, __global u32 *d_scryptV_buf, const u32 bitmap_mask, const u32 bitmap_shift1, const u32 bitmap_shift2, const u32 salt_pos, const u32 loop_pos, const u32 loop_cnt, const u32 rules_cnt, const u32 digests_cnt, const u32 digests_offset, const u32 combs_mode, const u32 gid_max)
 478 {
 479   /**
 480    * modifier
 481    */
 482
 483   const u32 lid = get_local_id (0);
 484
 485   /**
 486    * base
 487    */
 488
 489   const u32 gid = get_global_id (0);
 490
 491   if (gid >= gid_max) return;
 492
 493   u32x pw_buf0[4];
 494
 495   pw_buf0[0] = pws[gid].i[ 0];
 496   pw_buf0[1] = pws[gid].i[ 1];
 497   pw_buf0[2] = pws[gid].i[ 2];
 498   pw_buf0[3] = pws[gid].i[ 3];
 499
 500   u32x pw_buf1[4];
 501
 502   pw_buf1[0] = pws[gid].i[ 4];
 503   pw_buf1[1] = pws[gid].i[ 5];
 504   pw_buf1[2] = pws[gid].i[ 6];
 505   pw_buf1[3] = pws[gid].i[ 7];
 506
 507   const u32 pw_len = pws[gid].pw_len;
 508
 509   /**
 510    * salt
 511    */
 512
 513   u32 salt_buf[8];
 514
 515   salt_buf[0] = salt_bufs[salt_pos].salt_buf[0];
 516   salt_buf[1] = salt_bufs[salt_pos].salt_buf[1];
 517   salt_buf[2] = salt_bufs[salt_pos].salt_buf[2];
 518   salt_buf[3] = salt_bufs[salt_pos].salt_buf[3];
 519   salt_buf[4] = salt_bufs[salt_pos].salt_buf[4];
 520   salt_buf[5] = salt_bufs[salt_pos].salt_buf[5];
 521   salt_buf[6] = salt_bufs[salt_pos].salt_buf[6];
 522   salt_buf[7] = salt_bufs[salt_pos].salt_buf[7];
 523
 524   const u32 salt_len = salt_bufs[salt_pos].salt_len;
 525
 526   /**
 527    * digest
 528    */
 529
 530   const u32 search[4] =
 531   {
 532     digests_buf[digests_offset].digest_buf[DGST_R0],
 533     digests_buf[digests_offset].digest_buf[DGST_R1],
 534     digests_buf[digests_offset].digest_buf[DGST_R2],
 535     digests_buf[digests_offset].digest_buf[DGST_R3]
 536   };
 537
 538   /**
 539    * loop
 540    */
 541
 542   for (u32 il_pos = 0; il_pos < rules_cnt; il_pos++)
 543   {
 544     u32x w0[4];
 545
 546     w0[0] = pw_buf0[0];
 547     w0[1] = pw_buf0[1];
 548     w0[2] = pw_buf0[2];
 549     w0[3] = pw_buf0[3];
 550
 551     u32x w1[4];
 552
 553     w1[0] = pw_buf1[0];
 554     w1[1] = pw_buf1[1];
 555     w1[2] = pw_buf1[2];
 556     w1[3] = pw_buf1[3];
 557
 558     u32x w2[4];
 559
 560     w2[0] = 0;
 561     w2[1] = 0;
 562     w2[2] = 0;
 563     w2[3] = 0;
 564
 565     u32x w3[4];
 566
 567     w3[0] = 0;
 568     w3[1] = 0;
 569     w3[2] = 0;
 570     w3[3] = 0;
 571
 572     const u32 out_len = apply_rules (rules_buf[il_pos].cmds, w0, w1, pw_len);
 573
 574     /**
 575      * append salt
 576      */
 577
 578     u32 s0[4];
 579
 580     s0[0] = salt_buf[0];
 581     s0[1] = salt_buf[1];
 582     s0[2] = salt_buf[2];
 583     s0[3] = salt_buf[3];
 584
 585     u32 s1[4];
 586
 587     s1[0] = salt_buf[4];
 588     s1[1] = salt_buf[5];
 589     s1[2] = salt_buf[6];
 590     s1[3] = salt_buf[7];
 591
 592     u32 s2[4];
 593
 594     s2[0] = 0;
 595     s2[1] = 0;
 596     s2[2] = 0;
 597     s2[3] = 0;
 598
 599     u32 s3[4];
 600
 601     s3[0] = 0;
 602     s3[1] = 0;
 603     s3[2] = 0;
 604     s3[3] = 0;
 605
 606     switch_buffer_by_offset (s0, s1, s2, s3, out_len);
 607
 608     const u32 pw_salt_len = out_len + salt_len;
 609
 610     /**
 611      * sha1
 612      */
 613
 614     u32x final[256];
 615
 616     final[ 0] = swap_workaround (w0[0] | s0[0]);
 617     final[ 1] = swap_workaround (w0[1] | s0[1]);
 618     final[ 2] = swap_workaround (w0[2] | s0[2]);
 619     final[ 3] = swap_workaround (w0[3] | s0[3]);
 620     final[ 4] = swap_workaround (w1[0] | s1[0]);
 621     final[ 5] = swap_workaround (w1[1] | s1[1]);
 622     final[ 6] = swap_workaround (w1[2] | s1[2]);
 623     final[ 7] = swap_workaround (w1[3] | s1[3]);
 624     final[ 8] = swap_workaround (w2[0] | s2[0]);
 625     final[ 9] = swap_workaround (w2[1] | s2[1]);
 626     final[10] = swap_workaround (w2[2] | s2[2]);
 627     final[11] = swap_workaround (w2[3] | s2[3]);
 628     final[12] = swap_workaround (w3[0] | s3[0]);
 629     final[13] = swap_workaround (w3[1] | s3[1]);
 630     final[14] = 0;
 631     final[15] = pw_salt_len * 8;
 632
 633     u32x digest[5];
 634
 635     digest[0] = SHA1M_A;
 636     digest[1] = SHA1M_B;
 637     digest[2] = SHA1M_C;
 638     digest[3] = SHA1M_D;
 639     digest[4] = SHA1M_E;
 640
 641     sha1_transform (&final[0], &final[4], &final[8], &final[12], digest);
 642
 643     // prepare magic array range
 644
 645     u32x lengthMagicArray = 0x20;
 646     u32x offsetMagicArray = 0;
 647
 648     lengthMagicArray += ((digest[0] >> 24) & 0xff) % 6;
 649     lengthMagicArray += ((digest[0] >> 16) & 0xff) % 6;
 650     lengthMagicArray += ((digest[0] >>  8) & 0xff) % 6;
 651     lengthMagicArray += ((digest[0] >>  0) & 0xff) % 6;
 652     lengthMagicArray += ((digest[1] >> 24) & 0xff) % 6;
 653     lengthMagicArray += ((digest[1] >> 16) & 0xff) % 6;
 654     lengthMagicArray += ((digest[1] >>  8) & 0xff) % 6;
 655     lengthMagicArray += ((digest[1] >>  0) & 0xff) % 6;
 656     lengthMagicArray += ((digest[2] >> 24) & 0xff) % 6;
 657     lengthMagicArray += ((digest[2] >> 16) & 0xff) % 6;
 658     offsetMagicArray += ((digest[2] >>  8) & 0xff) % 8;
 659     offsetMagicArray += ((digest[2] >>  0) & 0xff) % 8;
 660     offsetMagicArray += ((digest[3] >> 24) & 0xff) % 8;
 661     offsetMagicArray += ((digest[3] >> 16) & 0xff) % 8;
 662     offsetMagicArray += ((digest[3] >>  8) & 0xff) % 8;
 663     offsetMagicArray += ((digest[3] >>  0) & 0xff) % 8;
 664     offsetMagicArray += ((digest[4] >> 24) & 0xff) % 8;
 665     offsetMagicArray += ((digest[4] >> 16) & 0xff) % 8;
 666     offsetMagicArray += ((digest[4] >>  8) & 0xff) % 8;
 667     offsetMagicArray += ((digest[4] >>  0) & 0xff) % 8;
 668
 669     // final
 670
 671     digest[0] = SHA1M_A;
 672     digest[1] = SHA1M_B;
 673     digest[2] = SHA1M_C;
 674     digest[3] = SHA1M_D;
 675     digest[4] = SHA1M_E;
 676
 677     #pragma unroll 64
 678     for (int i = 0; i < 64; i++) final[i] = 0;
 679
 680     final[0] = w0[0];
 681     final[1] = w0[1];
 682     final[2] = w0[2];
 683     final[3] = w0[3];
 684     final[4] = w1[0];
 685     final[5] = w1[1];
 686     final[6] = w1[2];
 687     final[7] = w1[3];
 688
 689     u32 final_len = out_len;
 690
 691     int i;
 692
 693     // append MagicArray
 694
 695     for (i = 0; i < lengthMagicArray - 4; i += 4)
 696     {
 697       const u32 tmp = GETSHIFTEDINT (theMagicArray, offsetMagicArray + i);
 698
 699       SETSHIFTEDINT (final, final_len + i, tmp);
 700     }
 701
 702     const u32 mask = 0xffffffff >> (((i - lengthMagicArray) & 3) * 8);
 703
 704     const u32 tmp = GETSHIFTEDINT (theMagicArray, offsetMagicArray + i) & mask;
 705
 706     SETSHIFTEDINT (final, final_len + i, tmp);
 707
 708     final_len += lengthMagicArray;
 709
 710     // append Salt
 711
 712     for (i = 0; i < salt_len + 1; i += 4) // +1 for the 0x80
 713     {
 714       const u32 tmp = salt_buf[i / 4]; // attention, int[] not char[]
 715
 716       SETSHIFTEDINT (final, final_len + i, tmp);
 717     }
 718
 719     final_len += salt_len;
 720
 721     // calculate
 722
 723     int left;
 724     int off;
 725
 726     for (left = final_len, off = 0; left >= 56; left -= 64, off += 16)
 727     {
 728       swap_buffer (&final[off]);
 729
 730       sha1_transform (&final[off + 0], &final[off + 4], &final[off + 8], &final[off + 12], digest);
 731     }
 732
 733     swap_buffer (&final[off]);
 734
 735     final[off + 14] = 0;
 736     final[off + 15] = final_len * 8;
 737
 738     sha1_transform (&final[off + 0], &final[off + 4], &final[off + 8], &final[off + 12], digest);
 739
 740     const u32x r0 = digest[3];
 741     const u32x r1 = digest[4];
 742     const u32x r2 = digest[2];
 743     const u32x r3 = digest[1];
 744
 745     #include VECT_COMPARE_S
 746   }
 747 }
 748
 749 __kernel void __attribute__((reqd_work_group_size (64, 1, 1))) m07800_s08 (__global pw_t *pws, __global gpu_rule_t *rules_buf, __global comb_t *combs_buf, __global bf_t *bfs_buf, __global void *tmps, __global void *hooks, __global u32 *bitmaps_buf_s1_a, __global u32 *bitmaps_buf_s1_b, __global u32 *bitmaps_buf_s1_c, __global u32 *bitmaps_buf_s1_d, __global u32 *bitmaps_buf_s2_a, __global u32 *bitmaps_buf_s2_b, __global u32 *bitmaps_buf_s2_c, __global u32 *bitmaps_buf_s2_d, __global plain_t *plains_buf, __global digest_t *digests_buf, __global u32 *hashes_shown, __global salt_t *salt_bufs, __global void *esalt_bufs, __global u32 *d_return_buf, __global u32 *d_scryptV_buf, const u32 bitmap_mask, const u32 bitmap_shift1, const u32 bitmap_shift2, const u32 salt_pos, const u32 loop_pos, const u32 loop_cnt, const u32 rules_cnt, const u32 digests_cnt, const u32 digests_offset, const u32 combs_mode, const u32 gid_max)
 750 {
 751 }
 752
 753 __kernel void __attribute__((reqd_work_group_size (64, 1, 1))) m07800_s16 (__global pw_t *pws, __global gpu_rule_t *rules_buf, __global comb_t *combs_buf, __global bf_t *bfs_buf, __global void *tmps, __global void *hooks, __global u32 *bitmaps_buf_s1_a, __global u32 *bitmaps_buf_s1_b, __global u32 *bitmaps_buf_s1_c, __global u32 *bitmaps_buf_s1_d, __global u32 *bitmaps_buf_s2_a, __global u32 *bitmaps_buf_s2_b, __global u32 *bitmaps_buf_s2_c, __global u32 *bitmaps_buf_s2_d, __global plain_t *plains_buf, __global digest_t *digests_buf, __global u32 *hashes_shown, __global salt_t *salt_bufs, __global void *esalt_bufs, __global u32 *d_return_buf, __global u32 *d_scryptV_buf, const u32 bitmap_mask, const u32 bitmap_shift1, const u32 bitmap_shift2, const u32 salt_pos, const u32 loop_pos, const u32 loop_cnt, const u32 rules_cnt, const u32 digests_cnt, const u32 digests_offset, const u32 combs_mode, const u32 gid_max)
 754 {
 755 }