Added SIMD code for WPA/WPA2
[hashcat.git] / OpenCL / m00400.cl
1 /**
2  * Author......: Jens Steube <jens.steube@gmail.com>
3  * License.....: MIT
4  */
5
6 #define _MD5_
7
8 #define NEW_SIMD_CODE
9
10 #include "include/constants.h"
11 #include "include/kernel_vendor.h"
12
13 #define DGST_R0 0
14 #define DGST_R1 1
15 #define DGST_R2 2
16 #define DGST_R3 3
17
18 #include "include/kernel_functions.c"
19 #include "OpenCL/types_ocl.c"
20 #include "OpenCL/common.c"
21 #include "OpenCL/simd.c"
22
23 #define COMPARE_S "OpenCL/check_single_comp4.c"
24 #define COMPARE_M "OpenCL/check_multi_comp4.c"
25
26 void md5_transform_S (const u32 w0[4], const u32 w1[4], const u32 w2[4], const u32 w3[4], u32 digest[4])
27 {
28   u32 a = digest[0];
29   u32 b = digest[1];
30   u32 c = digest[2];
31   u32 d = digest[3];
32
33   u32 w0_t = w0[0];
34   u32 w1_t = w0[1];
35   u32 w2_t = w0[2];
36   u32 w3_t = w0[3];
37   u32 w4_t = w1[0];
38   u32 w5_t = w1[1];
39   u32 w6_t = w1[2];
40   u32 w7_t = w1[3];
41   u32 w8_t = w2[0];
42   u32 w9_t = w2[1];
43   u32 wa_t = w2[2];
44   u32 wb_t = w2[3];
45   u32 wc_t = w3[0];
46   u32 wd_t = w3[1];
47   u32 we_t = w3[2];
48   u32 wf_t = 0;
49
50   MD5_STEP_S (MD5_Fo, a, b, c, d, w0_t, MD5C00, MD5S00);
51   MD5_STEP_S (MD5_Fo, d, a, b, c, w1_t, MD5C01, MD5S01);
52   MD5_STEP_S (MD5_Fo, c, d, a, b, w2_t, MD5C02, MD5S02);
53   MD5_STEP_S (MD5_Fo, b, c, d, a, w3_t, MD5C03, MD5S03);
54   MD5_STEP_S (MD5_Fo, a, b, c, d, w4_t, MD5C04, MD5S00);
55   MD5_STEP_S (MD5_Fo, d, a, b, c, w5_t, MD5C05, MD5S01);
56   MD5_STEP_S (MD5_Fo, c, d, a, b, w6_t, MD5C06, MD5S02);
57   MD5_STEP_S (MD5_Fo, b, c, d, a, w7_t, MD5C07, MD5S03);
58   MD5_STEP_S (MD5_Fo, a, b, c, d, w8_t, MD5C08, MD5S00);
59   MD5_STEP_S (MD5_Fo, d, a, b, c, w9_t, MD5C09, MD5S01);
60   MD5_STEP_S (MD5_Fo, c, d, a, b, wa_t, MD5C0a, MD5S02);
61   MD5_STEP_S (MD5_Fo, b, c, d, a, wb_t, MD5C0b, MD5S03);
62   MD5_STEP_S (MD5_Fo, a, b, c, d, wc_t, MD5C0c, MD5S00);
63   MD5_STEP_S (MD5_Fo, d, a, b, c, wd_t, MD5C0d, MD5S01);
64   MD5_STEP_S (MD5_Fo, c, d, a, b, we_t, MD5C0e, MD5S02);
65   MD5_STEP_S (MD5_Fo, b, c, d, a, wf_t, MD5C0f, MD5S03);
66
67   MD5_STEP_S (MD5_Go, a, b, c, d, w1_t, MD5C10, MD5S10);
68   MD5_STEP_S (MD5_Go, d, a, b, c, w6_t, MD5C11, MD5S11);
69   MD5_STEP_S (MD5_Go, c, d, a, b, wb_t, MD5C12, MD5S12);
70   MD5_STEP_S (MD5_Go, b, c, d, a, w0_t, MD5C13, MD5S13);
71   MD5_STEP_S (MD5_Go, a, b, c, d, w5_t, MD5C14, MD5S10);
72   MD5_STEP_S (MD5_Go, d, a, b, c, wa_t, MD5C15, MD5S11);
73   MD5_STEP_S (MD5_Go, c, d, a, b, wf_t, MD5C16, MD5S12);
74   MD5_STEP_S (MD5_Go, b, c, d, a, w4_t, MD5C17, MD5S13);
75   MD5_STEP_S (MD5_Go, a, b, c, d, w9_t, MD5C18, MD5S10);
76   MD5_STEP_S (MD5_Go, d, a, b, c, we_t, MD5C19, MD5S11);
77   MD5_STEP_S (MD5_Go, c, d, a, b, w3_t, MD5C1a, MD5S12);
78   MD5_STEP_S (MD5_Go, b, c, d, a, w8_t, MD5C1b, MD5S13);
79   MD5_STEP_S (MD5_Go, a, b, c, d, wd_t, MD5C1c, MD5S10);
80   MD5_STEP_S (MD5_Go, d, a, b, c, w2_t, MD5C1d, MD5S11);
81   MD5_STEP_S (MD5_Go, c, d, a, b, w7_t, MD5C1e, MD5S12);
82   MD5_STEP_S (MD5_Go, b, c, d, a, wc_t, MD5C1f, MD5S13);
83
84   MD5_STEP_S (MD5_H , a, b, c, d, w5_t, MD5C20, MD5S20);
85   MD5_STEP_S (MD5_H , d, a, b, c, w8_t, MD5C21, MD5S21);
86   MD5_STEP_S (MD5_H , c, d, a, b, wb_t, MD5C22, MD5S22);
87   MD5_STEP_S (MD5_H , b, c, d, a, we_t, MD5C23, MD5S23);
88   MD5_STEP_S (MD5_H , a, b, c, d, w1_t, MD5C24, MD5S20);
89   MD5_STEP_S (MD5_H , d, a, b, c, w4_t, MD5C25, MD5S21);
90   MD5_STEP_S (MD5_H , c, d, a, b, w7_t, MD5C26, MD5S22);
91   MD5_STEP_S (MD5_H , b, c, d, a, wa_t, MD5C27, MD5S23);
92   MD5_STEP_S (MD5_H , a, b, c, d, wd_t, MD5C28, MD5S20);
93   MD5_STEP_S (MD5_H , d, a, b, c, w0_t, MD5C29, MD5S21);
94   MD5_STEP_S (MD5_H , c, d, a, b, w3_t, MD5C2a, MD5S22);
95   MD5_STEP_S (MD5_H , b, c, d, a, w6_t, MD5C2b, MD5S23);
96   MD5_STEP_S (MD5_H , a, b, c, d, w9_t, MD5C2c, MD5S20);
97   MD5_STEP_S (MD5_H , d, a, b, c, wc_t, MD5C2d, MD5S21);
98   MD5_STEP_S (MD5_H , c, d, a, b, wf_t, MD5C2e, MD5S22);
99   MD5_STEP_S (MD5_H , b, c, d, a, w2_t, MD5C2f, MD5S23);
100
101   MD5_STEP_S (MD5_I , a, b, c, d, w0_t, MD5C30, MD5S30);
102   MD5_STEP_S (MD5_I , d, a, b, c, w7_t, MD5C31, MD5S31);
103   MD5_STEP_S (MD5_I , c, d, a, b, we_t, MD5C32, MD5S32);
104   MD5_STEP_S (MD5_I , b, c, d, a, w5_t, MD5C33, MD5S33);
105   MD5_STEP_S (MD5_I , a, b, c, d, wc_t, MD5C34, MD5S30);
106   MD5_STEP_S (MD5_I , d, a, b, c, w3_t, MD5C35, MD5S31);
107   MD5_STEP_S (MD5_I , c, d, a, b, wa_t, MD5C36, MD5S32);
108   MD5_STEP_S (MD5_I , b, c, d, a, w1_t, MD5C37, MD5S33);
109   MD5_STEP_S (MD5_I , a, b, c, d, w8_t, MD5C38, MD5S30);
110   MD5_STEP_S (MD5_I , d, a, b, c, wf_t, MD5C39, MD5S31);
111   MD5_STEP_S (MD5_I , c, d, a, b, w6_t, MD5C3a, MD5S32);
112   MD5_STEP_S (MD5_I , b, c, d, a, wd_t, MD5C3b, MD5S33);
113   MD5_STEP_S (MD5_I , a, b, c, d, w4_t, MD5C3c, MD5S30);
114   MD5_STEP_S (MD5_I , d, a, b, c, wb_t, MD5C3d, MD5S31);
115   MD5_STEP_S (MD5_I , c, d, a, b, w2_t, MD5C3e, MD5S32);
116   MD5_STEP_S (MD5_I , b, c, d, a, w9_t, MD5C3f, MD5S33);
117
118   digest[0] += a;
119   digest[1] += b;
120   digest[2] += c;
121   digest[3] += d;
122 }
123
124 void md5_transform (const u32x w0[4], const u32x w1[4], const u32x w2[4], const u32x w3[4], u32x digest[4])
125 {
126   u32x a = digest[0];
127   u32x b = digest[1];
128   u32x c = digest[2];
129   u32x d = digest[3];
130
131   u32x w0_t = w0[0];
132   u32x w1_t = w0[1];
133   u32x w2_t = w0[2];
134   u32x w3_t = w0[3];
135   u32x w4_t = w1[0];
136   u32x w5_t = w1[1];
137   u32x w6_t = w1[2];
138   u32x w7_t = w1[3];
139   u32x w8_t = w2[0];
140   u32x w9_t = w2[1];
141   u32x wa_t = w2[2];
142   u32x wb_t = w2[3];
143   u32x wc_t = w3[0];
144   u32x wd_t = w3[1];
145   u32x we_t = w3[2];
146   u32x wf_t = 0;
147
148   MD5_STEP (MD5_Fo, a, b, c, d, w0_t, MD5C00, MD5S00);
149   MD5_STEP (MD5_Fo, d, a, b, c, w1_t, MD5C01, MD5S01);
150   MD5_STEP (MD5_Fo, c, d, a, b, w2_t, MD5C02, MD5S02);
151   MD5_STEP (MD5_Fo, b, c, d, a, w3_t, MD5C03, MD5S03);
152   MD5_STEP (MD5_Fo, a, b, c, d, w4_t, MD5C04, MD5S00);
153   MD5_STEP (MD5_Fo, d, a, b, c, w5_t, MD5C05, MD5S01);
154   MD5_STEP (MD5_Fo, c, d, a, b, w6_t, MD5C06, MD5S02);
155   MD5_STEP (MD5_Fo, b, c, d, a, w7_t, MD5C07, MD5S03);
156   MD5_STEP (MD5_Fo, a, b, c, d, w8_t, MD5C08, MD5S00);
157   MD5_STEP (MD5_Fo, d, a, b, c, w9_t, MD5C09, MD5S01);
158   MD5_STEP (MD5_Fo, c, d, a, b, wa_t, MD5C0a, MD5S02);
159   MD5_STEP (MD5_Fo, b, c, d, a, wb_t, MD5C0b, MD5S03);
160   MD5_STEP (MD5_Fo, a, b, c, d, wc_t, MD5C0c, MD5S00);
161   MD5_STEP (MD5_Fo, d, a, b, c, wd_t, MD5C0d, MD5S01);
162   MD5_STEP (MD5_Fo, c, d, a, b, we_t, MD5C0e, MD5S02);
163   MD5_STEP (MD5_Fo, b, c, d, a, wf_t, MD5C0f, MD5S03);
164
165   MD5_STEP (MD5_Go, a, b, c, d, w1_t, MD5C10, MD5S10);
166   MD5_STEP (MD5_Go, d, a, b, c, w6_t, MD5C11, MD5S11);
167   MD5_STEP (MD5_Go, c, d, a, b, wb_t, MD5C12, MD5S12);
168   MD5_STEP (MD5_Go, b, c, d, a, w0_t, MD5C13, MD5S13);
169   MD5_STEP (MD5_Go, a, b, c, d, w5_t, MD5C14, MD5S10);
170   MD5_STEP (MD5_Go, d, a, b, c, wa_t, MD5C15, MD5S11);
171   MD5_STEP (MD5_Go, c, d, a, b, wf_t, MD5C16, MD5S12);
172   MD5_STEP (MD5_Go, b, c, d, a, w4_t, MD5C17, MD5S13);
173   MD5_STEP (MD5_Go, a, b, c, d, w9_t, MD5C18, MD5S10);
174   MD5_STEP (MD5_Go, d, a, b, c, we_t, MD5C19, MD5S11);
175   MD5_STEP (MD5_Go, c, d, a, b, w3_t, MD5C1a, MD5S12);
176   MD5_STEP (MD5_Go, b, c, d, a, w8_t, MD5C1b, MD5S13);
177   MD5_STEP (MD5_Go, a, b, c, d, wd_t, MD5C1c, MD5S10);
178   MD5_STEP (MD5_Go, d, a, b, c, w2_t, MD5C1d, MD5S11);
179   MD5_STEP (MD5_Go, c, d, a, b, w7_t, MD5C1e, MD5S12);
180   MD5_STEP (MD5_Go, b, c, d, a, wc_t, MD5C1f, MD5S13);
181
182   MD5_STEP (MD5_H , a, b, c, d, w5_t, MD5C20, MD5S20);
183   MD5_STEP (MD5_H , d, a, b, c, w8_t, MD5C21, MD5S21);
184   MD5_STEP (MD5_H , c, d, a, b, wb_t, MD5C22, MD5S22);
185   MD5_STEP (MD5_H , b, c, d, a, we_t, MD5C23, MD5S23);
186   MD5_STEP (MD5_H , a, b, c, d, w1_t, MD5C24, MD5S20);
187   MD5_STEP (MD5_H , d, a, b, c, w4_t, MD5C25, MD5S21);
188   MD5_STEP (MD5_H , c, d, a, b, w7_t, MD5C26, MD5S22);
189   MD5_STEP (MD5_H , b, c, d, a, wa_t, MD5C27, MD5S23);
190   MD5_STEP (MD5_H , a, b, c, d, wd_t, MD5C28, MD5S20);
191   MD5_STEP (MD5_H , d, a, b, c, w0_t, MD5C29, MD5S21);
192   MD5_STEP (MD5_H , c, d, a, b, w3_t, MD5C2a, MD5S22);
193   MD5_STEP (MD5_H , b, c, d, a, w6_t, MD5C2b, MD5S23);
194   MD5_STEP (MD5_H , a, b, c, d, w9_t, MD5C2c, MD5S20);
195   MD5_STEP (MD5_H , d, a, b, c, wc_t, MD5C2d, MD5S21);
196   MD5_STEP (MD5_H , c, d, a, b, wf_t, MD5C2e, MD5S22);
197   MD5_STEP (MD5_H , b, c, d, a, w2_t, MD5C2f, MD5S23);
198
199   MD5_STEP (MD5_I , a, b, c, d, w0_t, MD5C30, MD5S30);
200   MD5_STEP (MD5_I , d, a, b, c, w7_t, MD5C31, MD5S31);
201   MD5_STEP (MD5_I , c, d, a, b, we_t, MD5C32, MD5S32);
202   MD5_STEP (MD5_I , b, c, d, a, w5_t, MD5C33, MD5S33);
203   MD5_STEP (MD5_I , a, b, c, d, wc_t, MD5C34, MD5S30);
204   MD5_STEP (MD5_I , d, a, b, c, w3_t, MD5C35, MD5S31);
205   MD5_STEP (MD5_I , c, d, a, b, wa_t, MD5C36, MD5S32);
206   MD5_STEP (MD5_I , b, c, d, a, w1_t, MD5C37, MD5S33);
207   MD5_STEP (MD5_I , a, b, c, d, w8_t, MD5C38, MD5S30);
208   MD5_STEP (MD5_I , d, a, b, c, wf_t, MD5C39, MD5S31);
209   MD5_STEP (MD5_I , c, d, a, b, w6_t, MD5C3a, MD5S32);
210   MD5_STEP (MD5_I , b, c, d, a, wd_t, MD5C3b, MD5S33);
211   MD5_STEP (MD5_I , a, b, c, d, w4_t, MD5C3c, MD5S30);
212   MD5_STEP (MD5_I , d, a, b, c, wb_t, MD5C3d, MD5S31);
213   MD5_STEP (MD5_I , c, d, a, b, w2_t, MD5C3e, MD5S32);
214   MD5_STEP (MD5_I , b, c, d, a, w9_t, MD5C3f, MD5S33);
215
216   digest[0] += a;
217   digest[1] += b;
218   digest[2] += c;
219   digest[3] += d;
220 }
221
222 __kernel void m00400_init (__global pw_t *pws, __global kernel_rule_t *rules_buf, __global comb_t *combs_buf, __global bf_t *bfs_buf, __global phpass_tmp_t *tmps, __global void *hooks, __global u32 *bitmaps_buf_s1_a, __global u32 *bitmaps_buf_s1_b, __global u32 *bitmaps_buf_s1_c, __global u32 *bitmaps_buf_s1_d, __global u32 *bitmaps_buf_s2_a, __global u32 *bitmaps_buf_s2_b, __global u32 *bitmaps_buf_s2_c, __global u32 *bitmaps_buf_s2_d, __global plain_t *plains_buf, __global digest_t *digests_buf, __global u32 *hashes_shown, __global salt_t *salt_bufs, __global void *esalt_bufs, __global u32 *d_return_buf, __global u32 *d_scryptV_buf, const u32 bitmap_mask, const u32 bitmap_shift1, const u32 bitmap_shift2, const u32 salt_pos, const u32 loop_pos, const u32 loop_cnt, const u32 il_cnt, const u32 digests_cnt, const u32 digests_offset, const u32 combs_mode, const u32 gid_max)
223 {
224   /**
225    * base
226    */
227
228   const u32 gid = get_global_id (0);
229
230   if (gid >= gid_max) return;
231
232   u32 w0[4];
233
234   w0[0] = pws[gid].i[ 0];
235   w0[1] = pws[gid].i[ 1];
236   w0[2] = pws[gid].i[ 2];
237   w0[3] = pws[gid].i[ 3];
238
239   u32 w1[4];
240
241   w1[0] = pws[gid].i[ 4];
242   w1[1] = pws[gid].i[ 5];
243   w1[2] = pws[gid].i[ 6];
244   w1[3] = pws[gid].i[ 7];
245
246   u32 w2[4];
247
248   w2[0] = pws[gid].i[ 8];
249   w2[1] = pws[gid].i[ 9];
250   w2[2] = 0;
251   w2[3] = 0;
252
253   const u32 pw_len = pws[gid].pw_len;
254
255   /**
256    * salt
257    */
258
259   u32 salt_buf[2];
260
261   salt_buf[0] = salt_bufs[salt_pos].salt_buf[0];
262   salt_buf[1] = salt_bufs[salt_pos].salt_buf[1];
263
264   /**
265    * init
266    */
267
268   u32 block_len = 8 + pw_len;
269
270   u32 block0[4];
271
272   block0[0] = salt_buf[0];
273   block0[1] = salt_buf[1];
274   block0[2] = w0[0];
275   block0[3] = w0[1];
276
277   u32 block1[4];
278
279   block1[0] = w0[2];
280   block1[1] = w0[3];
281   block1[2] = w1[0];
282   block1[3] = w1[1];
283
284   u32 block2[4];
285
286   block2[0] = w1[2];
287   block2[1] = w1[3];
288   block2[2] = w2[0];
289   block2[3] = w2[1];
290
291   u32 block3[4];
292
293   block3[0] = 0;
294   block3[1] = 0;
295   block3[2] = block_len * 8;
296   block3[3] = 0;
297
298   append_0x80_4x4_S (block0, block1, block2, block3, block_len);
299
300   /**
301    * init
302    */
303
304   u32 digest[4];
305
306   digest[0] = MD5M_A;
307   digest[1] = MD5M_B;
308   digest[2] = MD5M_C;
309   digest[3] = MD5M_D;
310
311   md5_transform_S (block0, block1, block2, block3, digest);
312
313   tmps[gid].digest_buf[0] = digest[0];
314   tmps[gid].digest_buf[1] = digest[1];
315   tmps[gid].digest_buf[2] = digest[2];
316   tmps[gid].digest_buf[3] = digest[3];
317 }
318
319 __kernel void m00400_loop (__global pw_t *pws, __global kernel_rule_t *rules_buf, __global comb_t *combs_buf, __global bf_t *bfs_buf, __global phpass_tmp_t *tmps, __global void *hooks, __global u32 *bitmaps_buf_s1_a, __global u32 *bitmaps_buf_s1_b, __global u32 *bitmaps_buf_s1_c, __global u32 *bitmaps_buf_s1_d, __global u32 *bitmaps_buf_s2_a, __global u32 *bitmaps_buf_s2_b, __global u32 *bitmaps_buf_s2_c, __global u32 *bitmaps_buf_s2_d, __global plain_t *plains_buf, __global digest_t *digests_buf, __global u32 *hashes_shown, __global salt_t *salt_bufs, __global void *esalt_bufs, __global u32 *d_return_buf, __global u32 *d_scryptV_buf, const u32 bitmap_mask, const u32 bitmap_shift1, const u32 bitmap_shift2, const u32 salt_pos, const u32 loop_pos, const u32 loop_cnt, const u32 il_cnt, const u32 digests_cnt, const u32 digests_offset, const u32 combs_mode, const u32 gid_max)
320 {
321   /**
322    * base
323    */
324
325   const u32 gid = get_global_id (0);
326
327   if (gid >= gid_max) return;
328
329   u32x w0[4] = { 0 };
330   u32x w1[4] = { 0 };
331   u32x w2[4] = { 0 };
332
333   u32x pw_len = 0;
334
335   u32x digest[4] = { 0 };
336
337   #if VECT_SIZE == 1
338
339   w0[0] = pws[gid].i[0];
340   w0[1] = pws[gid].i[1];
341   w0[2] = pws[gid].i[2];
342   w0[3] = pws[gid].i[3];
343   w1[0] = pws[gid].i[4];
344   w1[1] = pws[gid].i[5];
345   w1[2] = pws[gid].i[6];
346   w1[3] = pws[gid].i[7];
347   w2[0] = pws[gid].i[8];
348   w2[1] = pws[gid].i[9];
349
350   pw_len = pws[gid].pw_len;
351
352   digest[0] = tmps[gid].digest_buf[0];
353   digest[1] = tmps[gid].digest_buf[1];
354   digest[2] = tmps[gid].digest_buf[2];
355   digest[3] = tmps[gid].digest_buf[3];
356
357   #else
358
359   const u32 gidx = gid * VECT_SIZE;
360
361   #if VECT_SIZE >= 2
362
363   if ((gidx + 0) < gid_max)
364   {
365     w0[0].s0 = pws[gidx + 0].i[0];
366     w0[1].s0 = pws[gidx + 0].i[1];
367     w0[2].s0 = pws[gidx + 0].i[2];
368     w0[3].s0 = pws[gidx + 0].i[3];
369     w1[0].s0 = pws[gidx + 0].i[4];
370     w1[1].s0 = pws[gidx + 0].i[5];
371     w1[2].s0 = pws[gidx + 0].i[6];
372     w1[3].s0 = pws[gidx + 0].i[7];
373     w2[0].s0 = pws[gidx + 0].i[8];
374     w2[1].s0 = pws[gidx + 0].i[9];
375
376     pw_len.s0 = pws[gidx + 0].pw_len;
377
378     digest[0].s0 = tmps[gidx + 0].digest_buf[0];
379     digest[1].s0 = tmps[gidx + 0].digest_buf[1];
380     digest[2].s0 = tmps[gidx + 0].digest_buf[2];
381     digest[3].s0 = tmps[gidx + 0].digest_buf[3];
382   }
383
384   if ((gidx + 1) < gid_max)
385   {
386     w0[0].s1 = pws[gidx + 1].i[0];
387     w0[1].s1 = pws[gidx + 1].i[1];
388     w0[2].s1 = pws[gidx + 1].i[2];
389     w0[3].s1 = pws[gidx + 1].i[3];
390     w1[0].s1 = pws[gidx + 1].i[4];
391     w1[1].s1 = pws[gidx + 1].i[5];
392     w1[2].s1 = pws[gidx + 1].i[6];
393     w1[3].s1 = pws[gidx + 1].i[7];
394     w2[0].s1 = pws[gidx + 1].i[8];
395     w2[1].s1 = pws[gidx + 1].i[9];
396
397     pw_len.s1 = pws[gidx + 1].pw_len;
398
399     digest[0].s1 = tmps[gidx + 1].digest_buf[0];
400     digest[1].s1 = tmps[gidx + 1].digest_buf[1];
401     digest[2].s1 = tmps[gidx + 1].digest_buf[2];
402     digest[3].s1 = tmps[gidx + 1].digest_buf[3];
403   }
404
405   #endif
406
407   #if VECT_SIZE >= 4
408
409   if ((gidx + 2) < gid_max)
410   {
411     w0[0].s2 = pws[gidx + 2].i[0];
412     w0[1].s2 = pws[gidx + 2].i[1];
413     w0[2].s2 = pws[gidx + 2].i[2];
414     w0[3].s2 = pws[gidx + 2].i[3];
415     w1[0].s2 = pws[gidx + 2].i[4];
416     w1[1].s2 = pws[gidx + 2].i[5];
417     w1[2].s2 = pws[gidx + 2].i[6];
418     w1[3].s2 = pws[gidx + 2].i[7];
419     w2[0].s2 = pws[gidx + 2].i[8];
420     w2[1].s2 = pws[gidx + 2].i[9];
421
422     pw_len.s2 = pws[gidx + 2].pw_len;
423
424     digest[0].s2 = tmps[gidx + 2].digest_buf[0];
425     digest[1].s2 = tmps[gidx + 2].digest_buf[1];
426     digest[2].s2 = tmps[gidx + 2].digest_buf[2];
427     digest[3].s2 = tmps[gidx + 2].digest_buf[3];
428   }
429
430   if ((gidx + 3) < gid_max)
431   {
432     w0[0].s3 = pws[gidx + 3].i[0];
433     w0[1].s3 = pws[gidx + 3].i[1];
434     w0[2].s3 = pws[gidx + 3].i[2];
435     w0[3].s3 = pws[gidx + 3].i[3];
436     w1[0].s3 = pws[gidx + 3].i[4];
437     w1[1].s3 = pws[gidx + 3].i[5];
438     w1[2].s3 = pws[gidx + 3].i[6];
439     w1[3].s3 = pws[gidx + 3].i[7];
440     w2[0].s3 = pws[gidx + 3].i[8];
441     w2[1].s3 = pws[gidx + 3].i[9];
442
443     pw_len.s3 = pws[gidx + 3].pw_len;
444
445     digest[0].s3 = tmps[gidx + 3].digest_buf[0];
446     digest[1].s3 = tmps[gidx + 3].digest_buf[1];
447     digest[2].s3 = tmps[gidx + 3].digest_buf[2];
448     digest[3].s3 = tmps[gidx + 3].digest_buf[3];
449   }
450
451   #endif
452   #if VECT_SIZE >= 8
453
454   if ((gidx + 4) < gid_max)
455   {
456     w0[0].s4 = pws[gidx + 4].i[0];
457     w0[1].s4 = pws[gidx + 4].i[1];
458     w0[2].s4 = pws[gidx + 4].i[2];
459     w0[3].s4 = pws[gidx + 4].i[3];
460     w1[0].s4 = pws[gidx + 4].i[4];
461     w1[1].s4 = pws[gidx + 4].i[5];
462     w1[2].s4 = pws[gidx + 4].i[6];
463     w1[3].s4 = pws[gidx + 4].i[7];
464     w2[0].s4 = pws[gidx + 4].i[8];
465     w2[1].s4 = pws[gidx + 4].i[9];
466
467     pw_len.s4 = pws[gidx + 4].pw_len;
468
469     digest[0].s4 = tmps[gidx + 4].digest_buf[0];
470     digest[1].s4 = tmps[gidx + 4].digest_buf[1];
471     digest[2].s4 = tmps[gidx + 4].digest_buf[2];
472     digest[3].s4 = tmps[gidx + 4].digest_buf[3];
473   }
474
475   if ((gidx + 5) < gid_max)
476   {
477     w0[0].s5 = pws[gidx + 5].i[0];
478     w0[1].s5 = pws[gidx + 5].i[1];
479     w0[2].s5 = pws[gidx + 5].i[2];
480     w0[3].s5 = pws[gidx + 5].i[3];
481     w1[0].s5 = pws[gidx + 5].i[4];
482     w1[1].s5 = pws[gidx + 5].i[5];
483     w1[2].s5 = pws[gidx + 5].i[6];
484     w1[3].s5 = pws[gidx + 5].i[7];
485     w2[0].s5 = pws[gidx + 5].i[8];
486     w2[1].s5 = pws[gidx + 5].i[9];
487
488     pw_len.s5 = pws[gidx + 5].pw_len;
489
490     digest[0].s5 = tmps[gidx + 5].digest_buf[0];
491     digest[1].s5 = tmps[gidx + 5].digest_buf[1];
492     digest[2].s5 = tmps[gidx + 5].digest_buf[2];
493     digest[3].s5 = tmps[gidx + 5].digest_buf[3];
494   }
495
496   if ((gidx + 6) < gid_max)
497   {
498     w0[0].s6 = pws[gidx + 6].i[0];
499     w0[1].s6 = pws[gidx + 6].i[1];
500     w0[2].s6 = pws[gidx + 6].i[2];
501     w0[3].s6 = pws[gidx + 6].i[3];
502     w1[0].s6 = pws[gidx + 6].i[4];
503     w1[1].s6 = pws[gidx + 6].i[5];
504     w1[2].s6 = pws[gidx + 6].i[6];
505     w1[3].s6 = pws[gidx + 6].i[7];
506     w2[0].s6 = pws[gidx + 6].i[8];
507     w2[1].s6 = pws[gidx + 6].i[9];
508
509     pw_len.s6 = pws[gidx + 6].pw_len;
510
511     digest[0].s6 = tmps[gidx + 6].digest_buf[0];
512     digest[1].s6 = tmps[gidx + 6].digest_buf[1];
513     digest[2].s6 = tmps[gidx + 6].digest_buf[2];
514     digest[3].s6 = tmps[gidx + 6].digest_buf[3];
515   }
516
517   if ((gidx + 7) < gid_max)
518   {
519     w0[0].s7 = pws[gidx + 7].i[0];
520     w0[1].s7 = pws[gidx + 7].i[1];
521     w0[2].s7 = pws[gidx + 7].i[2];
522     w0[3].s7 = pws[gidx + 7].i[3];
523     w1[0].s7 = pws[gidx + 7].i[4];
524     w1[1].s7 = pws[gidx + 7].i[5];
525     w1[2].s7 = pws[gidx + 7].i[6];
526     w1[3].s7 = pws[gidx + 7].i[7];
527     w2[0].s7 = pws[gidx + 7].i[8];
528     w2[1].s7 = pws[gidx + 7].i[9];
529
530     pw_len.s7 = pws[gidx + 7].pw_len;
531
532     digest[0].s7 = tmps[gidx + 7].digest_buf[0];
533     digest[1].s7 = tmps[gidx + 7].digest_buf[1];
534     digest[2].s7 = tmps[gidx + 7].digest_buf[2];
535     digest[3].s7 = tmps[gidx + 7].digest_buf[3];
536   }
537
538   #endif
539   #endif
540
541   /**
542    * loop
543    */
544
545   u32x block_len = (16 + pw_len);
546
547   u32x block0[4];
548   u32x block1[4];
549   u32x block2[4];
550   u32x block3[4];
551
552   block0[0] = 0;
553   block0[1] = 0;
554   block0[2] = 0;
555   block0[3] = 0;
556   block1[0] = w0[0];
557   block1[1] = w0[1];
558   block1[2] = w0[2];
559   block1[3] = w0[3];
560   block2[0] = w1[0];
561   block2[1] = w1[1];
562   block2[2] = w1[2];
563   block2[3] = w1[3];
564   block3[0] = w2[0];
565   block3[1] = w2[1];
566   block3[2] = block_len * 8;
567   block3[3] = 0;
568
569   append_0x80_4x4_VV (block0, block1, block2, block3, block_len);
570
571   /**
572    * init
573    */
574
575   for (u32 i = 0; i < loop_cnt; i++)
576   {
577     block0[0] = digest[0];
578     block0[1] = digest[1];
579     block0[2] = digest[2];
580     block0[3] = digest[3];
581
582     digest[0] = MD5M_A;
583     digest[1] = MD5M_B;
584     digest[2] = MD5M_C;
585     digest[3] = MD5M_D;
586
587     md5_transform (block0, block1, block2, block3, digest);
588   }
589
590   #if VECT_SIZE == 1
591
592   tmps[gid].digest_buf[0] = digest[0];
593   tmps[gid].digest_buf[1] = digest[1];
594   tmps[gid].digest_buf[2] = digest[2];
595   tmps[gid].digest_buf[3] = digest[3];
596
597   #else
598
599   #if VECT_SIZE >= 2
600
601   if ((gidx + 0) < gid_max)
602   {
603     tmps[gidx + 0].digest_buf[0] = digest[0].s0;
604     tmps[gidx + 0].digest_buf[1] = digest[1].s0;
605     tmps[gidx + 0].digest_buf[2] = digest[2].s0;
606     tmps[gidx + 0].digest_buf[3] = digest[3].s0;
607   }
608
609   if ((gidx + 1) < gid_max)
610   {
611     tmps[gidx + 1].digest_buf[0] = digest[0].s1;
612     tmps[gidx + 1].digest_buf[1] = digest[1].s1;
613     tmps[gidx + 1].digest_buf[2] = digest[2].s1;
614     tmps[gidx + 1].digest_buf[3] = digest[3].s1;
615   }
616
617   #endif
618
619   #if VECT_SIZE >= 4
620
621   if ((gidx + 2) < gid_max)
622   {
623     tmps[gidx + 2].digest_buf[0] = digest[0].s2;
624     tmps[gidx + 2].digest_buf[1] = digest[1].s2;
625     tmps[gidx + 2].digest_buf[2] = digest[2].s2;
626     tmps[gidx + 2].digest_buf[3] = digest[3].s2;
627   }
628
629   if ((gidx + 3) < gid_max)
630   {
631     tmps[gidx + 3].digest_buf[0] = digest[0].s3;
632     tmps[gidx + 3].digest_buf[1] = digest[1].s3;
633     tmps[gidx + 3].digest_buf[2] = digest[2].s3;
634     tmps[gidx + 3].digest_buf[3] = digest[3].s3;
635   }
636
637   #endif
638
639   #if VECT_SIZE >= 8
640
641   if ((gidx + 4) < gid_max)
642   {
643     tmps[gidx + 4].digest_buf[0] = digest[0].s4;
644     tmps[gidx + 4].digest_buf[1] = digest[1].s4;
645     tmps[gidx + 4].digest_buf[2] = digest[2].s4;
646     tmps[gidx + 4].digest_buf[3] = digest[3].s4;
647   }
648
649   if ((gidx + 5) < gid_max)
650   {
651     tmps[gidx + 5].digest_buf[0] = digest[0].s5;
652     tmps[gidx + 5].digest_buf[1] = digest[1].s5;
653     tmps[gidx + 5].digest_buf[2] = digest[2].s5;
654     tmps[gidx + 5].digest_buf[3] = digest[3].s5;
655   }
656
657   if ((gidx + 6) < gid_max)
658   {
659     tmps[gidx + 6].digest_buf[0] = digest[0].s6;
660     tmps[gidx + 6].digest_buf[1] = digest[1].s6;
661     tmps[gidx + 6].digest_buf[2] = digest[2].s6;
662     tmps[gidx + 6].digest_buf[3] = digest[3].s6;
663   }
664
665   if ((gidx + 7) < gid_max)
666   {
667     tmps[gidx + 7].digest_buf[0] = digest[0].s7;
668     tmps[gidx + 7].digest_buf[1] = digest[1].s7;
669     tmps[gidx + 7].digest_buf[2] = digest[2].s7;
670     tmps[gidx + 7].digest_buf[3] = digest[3].s7;
671   }
672
673   #endif
674   #endif
675 }
676
677 __kernel void m00400_comp (__global pw_t *pws, __global kernel_rule_t *rules_buf, __global comb_t *combs_buf, __global bf_t *bfs_buf, __global phpass_tmp_t *tmps, __global void *hooks, __global u32 *bitmaps_buf_s1_a, __global u32 *bitmaps_buf_s1_b, __global u32 *bitmaps_buf_s1_c, __global u32 *bitmaps_buf_s1_d, __global u32 *bitmaps_buf_s2_a, __global u32 *bitmaps_buf_s2_b, __global u32 *bitmaps_buf_s2_c, __global u32 *bitmaps_buf_s2_d, __global plain_t *plains_buf, __global digest_t *digests_buf, __global u32 *hashes_shown, __global salt_t *salt_bufs, __global void *esalt_bufs, __global u32 *d_return_buf, __global u32 *d_scryptV_buf, const u32 bitmap_mask, const u32 bitmap_shift1, const u32 bitmap_shift2, const u32 salt_pos, const u32 loop_pos, const u32 loop_cnt, const u32 il_cnt, const u32 digests_cnt, const u32 digests_offset, const u32 combs_mode, const u32 gid_max)
678 {
679   /**
680    * modifier
681    */
682
683   const u32 gid = get_global_id (0);
684   const u32 lid = get_local_id (0);
685
686   if (gid >= gid_max) return;
687
688   /**
689    * digest
690    */
691
692   const u32 r0 = tmps[gid].digest_buf[DGST_R0];
693   const u32 r1 = tmps[gid].digest_buf[DGST_R1];
694   const u32 r2 = tmps[gid].digest_buf[DGST_R2];
695   const u32 r3 = tmps[gid].digest_buf[DGST_R3];
696
697   #define il_pos 0
698
699   #include COMPARE_M
700 }