Fix m 60 a 0 by making modified variable non-const
[hashcat.git] / OpenCL / m09700_a0.cl
1 /**
2  * Author......: Jens Steube <jens.steube@gmail.com>
3  * License.....: MIT
4  */
5
6 #define _OLDOFFICE01_
7
8 //too much register pressure
9 //#define NEW_SIMD_CODE
10
11 #include "inc_vendor.cl"
12 #include "inc_hash_constants.h"
13 #include "inc_hash_functions.cl"
14 #include "inc_types.cl"
15 #include "inc_common.cl"
16 #include "inc_rp.h"
17 #include "inc_rp.cl"
18 #include "inc_simd.cl"
19
20 typedef struct
21 {
22   u8 S[256];
23
24   u32 wtf_its_faster;
25
26 } RC4_KEY;
27
28 void swap (__local RC4_KEY *rc4_key, const u8 i, const u8 j)
29 {
30   u8 tmp;
31
32   tmp           = rc4_key->S[i];
33   rc4_key->S[i] = rc4_key->S[j];
34   rc4_key->S[j] = tmp;
35 }
36
37 void rc4_init_16 (__local RC4_KEY *rc4_key, const u32 data[4])
38 {
39   u32 v = 0x03020100;
40   u32 a = 0x04040404;
41
42   __local u32 *ptr = (__local u32 *) rc4_key->S;
43
44   #ifdef _unroll
45   #pragma unroll
46   #endif
47   for (u32 i = 0; i < 64; i++)
48   {
49     *ptr++ = v; v += a;
50   }
51
52   u32 j = 0;
53
54   for (u32 i = 0; i < 16; i++)
55   {
56     u32 idx = i * 16;
57
58     u32 v;
59
60     v = data[0];
61
62     j += rc4_key->S[idx] + (v >>  0); swap (rc4_key, idx, j); idx++;
63     j += rc4_key->S[idx] + (v >>  8); swap (rc4_key, idx, j); idx++;
64     j += rc4_key->S[idx] + (v >> 16); swap (rc4_key, idx, j); idx++;
65     j += rc4_key->S[idx] + (v >> 24); swap (rc4_key, idx, j); idx++;
66
67     v = data[1];
68
69     j += rc4_key->S[idx] + (v >>  0); swap (rc4_key, idx, j); idx++;
70     j += rc4_key->S[idx] + (v >>  8); swap (rc4_key, idx, j); idx++;
71     j += rc4_key->S[idx] + (v >> 16); swap (rc4_key, idx, j); idx++;
72     j += rc4_key->S[idx] + (v >> 24); swap (rc4_key, idx, j); idx++;
73
74     v = data[2];
75
76     j += rc4_key->S[idx] + (v >>  0); swap (rc4_key, idx, j); idx++;
77     j += rc4_key->S[idx] + (v >>  8); swap (rc4_key, idx, j); idx++;
78     j += rc4_key->S[idx] + (v >> 16); swap (rc4_key, idx, j); idx++;
79     j += rc4_key->S[idx] + (v >> 24); swap (rc4_key, idx, j); idx++;
80
81     v = data[3];
82
83     j += rc4_key->S[idx] + (v >>  0); swap (rc4_key, idx, j); idx++;
84     j += rc4_key->S[idx] + (v >>  8); swap (rc4_key, idx, j); idx++;
85     j += rc4_key->S[idx] + (v >> 16); swap (rc4_key, idx, j); idx++;
86     j += rc4_key->S[idx] + (v >> 24); swap (rc4_key, idx, j); idx++;
87   }
88 }
89
90 u8 rc4_next_16 (__local RC4_KEY *rc4_key, u8 i, u8 j, const u32 in[4], u32 out[4])
91 {
92   #ifdef _unroll
93   #pragma unroll
94   #endif
95   for (u32 k = 0; k < 4; k++)
96   {
97     u32 xor4 = 0;
98
99     u8 idx;
100
101     i += 1;
102     j += rc4_key->S[i];
103
104     swap (rc4_key, i, j);
105
106     idx = rc4_key->S[i] + rc4_key->S[j];
107
108     xor4 |= rc4_key->S[idx] <<  0;
109
110     i += 1;
111     j += rc4_key->S[i];
112
113     swap (rc4_key, i, j);
114
115     idx = rc4_key->S[i] + rc4_key->S[j];
116
117     xor4 |= rc4_key->S[idx] <<  8;
118
119     i += 1;
120     j += rc4_key->S[i];
121
122     swap (rc4_key, i, j);
123
124     idx = rc4_key->S[i] + rc4_key->S[j];
125
126     xor4 |= rc4_key->S[idx] << 16;
127
128     i += 1;
129     j += rc4_key->S[i];
130
131     swap (rc4_key, i, j);
132
133     idx = rc4_key->S[i] + rc4_key->S[j];
134
135     xor4 |= rc4_key->S[idx] << 24;
136
137     out[k] = in[k] ^ xor4;
138   }
139
140   return j;
141 }
142
143 void md5_transform (const u32 w0[4], const u32 w1[4], const u32 w2[4], const u32 w3[4], u32 digest[4])
144 {
145   u32 a = digest[0];
146   u32 b = digest[1];
147   u32 c = digest[2];
148   u32 d = digest[3];
149
150   u32 w0_t = w0[0];
151   u32 w1_t = w0[1];
152   u32 w2_t = w0[2];
153   u32 w3_t = w0[3];
154   u32 w4_t = w1[0];
155   u32 w5_t = w1[1];
156   u32 w6_t = w1[2];
157   u32 w7_t = w1[3];
158   u32 w8_t = w2[0];
159   u32 w9_t = w2[1];
160   u32 wa_t = w2[2];
161   u32 wb_t = w2[3];
162   u32 wc_t = w3[0];
163   u32 wd_t = w3[1];
164   u32 we_t = w3[2];
165   u32 wf_t = w3[3];
166
167   MD5_STEP (MD5_Fo, a, b, c, d, w0_t, MD5C00, MD5S00);
168   MD5_STEP (MD5_Fo, d, a, b, c, w1_t, MD5C01, MD5S01);
169   MD5_STEP (MD5_Fo, c, d, a, b, w2_t, MD5C02, MD5S02);
170   MD5_STEP (MD5_Fo, b, c, d, a, w3_t, MD5C03, MD5S03);
171   MD5_STEP (MD5_Fo, a, b, c, d, w4_t, MD5C04, MD5S00);
172   MD5_STEP (MD5_Fo, d, a, b, c, w5_t, MD5C05, MD5S01);
173   MD5_STEP (MD5_Fo, c, d, a, b, w6_t, MD5C06, MD5S02);
174   MD5_STEP (MD5_Fo, b, c, d, a, w7_t, MD5C07, MD5S03);
175   MD5_STEP (MD5_Fo, a, b, c, d, w8_t, MD5C08, MD5S00);
176   MD5_STEP (MD5_Fo, d, a, b, c, w9_t, MD5C09, MD5S01);
177   MD5_STEP (MD5_Fo, c, d, a, b, wa_t, MD5C0a, MD5S02);
178   MD5_STEP (MD5_Fo, b, c, d, a, wb_t, MD5C0b, MD5S03);
179   MD5_STEP (MD5_Fo, a, b, c, d, wc_t, MD5C0c, MD5S00);
180   MD5_STEP (MD5_Fo, d, a, b, c, wd_t, MD5C0d, MD5S01);
181   MD5_STEP (MD5_Fo, c, d, a, b, we_t, MD5C0e, MD5S02);
182   MD5_STEP (MD5_Fo, b, c, d, a, wf_t, MD5C0f, MD5S03);
183
184   MD5_STEP (MD5_Go, a, b, c, d, w1_t, MD5C10, MD5S10);
185   MD5_STEP (MD5_Go, d, a, b, c, w6_t, MD5C11, MD5S11);
186   MD5_STEP (MD5_Go, c, d, a, b, wb_t, MD5C12, MD5S12);
187   MD5_STEP (MD5_Go, b, c, d, a, w0_t, MD5C13, MD5S13);
188   MD5_STEP (MD5_Go, a, b, c, d, w5_t, MD5C14, MD5S10);
189   MD5_STEP (MD5_Go, d, a, b, c, wa_t, MD5C15, MD5S11);
190   MD5_STEP (MD5_Go, c, d, a, b, wf_t, MD5C16, MD5S12);
191   MD5_STEP (MD5_Go, b, c, d, a, w4_t, MD5C17, MD5S13);
192   MD5_STEP (MD5_Go, a, b, c, d, w9_t, MD5C18, MD5S10);
193   MD5_STEP (MD5_Go, d, a, b, c, we_t, MD5C19, MD5S11);
194   MD5_STEP (MD5_Go, c, d, a, b, w3_t, MD5C1a, MD5S12);
195   MD5_STEP (MD5_Go, b, c, d, a, w8_t, MD5C1b, MD5S13);
196   MD5_STEP (MD5_Go, a, b, c, d, wd_t, MD5C1c, MD5S10);
197   MD5_STEP (MD5_Go, d, a, b, c, w2_t, MD5C1d, MD5S11);
198   MD5_STEP (MD5_Go, c, d, a, b, w7_t, MD5C1e, MD5S12);
199   MD5_STEP (MD5_Go, b, c, d, a, wc_t, MD5C1f, MD5S13);
200
201   MD5_STEP (MD5_H , a, b, c, d, w5_t, MD5C20, MD5S20);
202   MD5_STEP (MD5_H , d, a, b, c, w8_t, MD5C21, MD5S21);
203   MD5_STEP (MD5_H , c, d, a, b, wb_t, MD5C22, MD5S22);
204   MD5_STEP (MD5_H , b, c, d, a, we_t, MD5C23, MD5S23);
205   MD5_STEP (MD5_H , a, b, c, d, w1_t, MD5C24, MD5S20);
206   MD5_STEP (MD5_H , d, a, b, c, w4_t, MD5C25, MD5S21);
207   MD5_STEP (MD5_H , c, d, a, b, w7_t, MD5C26, MD5S22);
208   MD5_STEP (MD5_H , b, c, d, a, wa_t, MD5C27, MD5S23);
209   MD5_STEP (MD5_H , a, b, c, d, wd_t, MD5C28, MD5S20);
210   MD5_STEP (MD5_H , d, a, b, c, w0_t, MD5C29, MD5S21);
211   MD5_STEP (MD5_H , c, d, a, b, w3_t, MD5C2a, MD5S22);
212   MD5_STEP (MD5_H , b, c, d, a, w6_t, MD5C2b, MD5S23);
213   MD5_STEP (MD5_H , a, b, c, d, w9_t, MD5C2c, MD5S20);
214   MD5_STEP (MD5_H , d, a, b, c, wc_t, MD5C2d, MD5S21);
215   MD5_STEP (MD5_H , c, d, a, b, wf_t, MD5C2e, MD5S22);
216   MD5_STEP (MD5_H , b, c, d, a, w2_t, MD5C2f, MD5S23);
217
218   MD5_STEP (MD5_I , a, b, c, d, w0_t, MD5C30, MD5S30);
219   MD5_STEP (MD5_I , d, a, b, c, w7_t, MD5C31, MD5S31);
220   MD5_STEP (MD5_I , c, d, a, b, we_t, MD5C32, MD5S32);
221   MD5_STEP (MD5_I , b, c, d, a, w5_t, MD5C33, MD5S33);
222   MD5_STEP (MD5_I , a, b, c, d, wc_t, MD5C34, MD5S30);
223   MD5_STEP (MD5_I , d, a, b, c, w3_t, MD5C35, MD5S31);
224   MD5_STEP (MD5_I , c, d, a, b, wa_t, MD5C36, MD5S32);
225   MD5_STEP (MD5_I , b, c, d, a, w1_t, MD5C37, MD5S33);
226   MD5_STEP (MD5_I , a, b, c, d, w8_t, MD5C38, MD5S30);
227   MD5_STEP (MD5_I , d, a, b, c, wf_t, MD5C39, MD5S31);
228   MD5_STEP (MD5_I , c, d, a, b, w6_t, MD5C3a, MD5S32);
229   MD5_STEP (MD5_I , b, c, d, a, wd_t, MD5C3b, MD5S33);
230   MD5_STEP (MD5_I , a, b, c, d, w4_t, MD5C3c, MD5S30);
231   MD5_STEP (MD5_I , d, a, b, c, wb_t, MD5C3d, MD5S31);
232   MD5_STEP (MD5_I , c, d, a, b, w2_t, MD5C3e, MD5S32);
233   MD5_STEP (MD5_I , b, c, d, a, w9_t, MD5C3f, MD5S33);
234
235   digest[0] += a;
236   digest[1] += b;
237   digest[2] += c;
238   digest[3] += d;
239 }
240
241 void gen336 (u32 digest_pre[4], u32 salt_buf[4], u32 digest[4])
242 {
243   u32 digest_t0[2];
244   u32 digest_t1[2];
245   u32 digest_t2[2];
246   u32 digest_t3[2];
247
248   digest_t0[0] = digest_pre[0];
249   digest_t0[1] = digest_pre[1] & 0xff;
250
251   digest_t1[0] =                       digest_pre[0] <<  8;
252   digest_t1[1] = digest_pre[0] >> 24 | digest_pre[1] <<  8;
253
254   digest_t2[0] =                       digest_pre[0] << 16;
255   digest_t2[1] = digest_pre[0] >> 16 | digest_pre[1] << 16;
256
257   digest_t3[0] =                       digest_pre[0] << 24;
258   digest_t3[1] = digest_pre[0] >>  8 | digest_pre[1] << 24;
259
260   u32 salt_buf_t0[4];
261   u32 salt_buf_t1[5];
262   u32 salt_buf_t2[5];
263   u32 salt_buf_t3[5];
264
265   salt_buf_t0[0] = salt_buf[0];
266   salt_buf_t0[1] = salt_buf[1];
267   salt_buf_t0[2] = salt_buf[2];
268   salt_buf_t0[3] = salt_buf[3];
269
270   salt_buf_t1[0] =                     salt_buf[0] <<  8;
271   salt_buf_t1[1] = salt_buf[0] >> 24 | salt_buf[1] <<  8;
272   salt_buf_t1[2] = salt_buf[1] >> 24 | salt_buf[2] <<  8;
273   salt_buf_t1[3] = salt_buf[2] >> 24 | salt_buf[3] <<  8;
274   salt_buf_t1[4] = salt_buf[3] >> 24;
275
276   salt_buf_t2[0] =                     salt_buf[0] << 16;
277   salt_buf_t2[1] = salt_buf[0] >> 16 | salt_buf[1] << 16;
278   salt_buf_t2[2] = salt_buf[1] >> 16 | salt_buf[2] << 16;
279   salt_buf_t2[3] = salt_buf[2] >> 16 | salt_buf[3] << 16;
280   salt_buf_t2[4] = salt_buf[3] >> 16;
281
282   salt_buf_t3[0] =                     salt_buf[0] << 24;
283   salt_buf_t3[1] = salt_buf[0] >>  8 | salt_buf[1] << 24;
284   salt_buf_t3[2] = salt_buf[1] >>  8 | salt_buf[2] << 24;
285   salt_buf_t3[3] = salt_buf[2] >>  8 | salt_buf[3] << 24;
286   salt_buf_t3[4] = salt_buf[3] >>  8;
287
288   u32 w0_t[4];
289   u32 w1_t[4];
290   u32 w2_t[4];
291   u32 w3_t[4];
292
293   // generate the 16 * 21 buffer
294
295   w0_t[0] = 0;
296   w0_t[1] = 0;
297   w0_t[2] = 0;
298   w0_t[3] = 0;
299   w1_t[0] = 0;
300   w1_t[1] = 0;
301   w1_t[2] = 0;
302   w1_t[3] = 0;
303   w2_t[0] = 0;
304   w2_t[1] = 0;
305   w2_t[2] = 0;
306   w2_t[3] = 0;
307   w3_t[0] = 0;
308   w3_t[1] = 0;
309   w3_t[2] = 0;
310   w3_t[3] = 0;
311
312   // 0..5
313   w0_t[0]  = digest_t0[0];
314   w0_t[1]  = digest_t0[1];
315
316   // 5..21
317   w0_t[1] |= salt_buf_t1[0];
318   w0_t[2]  = salt_buf_t1[1];
319   w0_t[3]  = salt_buf_t1[2];
320   w1_t[0]  = salt_buf_t1[3];
321   w1_t[1]  = salt_buf_t1[4];
322
323   // 21..26
324   w1_t[1] |= digest_t1[0];
325   w1_t[2]  = digest_t1[1];
326
327   // 26..42
328   w1_t[2] |= salt_buf_t2[0];
329   w1_t[3]  = salt_buf_t2[1];
330   w2_t[0]  = salt_buf_t2[2];
331   w2_t[1]  = salt_buf_t2[3];
332   w2_t[2]  = salt_buf_t2[4];
333
334   // 42..47
335   w2_t[2] |= digest_t2[0];
336   w2_t[3]  = digest_t2[1];
337
338   // 47..63
339   w2_t[3] |= salt_buf_t3[0];
340   w3_t[0]  = salt_buf_t3[1];
341   w3_t[1]  = salt_buf_t3[2];
342   w3_t[2]  = salt_buf_t3[3];
343   w3_t[3]  = salt_buf_t3[4];
344
345   // 63..
346
347   w3_t[3] |= digest_t3[0];
348
349   md5_transform (w0_t, w1_t, w2_t, w3_t, digest);
350
351   w0_t[0] = 0;
352   w0_t[1] = 0;
353   w0_t[2] = 0;
354   w0_t[3] = 0;
355   w1_t[0] = 0;
356   w1_t[1] = 0;
357   w1_t[2] = 0;
358   w1_t[3] = 0;
359   w2_t[0] = 0;
360   w2_t[1] = 0;
361   w2_t[2] = 0;
362   w2_t[3] = 0;
363   w3_t[0] = 0;
364   w3_t[1] = 0;
365   w3_t[2] = 0;
366   w3_t[3] = 0;
367
368   // 0..4
369   w0_t[0]  = digest_t3[1];
370
371   // 4..20
372   w0_t[1]  = salt_buf_t0[0];
373   w0_t[2]  = salt_buf_t0[1];
374   w0_t[3]  = salt_buf_t0[2];
375   w1_t[0]  = salt_buf_t0[3];
376
377   // 20..25
378   w1_t[1]  = digest_t0[0];
379   w1_t[2]  = digest_t0[1];
380
381   // 25..41
382   w1_t[2] |= salt_buf_t1[0];
383   w1_t[3]  = salt_buf_t1[1];
384   w2_t[0]  = salt_buf_t1[2];
385   w2_t[1]  = salt_buf_t1[3];
386   w2_t[2]  = salt_buf_t1[4];
387
388   // 41..46
389   w2_t[2] |= digest_t1[0];
390   w2_t[3]  = digest_t1[1];
391
392   // 46..62
393   w2_t[3] |= salt_buf_t2[0];
394   w3_t[0]  = salt_buf_t2[1];
395   w3_t[1]  = salt_buf_t2[2];
396   w3_t[2]  = salt_buf_t2[3];
397   w3_t[3]  = salt_buf_t2[4];
398
399   // 62..
400   w3_t[3] |= digest_t2[0];
401
402   md5_transform (w0_t, w1_t, w2_t, w3_t, digest);
403
404   w0_t[0] = 0;
405   w0_t[1] = 0;
406   w0_t[2] = 0;
407   w0_t[3] = 0;
408   w1_t[0] = 0;
409   w1_t[1] = 0;
410   w1_t[2] = 0;
411   w1_t[3] = 0;
412   w2_t[0] = 0;
413   w2_t[1] = 0;
414   w2_t[2] = 0;
415   w2_t[3] = 0;
416   w3_t[0] = 0;
417   w3_t[1] = 0;
418   w3_t[2] = 0;
419   w3_t[3] = 0;
420
421   // 0..3
422   w0_t[0]  = digest_t2[1];
423
424   // 3..19
425   w0_t[0] |= salt_buf_t3[0];
426   w0_t[1]  = salt_buf_t3[1];
427   w0_t[2]  = salt_buf_t3[2];
428   w0_t[3]  = salt_buf_t3[3];
429   w1_t[0]  = salt_buf_t3[4];
430
431   // 19..24
432   w1_t[0] |= digest_t3[0];
433   w1_t[1]  = digest_t3[1];
434
435   // 24..40
436   w1_t[2]  = salt_buf_t0[0];
437   w1_t[3]  = salt_buf_t0[1];
438   w2_t[0]  = salt_buf_t0[2];
439   w2_t[1]  = salt_buf_t0[3];
440
441   // 40..45
442   w2_t[2]  = digest_t0[0];
443   w2_t[3]  = digest_t0[1];
444
445   // 45..61
446   w2_t[3] |= salt_buf_t1[0];
447   w3_t[0]  = salt_buf_t1[1];
448   w3_t[1]  = salt_buf_t1[2];
449   w3_t[2]  = salt_buf_t1[3];
450   w3_t[3]  = salt_buf_t1[4];
451
452   // 61..
453   w3_t[3] |= digest_t1[0];
454
455   md5_transform (w0_t, w1_t, w2_t, w3_t, digest);
456
457   w0_t[0] = 0;
458   w0_t[1] = 0;
459   w0_t[2] = 0;
460   w0_t[3] = 0;
461   w1_t[0] = 0;
462   w1_t[1] = 0;
463   w1_t[2] = 0;
464   w1_t[3] = 0;
465   w2_t[0] = 0;
466   w2_t[1] = 0;
467   w2_t[2] = 0;
468   w2_t[3] = 0;
469   w3_t[0] = 0;
470   w3_t[1] = 0;
471   w3_t[2] = 0;
472   w3_t[3] = 0;
473
474   // 0..2
475   w0_t[0]  = digest_t1[1];
476
477   // 2..18
478   w0_t[0] |= salt_buf_t2[0];
479   w0_t[1]  = salt_buf_t2[1];
480   w0_t[2]  = salt_buf_t2[2];
481   w0_t[3]  = salt_buf_t2[3];
482   w1_t[0]  = salt_buf_t2[4];
483
484   // 18..23
485   w1_t[0] |= digest_t2[0];
486   w1_t[1]  = digest_t2[1];
487
488   // 23..39
489   w1_t[1] |= salt_buf_t3[0];
490   w1_t[2]  = salt_buf_t3[1];
491   w1_t[3]  = salt_buf_t3[2];
492   w2_t[0]  = salt_buf_t3[3];
493   w2_t[1]  = salt_buf_t3[4];
494
495   // 39..44
496   w2_t[1] |= digest_t3[0];
497   w2_t[2]  = digest_t3[1];
498
499   // 44..60
500   w2_t[3]  = salt_buf_t0[0];
501   w3_t[0]  = salt_buf_t0[1];
502   w3_t[1]  = salt_buf_t0[2];
503   w3_t[2]  = salt_buf_t0[3];
504
505   // 60..
506   w3_t[3]  = digest_t0[0];
507
508   md5_transform (w0_t, w1_t, w2_t, w3_t, digest);
509
510   w0_t[0] = 0;
511   w0_t[1] = 0;
512   w0_t[2] = 0;
513   w0_t[3] = 0;
514   w1_t[0] = 0;
515   w1_t[1] = 0;
516   w1_t[2] = 0;
517   w1_t[3] = 0;
518   w2_t[0] = 0;
519   w2_t[1] = 0;
520   w2_t[2] = 0;
521   w2_t[3] = 0;
522   w3_t[0] = 0;
523   w3_t[1] = 0;
524   w3_t[2] = 0;
525   w3_t[3] = 0;
526
527   // 0..1
528   w0_t[0]  = digest_t0[1];
529
530   // 1..17
531   w0_t[0] |= salt_buf_t1[0];
532   w0_t[1]  = salt_buf_t1[1];
533   w0_t[2]  = salt_buf_t1[2];
534   w0_t[3]  = salt_buf_t1[3];
535   w1_t[0]  = salt_buf_t1[4];
536
537   // 17..22
538   w1_t[0] |= digest_t1[0];
539   w1_t[1]  = digest_t1[1];
540
541   // 22..38
542   w1_t[1] |= salt_buf_t2[0];
543   w1_t[2]  = salt_buf_t2[1];
544   w1_t[3]  = salt_buf_t2[2];
545   w2_t[0]  = salt_buf_t2[3];
546   w2_t[1]  = salt_buf_t2[4];
547
548   // 38..43
549   w2_t[1] |= digest_t2[0];
550   w2_t[2]  = digest_t2[1];
551
552   // 43..59
553   w2_t[2] |= salt_buf_t3[0];
554   w2_t[3]  = salt_buf_t3[1];
555   w3_t[0]  = salt_buf_t3[2];
556   w3_t[1]  = salt_buf_t3[3];
557   w3_t[2]  = salt_buf_t3[4];
558
559   // 59..
560   w3_t[2] |= digest_t3[0];
561   w3_t[3]  = digest_t3[1];
562
563   md5_transform (w0_t, w1_t, w2_t, w3_t, digest);
564
565   w0_t[0]  = salt_buf_t0[0];
566   w0_t[1]  = salt_buf_t0[1];
567   w0_t[2]  = salt_buf_t0[2];
568   w0_t[3]  = salt_buf_t0[3];
569   w1_t[0]  = 0x80;
570   w1_t[1]  = 0;
571   w1_t[2]  = 0;
572   w1_t[3]  = 0;
573   w2_t[0]  = 0;
574   w2_t[1]  = 0;
575   w2_t[2]  = 0;
576   w2_t[3]  = 0;
577   w3_t[0]  = 0;
578   w3_t[1]  = 0;
579   w3_t[2]  = 21 * 16 * 8;
580   w3_t[3]  = 0;
581
582   md5_transform (w0_t, w1_t, w2_t, w3_t, digest);
583 }
584
585 __kernel void m09700_m04 (__global pw_t *pws, __global kernel_rule_t *rules_buf, __global comb_t *combs_buf, __global bf_t *bfs_buf, __global void *tmps, __global void *hooks, __global u32 *bitmaps_buf_s1_a, __global u32 *bitmaps_buf_s1_b, __global u32 *bitmaps_buf_s1_c, __global u32 *bitmaps_buf_s1_d, __global u32 *bitmaps_buf_s2_a, __global u32 *bitmaps_buf_s2_b, __global u32 *bitmaps_buf_s2_c, __global u32 *bitmaps_buf_s2_d, __global plain_t *plains_buf, __global digest_t *digests_buf, __global u32 *hashes_shown, __global salt_t *salt_bufs, __global oldoffice01_t *oldoffice01_bufs, __global u32 *d_return_buf, __global u32 *d_scryptV0_buf, __global u32 *d_scryptV1_buf, __global u32 *d_scryptV2_buf, __global u32 *d_scryptV3_buf, const u32 bitmap_mask, const u32 bitmap_shift1, const u32 bitmap_shift2, const u32 salt_pos, const u32 loop_pos, const u32 loop_cnt, const u32 il_cnt, const u32 digests_cnt, const u32 digests_offset, const u32 combs_mode, const u32 gid_max)
586 {
587   /**
588    * modifier
589    */
590
591   const u32 lid = get_local_id (0);
592
593   /**
594    * base
595    */
596
597   const u32 gid = get_global_id (0);
598
599   if (gid >= gid_max) return;
600
601   u32 pw_buf0[4];
602   u32 pw_buf1[4];
603
604   pw_buf0[0] = pws[gid].i[ 0];
605   pw_buf0[1] = pws[gid].i[ 1];
606   pw_buf0[2] = pws[gid].i[ 2];
607   pw_buf0[3] = pws[gid].i[ 3];
608   pw_buf1[0] = pws[gid].i[ 4];
609   pw_buf1[1] = pws[gid].i[ 5];
610   pw_buf1[2] = pws[gid].i[ 6];
611   pw_buf1[3] = pws[gid].i[ 7];
612
613   const u32 pw_len = pws[gid].pw_len;
614
615   /**
616    * shared
617    */
618
619   __local RC4_KEY rc4_keys[64];
620
621   __local RC4_KEY *rc4_key = &rc4_keys[lid];
622
623   /**
624    * salt
625    */
626
627   u32 salt_buf[4];
628
629   salt_buf[0] = salt_bufs[salt_pos].salt_buf[0];
630   salt_buf[1] = salt_bufs[salt_pos].salt_buf[1];
631   salt_buf[2] = salt_bufs[salt_pos].salt_buf[2];
632   salt_buf[3] = salt_bufs[salt_pos].salt_buf[3];
633
634   /**
635    * esalt
636    */
637
638   const u32 version = oldoffice01_bufs[salt_pos].version;
639
640   u32 encryptedVerifier[4];
641
642   encryptedVerifier[0] = oldoffice01_bufs[salt_pos].encryptedVerifier[0];
643   encryptedVerifier[1] = oldoffice01_bufs[salt_pos].encryptedVerifier[1];
644   encryptedVerifier[2] = oldoffice01_bufs[salt_pos].encryptedVerifier[2];
645   encryptedVerifier[3] = oldoffice01_bufs[salt_pos].encryptedVerifier[3];
646
647   /**
648    * loop
649    */
650
651   for (u32 il_pos = 0; il_pos < il_cnt; il_pos += VECT_SIZE)
652   {
653     u32x w0[4] = { 0 };
654     u32x w1[4] = { 0 };
655     u32x w2[4] = { 0 };
656     u32x w3[4] = { 0 };
657
658     const u32x out_len = apply_rules_vect (pw_buf0, pw_buf1, pw_len, rules_buf, il_pos, w0, w1);
659
660     append_0x80_2x4_VV (w0, w1, out_len);
661
662     /**
663      * md5
664      */
665
666     make_unicode (w1, w2, w3);
667     make_unicode (w0, w0, w1);
668
669     w3[2] = out_len * 8 * 2;
670     w3[3] = 0;
671
672     u32 digest_pre[4];
673
674     digest_pre[0] = MD5M_A;
675     digest_pre[1] = MD5M_B;
676     digest_pre[2] = MD5M_C;
677     digest_pre[3] = MD5M_D;
678
679     md5_transform (w0, w1, w2, w3, digest_pre);
680
681     digest_pre[0] &= 0xffffffff;
682     digest_pre[1] &= 0x000000ff;
683     digest_pre[2] &= 0x00000000;
684     digest_pre[3] &= 0x00000000;
685
686     u32 digest[4];
687
688     digest[0] = MD5M_A;
689     digest[1] = MD5M_B;
690     digest[2] = MD5M_C;
691     digest[3] = MD5M_D;
692
693     gen336 (digest_pre, salt_buf, digest);
694
695     // now the 40 bit input for the MD5 which then will generate the RC4 key, so it's precomputable!
696
697     w0[0]  = digest[0];
698     w0[1]  = digest[1] & 0xff;
699     w0[2]  = 0x8000;
700     w0[3]  = 0;
701     w1[0]  = 0;
702     w1[1]  = 0;
703     w1[2]  = 0;
704     w1[3]  = 0;
705     w2[0]  = 0;
706     w2[1]  = 0;
707     w2[2]  = 0;
708     w2[3]  = 0;
709     w3[0]  = 0;
710     w3[1]  = 0;
711     w3[2]  = 9 * 8;
712     w3[3]  = 0;
713
714     digest[0] = MD5M_A;
715     digest[1] = MD5M_B;
716     digest[2] = MD5M_C;
717     digest[3] = MD5M_D;
718
719     md5_transform (w0, w1, w2, w3, digest);
720
721     // now the RC4 part
722
723     u32 key[4];
724
725     key[0] = digest[0];
726     key[1] = digest[1];
727     key[2] = digest[2];
728     key[3] = digest[3];
729
730     rc4_init_16 (rc4_key, key);
731
732     u32 out[4];
733
734     u8 j = rc4_next_16 (rc4_key, 0, 0, encryptedVerifier, out);
735
736     w0[0] = out[0];
737     w0[1] = out[1];
738     w0[2] = out[2];
739     w0[3] = out[3];
740     w1[0] = 0x80;
741     w1[1] = 0;
742     w1[2] = 0;
743     w1[3] = 0;
744     w2[0] = 0;
745     w2[1] = 0;
746     w2[2] = 0;
747     w2[3] = 0;
748     w3[0] = 0;
749     w3[1] = 0;
750     w3[2] = 16 * 8;
751     w3[3] = 0;
752
753     digest[0] = MD5M_A;
754     digest[1] = MD5M_B;
755     digest[2] = MD5M_C;
756     digest[3] = MD5M_D;
757
758     md5_transform (w0, w1, w2, w3, digest);
759
760     rc4_next_16 (rc4_key, 16, j, digest, out);
761
762     COMPARE_M_SIMD (out[0], out[1], out[2], out[3]);
763   }
764 }
765
766 __kernel void m09700_m08 (__global pw_t *pws, __global kernel_rule_t *rules_buf, __global comb_t *combs_buf, __global bf_t *bfs_buf, __global void *tmps, __global void *hooks, __global u32 *bitmaps_buf_s1_a, __global u32 *bitmaps_buf_s1_b, __global u32 *bitmaps_buf_s1_c, __global u32 *bitmaps_buf_s1_d, __global u32 *bitmaps_buf_s2_a, __global u32 *bitmaps_buf_s2_b, __global u32 *bitmaps_buf_s2_c, __global u32 *bitmaps_buf_s2_d, __global plain_t *plains_buf, __global digest_t *digests_buf, __global u32 *hashes_shown, __global salt_t *salt_bufs, __global oldoffice01_t *oldoffice01_bufs, __global u32 *d_return_buf, __global u32 *d_scryptV0_buf, __global u32 *d_scryptV1_buf, __global u32 *d_scryptV2_buf, __global u32 *d_scryptV3_buf, const u32 bitmap_mask, const u32 bitmap_shift1, const u32 bitmap_shift2, const u32 salt_pos, const u32 loop_pos, const u32 loop_cnt, const u32 il_cnt, const u32 digests_cnt, const u32 digests_offset, const u32 combs_mode, const u32 gid_max)
767 {
768 }
769
770 __kernel void m09700_m16 (__global pw_t *pws, __global kernel_rule_t *rules_buf, __global comb_t *combs_buf, __global bf_t *bfs_buf, __global void *tmps, __global void *hooks, __global u32 *bitmaps_buf_s1_a, __global u32 *bitmaps_buf_s1_b, __global u32 *bitmaps_buf_s1_c, __global u32 *bitmaps_buf_s1_d, __global u32 *bitmaps_buf_s2_a, __global u32 *bitmaps_buf_s2_b, __global u32 *bitmaps_buf_s2_c, __global u32 *bitmaps_buf_s2_d, __global plain_t *plains_buf, __global digest_t *digests_buf, __global u32 *hashes_shown, __global salt_t *salt_bufs, __global oldoffice01_t *oldoffice01_bufs, __global u32 *d_return_buf, __global u32 *d_scryptV0_buf, __global u32 *d_scryptV1_buf, __global u32 *d_scryptV2_buf, __global u32 *d_scryptV3_buf, const u32 bitmap_mask, const u32 bitmap_shift1, const u32 bitmap_shift2, const u32 salt_pos, const u32 loop_pos, const u32 loop_cnt, const u32 il_cnt, const u32 digests_cnt, const u32 digests_offset, const u32 combs_mode, const u32 gid_max)
771 {
772 }
773
774 __kernel void m09700_s04 (__global pw_t *pws, __global kernel_rule_t *rules_buf, __global comb_t *combs_buf, __global bf_t *bfs_buf, __global void *tmps, __global void *hooks, __global u32 *bitmaps_buf_s1_a, __global u32 *bitmaps_buf_s1_b, __global u32 *bitmaps_buf_s1_c, __global u32 *bitmaps_buf_s1_d, __global u32 *bitmaps_buf_s2_a, __global u32 *bitmaps_buf_s2_b, __global u32 *bitmaps_buf_s2_c, __global u32 *bitmaps_buf_s2_d, __global plain_t *plains_buf, __global digest_t *digests_buf, __global u32 *hashes_shown, __global salt_t *salt_bufs, __global oldoffice01_t *oldoffice01_bufs, __global u32 *d_return_buf, __global u32 *d_scryptV0_buf, __global u32 *d_scryptV1_buf, __global u32 *d_scryptV2_buf, __global u32 *d_scryptV3_buf, const u32 bitmap_mask, const u32 bitmap_shift1, const u32 bitmap_shift2, const u32 salt_pos, const u32 loop_pos, const u32 loop_cnt, const u32 il_cnt, const u32 digests_cnt, const u32 digests_offset, const u32 combs_mode, const u32 gid_max)
775 {
776   /**
777    * modifier
778    */
779
780   const u32 lid = get_local_id (0);
781
782   /**
783    * base
784    */
785
786   const u32 gid = get_global_id (0);
787
788   if (gid >= gid_max) return;
789
790   u32 pw_buf0[4];
791   u32 pw_buf1[4];
792
793   pw_buf0[0] = pws[gid].i[ 0];
794   pw_buf0[1] = pws[gid].i[ 1];
795   pw_buf0[2] = pws[gid].i[ 2];
796   pw_buf0[3] = pws[gid].i[ 3];
797   pw_buf1[0] = pws[gid].i[ 4];
798   pw_buf1[1] = pws[gid].i[ 5];
799   pw_buf1[2] = pws[gid].i[ 6];
800   pw_buf1[3] = pws[gid].i[ 7];
801
802   const u32 pw_len = pws[gid].pw_len;
803
804   /**
805    * shared
806    */
807
808   __local RC4_KEY rc4_keys[64];
809
810   __local RC4_KEY *rc4_key = &rc4_keys[lid];
811
812   /**
813    * salt
814    */
815
816   u32 salt_buf[4];
817
818   salt_buf[0] = salt_bufs[salt_pos].salt_buf[0];
819   salt_buf[1] = salt_bufs[salt_pos].salt_buf[1];
820   salt_buf[2] = salt_bufs[salt_pos].salt_buf[2];
821   salt_buf[3] = salt_bufs[salt_pos].salt_buf[3];
822
823   /**
824    * esalt
825    */
826
827   const u32 version = oldoffice01_bufs[salt_pos].version;
828
829   u32 encryptedVerifier[4];
830
831   encryptedVerifier[0] = oldoffice01_bufs[salt_pos].encryptedVerifier[0];
832   encryptedVerifier[1] = oldoffice01_bufs[salt_pos].encryptedVerifier[1];
833   encryptedVerifier[2] = oldoffice01_bufs[salt_pos].encryptedVerifier[2];
834   encryptedVerifier[3] = oldoffice01_bufs[salt_pos].encryptedVerifier[3];
835
836   /**
837    * digest
838    */
839
840   const u32 search[4] =
841   {
842     digests_buf[digests_offset].digest_buf[DGST_R0],
843     digests_buf[digests_offset].digest_buf[DGST_R1],
844     digests_buf[digests_offset].digest_buf[DGST_R2],
845     digests_buf[digests_offset].digest_buf[DGST_R3]
846   };
847
848   /**
849    * loop
850    */
851
852   for (u32 il_pos = 0; il_pos < il_cnt; il_pos += VECT_SIZE)
853   {
854     u32x w0[4] = { 0 };
855     u32x w1[4] = { 0 };
856     u32x w2[4] = { 0 };
857     u32x w3[4] = { 0 };
858
859     const u32x out_len = apply_rules_vect (pw_buf0, pw_buf1, pw_len, rules_buf, il_pos, w0, w1);
860
861     append_0x80_2x4_VV (w0, w1, out_len);
862
863     /**
864      * md5
865      */
866
867     make_unicode (w1, w2, w3);
868     make_unicode (w0, w0, w1);
869
870     w3[2] = out_len * 8 * 2;
871     w3[3] = 0;
872
873     u32 digest_pre[4];
874
875     digest_pre[0] = MD5M_A;
876     digest_pre[1] = MD5M_B;
877     digest_pre[2] = MD5M_C;
878     digest_pre[3] = MD5M_D;
879
880     md5_transform (w0, w1, w2, w3, digest_pre);
881
882     digest_pre[0] &= 0xffffffff;
883     digest_pre[1] &= 0x000000ff;
884     digest_pre[2] &= 0x00000000;
885     digest_pre[3] &= 0x00000000;
886
887     u32 digest[4];
888
889     digest[0] = MD5M_A;
890     digest[1] = MD5M_B;
891     digest[2] = MD5M_C;
892     digest[3] = MD5M_D;
893
894     gen336 (digest_pre, salt_buf, digest);
895
896     // now the 40 bit input for the MD5 which then will generate the RC4 key, so it's precomputable!
897
898     w0[0]  = digest[0];
899     w0[1]  = digest[1] & 0xff;
900     w0[2]  = 0x8000;
901     w0[3]  = 0;
902     w1[0]  = 0;
903     w1[1]  = 0;
904     w1[2]  = 0;
905     w1[3]  = 0;
906     w2[0]  = 0;
907     w2[1]  = 0;
908     w2[2]  = 0;
909     w2[3]  = 0;
910     w3[0]  = 0;
911     w3[1]  = 0;
912     w3[2]  = 9 * 8;
913     w3[3]  = 0;
914
915     digest[0] = MD5M_A;
916     digest[1] = MD5M_B;
917     digest[2] = MD5M_C;
918     digest[3] = MD5M_D;
919
920     md5_transform (w0, w1, w2, w3, digest);
921
922     // now the RC4 part
923
924     u32 key[4];
925
926     key[0] = digest[0];
927     key[1] = digest[1];
928     key[2] = digest[2];
929     key[3] = digest[3];
930
931     rc4_init_16 (rc4_key, key);
932
933     u32 out[4];
934
935     u8 j = rc4_next_16 (rc4_key, 0, 0, encryptedVerifier, out);
936
937     w0[0] = out[0];
938     w0[1] = out[1];
939     w0[2] = out[2];
940     w0[3] = out[3];
941     w1[0] = 0x80;
942     w1[1] = 0;
943     w1[2] = 0;
944     w1[3] = 0;
945     w2[0] = 0;
946     w2[1] = 0;
947     w2[2] = 0;
948     w2[3] = 0;
949     w3[0] = 0;
950     w3[1] = 0;
951     w3[2] = 16 * 8;
952     w3[3] = 0;
953
954     digest[0] = MD5M_A;
955     digest[1] = MD5M_B;
956     digest[2] = MD5M_C;
957     digest[3] = MD5M_D;
958
959     md5_transform (w0, w1, w2, w3, digest);
960
961     rc4_next_16 (rc4_key, 16, j, digest, out);
962
963     COMPARE_S_SIMD (out[0], out[1], out[2], out[3]);
964   }
965 }
966
967 __kernel void m09700_s08 (__global pw_t *pws, __global kernel_rule_t *rules_buf, __global comb_t *combs_buf, __global bf_t *bfs_buf, __global void *tmps, __global void *hooks, __global u32 *bitmaps_buf_s1_a, __global u32 *bitmaps_buf_s1_b, __global u32 *bitmaps_buf_s1_c, __global u32 *bitmaps_buf_s1_d, __global u32 *bitmaps_buf_s2_a, __global u32 *bitmaps_buf_s2_b, __global u32 *bitmaps_buf_s2_c, __global u32 *bitmaps_buf_s2_d, __global plain_t *plains_buf, __global digest_t *digests_buf, __global u32 *hashes_shown, __global salt_t *salt_bufs, __global oldoffice01_t *oldoffice01_bufs, __global u32 *d_return_buf, __global u32 *d_scryptV0_buf, __global u32 *d_scryptV1_buf, __global u32 *d_scryptV2_buf, __global u32 *d_scryptV3_buf, const u32 bitmap_mask, const u32 bitmap_shift1, const u32 bitmap_shift2, const u32 salt_pos, const u32 loop_pos, const u32 loop_cnt, const u32 il_cnt, const u32 digests_cnt, const u32 digests_offset, const u32 combs_mode, const u32 gid_max)
968 {
969 }
970
971 __kernel void m09700_s16 (__global pw_t *pws, __global kernel_rule_t *rules_buf, __global comb_t *combs_buf, __global bf_t *bfs_buf, __global void *tmps, __global void *hooks, __global u32 *bitmaps_buf_s1_a, __global u32 *bitmaps_buf_s1_b, __global u32 *bitmaps_buf_s1_c, __global u32 *bitmaps_buf_s1_d, __global u32 *bitmaps_buf_s2_a, __global u32 *bitmaps_buf_s2_b, __global u32 *bitmaps_buf_s2_c, __global u32 *bitmaps_buf_s2_d, __global plain_t *plains_buf, __global digest_t *digests_buf, __global u32 *hashes_shown, __global salt_t *salt_bufs, __global oldoffice01_t *oldoffice01_bufs, __global u32 *d_return_buf, __global u32 *d_scryptV0_buf, __global u32 *d_scryptV1_buf, __global u32 *d_scryptV2_buf, __global u32 *d_scryptV3_buf, const u32 bitmap_mask, const u32 bitmap_shift1, const u32 bitmap_shift2, const u32 salt_pos, const u32 loop_pos, const u32 loop_cnt, const u32 il_cnt, const u32 digests_cnt, const u32 digests_offset, const u32 combs_mode, const u32 gid_max)
972 {
973 }