Added SIMD code for WPA/WPA2
[hashcat.git] / OpenCL / m02500.cl
1 /**
2  * Author......: Jens Steube <jens.steube@gmail.com>
3  * License.....: MIT
4  */
5
6 #define _WPA_
7
8 #define NEW_SIMD_CODE
9
10 #include "include/constants.h"
11 #include "include/kernel_vendor.h"
12
13 #define DGST_R0 0
14 #define DGST_R1 1
15 #define DGST_R2 2
16 #define DGST_R3 3
17
18 #include "include/kernel_functions.c"
19 #include "OpenCL/types_ocl.c"
20 #include "OpenCL/common.c"
21
22 #define COMPARE_S "OpenCL/check_single_comp4.c"
23 #define COMPARE_M "OpenCL/check_multi_comp4.c"
24
25 void md5_transform_S (const u32 w0[4], const u32 w1[4], const u32 w2[4], const u32 w3[4], u32 digest[4])
26 {
27   u32 a = digest[0];
28   u32 b = digest[1];
29   u32 c = digest[2];
30   u32 d = digest[3];
31
32   u32 w0_t = w0[0];
33   u32 w1_t = w0[1];
34   u32 w2_t = w0[2];
35   u32 w3_t = w0[3];
36   u32 w4_t = w1[0];
37   u32 w5_t = w1[1];
38   u32 w6_t = w1[2];
39   u32 w7_t = w1[3];
40   u32 w8_t = w2[0];
41   u32 w9_t = w2[1];
42   u32 wa_t = w2[2];
43   u32 wb_t = w2[3];
44   u32 wc_t = w3[0];
45   u32 wd_t = w3[1];
46   u32 we_t = w3[2];
47   u32 wf_t = w3[3];
48
49   MD5_STEP_S (MD5_Fo, a, b, c, d, w0_t, MD5C00, MD5S00);
50   MD5_STEP_S (MD5_Fo, d, a, b, c, w1_t, MD5C01, MD5S01);
51   MD5_STEP_S (MD5_Fo, c, d, a, b, w2_t, MD5C02, MD5S02);
52   MD5_STEP_S (MD5_Fo, b, c, d, a, w3_t, MD5C03, MD5S03);
53   MD5_STEP_S (MD5_Fo, a, b, c, d, w4_t, MD5C04, MD5S00);
54   MD5_STEP_S (MD5_Fo, d, a, b, c, w5_t, MD5C05, MD5S01);
55   MD5_STEP_S (MD5_Fo, c, d, a, b, w6_t, MD5C06, MD5S02);
56   MD5_STEP_S (MD5_Fo, b, c, d, a, w7_t, MD5C07, MD5S03);
57   MD5_STEP_S (MD5_Fo, a, b, c, d, w8_t, MD5C08, MD5S00);
58   MD5_STEP_S (MD5_Fo, d, a, b, c, w9_t, MD5C09, MD5S01);
59   MD5_STEP_S (MD5_Fo, c, d, a, b, wa_t, MD5C0a, MD5S02);
60   MD5_STEP_S (MD5_Fo, b, c, d, a, wb_t, MD5C0b, MD5S03);
61   MD5_STEP_S (MD5_Fo, a, b, c, d, wc_t, MD5C0c, MD5S00);
62   MD5_STEP_S (MD5_Fo, d, a, b, c, wd_t, MD5C0d, MD5S01);
63   MD5_STEP_S (MD5_Fo, c, d, a, b, we_t, MD5C0e, MD5S02);
64   MD5_STEP_S (MD5_Fo, b, c, d, a, wf_t, MD5C0f, MD5S03);
65
66   MD5_STEP_S (MD5_Go, a, b, c, d, w1_t, MD5C10, MD5S10);
67   MD5_STEP_S (MD5_Go, d, a, b, c, w6_t, MD5C11, MD5S11);
68   MD5_STEP_S (MD5_Go, c, d, a, b, wb_t, MD5C12, MD5S12);
69   MD5_STEP_S (MD5_Go, b, c, d, a, w0_t, MD5C13, MD5S13);
70   MD5_STEP_S (MD5_Go, a, b, c, d, w5_t, MD5C14, MD5S10);
71   MD5_STEP_S (MD5_Go, d, a, b, c, wa_t, MD5C15, MD5S11);
72   MD5_STEP_S (MD5_Go, c, d, a, b, wf_t, MD5C16, MD5S12);
73   MD5_STEP_S (MD5_Go, b, c, d, a, w4_t, MD5C17, MD5S13);
74   MD5_STEP_S (MD5_Go, a, b, c, d, w9_t, MD5C18, MD5S10);
75   MD5_STEP_S (MD5_Go, d, a, b, c, we_t, MD5C19, MD5S11);
76   MD5_STEP_S (MD5_Go, c, d, a, b, w3_t, MD5C1a, MD5S12);
77   MD5_STEP_S (MD5_Go, b, c, d, a, w8_t, MD5C1b, MD5S13);
78   MD5_STEP_S (MD5_Go, a, b, c, d, wd_t, MD5C1c, MD5S10);
79   MD5_STEP_S (MD5_Go, d, a, b, c, w2_t, MD5C1d, MD5S11);
80   MD5_STEP_S (MD5_Go, c, d, a, b, w7_t, MD5C1e, MD5S12);
81   MD5_STEP_S (MD5_Go, b, c, d, a, wc_t, MD5C1f, MD5S13);
82
83   MD5_STEP_S (MD5_H , a, b, c, d, w5_t, MD5C20, MD5S20);
84   MD5_STEP_S (MD5_H , d, a, b, c, w8_t, MD5C21, MD5S21);
85   MD5_STEP_S (MD5_H , c, d, a, b, wb_t, MD5C22, MD5S22);
86   MD5_STEP_S (MD5_H , b, c, d, a, we_t, MD5C23, MD5S23);
87   MD5_STEP_S (MD5_H , a, b, c, d, w1_t, MD5C24, MD5S20);
88   MD5_STEP_S (MD5_H , d, a, b, c, w4_t, MD5C25, MD5S21);
89   MD5_STEP_S (MD5_H , c, d, a, b, w7_t, MD5C26, MD5S22);
90   MD5_STEP_S (MD5_H , b, c, d, a, wa_t, MD5C27, MD5S23);
91   MD5_STEP_S (MD5_H , a, b, c, d, wd_t, MD5C28, MD5S20);
92   MD5_STEP_S (MD5_H , d, a, b, c, w0_t, MD5C29, MD5S21);
93   MD5_STEP_S (MD5_H , c, d, a, b, w3_t, MD5C2a, MD5S22);
94   MD5_STEP_S (MD5_H , b, c, d, a, w6_t, MD5C2b, MD5S23);
95   MD5_STEP_S (MD5_H , a, b, c, d, w9_t, MD5C2c, MD5S20);
96   MD5_STEP_S (MD5_H , d, a, b, c, wc_t, MD5C2d, MD5S21);
97   MD5_STEP_S (MD5_H , c, d, a, b, wf_t, MD5C2e, MD5S22);
98   MD5_STEP_S (MD5_H , b, c, d, a, w2_t, MD5C2f, MD5S23);
99
100   MD5_STEP_S (MD5_I , a, b, c, d, w0_t, MD5C30, MD5S30);
101   MD5_STEP_S (MD5_I , d, a, b, c, w7_t, MD5C31, MD5S31);
102   MD5_STEP_S (MD5_I , c, d, a, b, we_t, MD5C32, MD5S32);
103   MD5_STEP_S (MD5_I , b, c, d, a, w5_t, MD5C33, MD5S33);
104   MD5_STEP_S (MD5_I , a, b, c, d, wc_t, MD5C34, MD5S30);
105   MD5_STEP_S (MD5_I , d, a, b, c, w3_t, MD5C35, MD5S31);
106   MD5_STEP_S (MD5_I , c, d, a, b, wa_t, MD5C36, MD5S32);
107   MD5_STEP_S (MD5_I , b, c, d, a, w1_t, MD5C37, MD5S33);
108   MD5_STEP_S (MD5_I , a, b, c, d, w8_t, MD5C38, MD5S30);
109   MD5_STEP_S (MD5_I , d, a, b, c, wf_t, MD5C39, MD5S31);
110   MD5_STEP_S (MD5_I , c, d, a, b, w6_t, MD5C3a, MD5S32);
111   MD5_STEP_S (MD5_I , b, c, d, a, wd_t, MD5C3b, MD5S33);
112   MD5_STEP_S (MD5_I , a, b, c, d, w4_t, MD5C3c, MD5S30);
113   MD5_STEP_S (MD5_I , d, a, b, c, wb_t, MD5C3d, MD5S31);
114   MD5_STEP_S (MD5_I , c, d, a, b, w2_t, MD5C3e, MD5S32);
115   MD5_STEP_S (MD5_I , b, c, d, a, w9_t, MD5C3f, MD5S33);
116
117   digest[0] += a;
118   digest[1] += b;
119   digest[2] += c;
120   digest[3] += d;
121 }
122
123 void hmac_md5_pad_S (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], u32 ipad[4], u32 opad[4])
124 {
125   w0[0] = w0[0] ^ 0x36363636;
126   w0[1] = w0[1] ^ 0x36363636;
127   w0[2] = w0[2] ^ 0x36363636;
128   w0[3] = w0[3] ^ 0x36363636;
129   w1[0] = w1[0] ^ 0x36363636;
130   w1[1] = w1[1] ^ 0x36363636;
131   w1[2] = w1[2] ^ 0x36363636;
132   w1[3] = w1[3] ^ 0x36363636;
133   w2[0] = w2[0] ^ 0x36363636;
134   w2[1] = w2[1] ^ 0x36363636;
135   w2[2] = w2[2] ^ 0x36363636;
136   w2[3] = w2[3] ^ 0x36363636;
137   w3[0] = w3[0] ^ 0x36363636;
138   w3[1] = w3[1] ^ 0x36363636;
139   w3[2] = w3[2] ^ 0x36363636;
140   w3[3] = w3[3] ^ 0x36363636;
141
142   ipad[0] = MD5M_A;
143   ipad[1] = MD5M_B;
144   ipad[2] = MD5M_C;
145   ipad[3] = MD5M_D;
146
147   md5_transform_S (w0, w1, w2, w3, ipad);
148
149   w0[0] = w0[0] ^ 0x6a6a6a6a;
150   w0[1] = w0[1] ^ 0x6a6a6a6a;
151   w0[2] = w0[2] ^ 0x6a6a6a6a;
152   w0[3] = w0[3] ^ 0x6a6a6a6a;
153   w1[0] = w1[0] ^ 0x6a6a6a6a;
154   w1[1] = w1[1] ^ 0x6a6a6a6a;
155   w1[2] = w1[2] ^ 0x6a6a6a6a;
156   w1[3] = w1[3] ^ 0x6a6a6a6a;
157   w2[0] = w2[0] ^ 0x6a6a6a6a;
158   w2[1] = w2[1] ^ 0x6a6a6a6a;
159   w2[2] = w2[2] ^ 0x6a6a6a6a;
160   w2[3] = w2[3] ^ 0x6a6a6a6a;
161   w3[0] = w3[0] ^ 0x6a6a6a6a;
162   w3[1] = w3[1] ^ 0x6a6a6a6a;
163   w3[2] = w3[2] ^ 0x6a6a6a6a;
164   w3[3] = w3[3] ^ 0x6a6a6a6a;
165
166   opad[0] = MD5M_A;
167   opad[1] = MD5M_B;
168   opad[2] = MD5M_C;
169   opad[3] = MD5M_D;
170
171   md5_transform_S (w0, w1, w2, w3, opad);
172 }
173
174 void hmac_md5_run_S (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], u32 ipad[4], u32 opad[4], u32 digest[4])
175 {
176   digest[0] = ipad[0];
177   digest[1] = ipad[1];
178   digest[2] = ipad[2];
179   digest[3] = ipad[3];
180
181   md5_transform_S (w0, w1, w2, w3, digest);
182
183   w0[0] = digest[0];
184   w0[1] = digest[1];
185   w0[2] = digest[2];
186   w0[3] = digest[3];
187   w1[0] = 0x80;
188   w1[1] = 0;
189   w1[2] = 0;
190   w1[3] = 0;
191   w2[0] = 0;
192   w2[1] = 0;
193   w2[2] = 0;
194   w2[3] = 0;
195   w3[0] = 0;
196   w3[1] = 0;
197   w3[2] = (64 + 16) * 8;
198   w3[3] = 0;
199
200   digest[0] = opad[0];
201   digest[1] = opad[1];
202   digest[2] = opad[2];
203   digest[3] = opad[3];
204
205   md5_transform_S (w0, w1, w2, w3, digest);
206 }
207
208 void sha1_transform_S (const u32 w0[4], const u32 w1[4], const u32 w2[4], const u32 w3[4], u32 digest[5])
209 {
210   u32 A = digest[0];
211   u32 B = digest[1];
212   u32 C = digest[2];
213   u32 D = digest[3];
214   u32 E = digest[4];
215
216   u32 w0_t = w0[0];
217   u32 w1_t = w0[1];
218   u32 w2_t = w0[2];
219   u32 w3_t = w0[3];
220   u32 w4_t = w1[0];
221   u32 w5_t = w1[1];
222   u32 w6_t = w1[2];
223   u32 w7_t = w1[3];
224   u32 w8_t = w2[0];
225   u32 w9_t = w2[1];
226   u32 wa_t = w2[2];
227   u32 wb_t = w2[3];
228   u32 wc_t = w3[0];
229   u32 wd_t = w3[1];
230   u32 we_t = w3[2];
231   u32 wf_t = w3[3];
232
233   #undef K
234   #define K SHA1C00
235
236   SHA1_STEP_S (SHA1_F0o, A, B, C, D, E, w0_t);
237   SHA1_STEP_S (SHA1_F0o, E, A, B, C, D, w1_t);
238   SHA1_STEP_S (SHA1_F0o, D, E, A, B, C, w2_t);
239   SHA1_STEP_S (SHA1_F0o, C, D, E, A, B, w3_t);
240   SHA1_STEP_S (SHA1_F0o, B, C, D, E, A, w4_t);
241   SHA1_STEP_S (SHA1_F0o, A, B, C, D, E, w5_t);
242   SHA1_STEP_S (SHA1_F0o, E, A, B, C, D, w6_t);
243   SHA1_STEP_S (SHA1_F0o, D, E, A, B, C, w7_t);
244   SHA1_STEP_S (SHA1_F0o, C, D, E, A, B, w8_t);
245   SHA1_STEP_S (SHA1_F0o, B, C, D, E, A, w9_t);
246   SHA1_STEP_S (SHA1_F0o, A, B, C, D, E, wa_t);
247   SHA1_STEP_S (SHA1_F0o, E, A, B, C, D, wb_t);
248   SHA1_STEP_S (SHA1_F0o, D, E, A, B, C, wc_t);
249   SHA1_STEP_S (SHA1_F0o, C, D, E, A, B, wd_t);
250   SHA1_STEP_S (SHA1_F0o, B, C, D, E, A, we_t);
251   SHA1_STEP_S (SHA1_F0o, A, B, C, D, E, wf_t);
252   w0_t = rotl32_S ((wd_t ^ w8_t ^ w2_t ^ w0_t), 1u); SHA1_STEP_S (SHA1_F0o, E, A, B, C, D, w0_t);
253   w1_t = rotl32_S ((we_t ^ w9_t ^ w3_t ^ w1_t), 1u); SHA1_STEP_S (SHA1_F0o, D, E, A, B, C, w1_t);
254   w2_t = rotl32_S ((wf_t ^ wa_t ^ w4_t ^ w2_t), 1u); SHA1_STEP_S (SHA1_F0o, C, D, E, A, B, w2_t);
255   w3_t = rotl32_S ((w0_t ^ wb_t ^ w5_t ^ w3_t), 1u); SHA1_STEP_S (SHA1_F0o, B, C, D, E, A, w3_t);
256
257   #undef K
258   #define K SHA1C01
259
260   w4_t = rotl32_S ((w1_t ^ wc_t ^ w6_t ^ w4_t), 1u); SHA1_STEP_S (SHA1_F1, A, B, C, D, E, w4_t);
261   w5_t = rotl32_S ((w2_t ^ wd_t ^ w7_t ^ w5_t), 1u); SHA1_STEP_S (SHA1_F1, E, A, B, C, D, w5_t);
262   w6_t = rotl32_S ((w3_t ^ we_t ^ w8_t ^ w6_t), 1u); SHA1_STEP_S (SHA1_F1, D, E, A, B, C, w6_t);
263   w7_t = rotl32_S ((w4_t ^ wf_t ^ w9_t ^ w7_t), 1u); SHA1_STEP_S (SHA1_F1, C, D, E, A, B, w7_t);
264   w8_t = rotl32_S ((w5_t ^ w0_t ^ wa_t ^ w8_t), 1u); SHA1_STEP_S (SHA1_F1, B, C, D, E, A, w8_t);
265   w9_t = rotl32_S ((w6_t ^ w1_t ^ wb_t ^ w9_t), 1u); SHA1_STEP_S (SHA1_F1, A, B, C, D, E, w9_t);
266   wa_t = rotl32_S ((w7_t ^ w2_t ^ wc_t ^ wa_t), 1u); SHA1_STEP_S (SHA1_F1, E, A, B, C, D, wa_t);
267   wb_t = rotl32_S ((w8_t ^ w3_t ^ wd_t ^ wb_t), 1u); SHA1_STEP_S (SHA1_F1, D, E, A, B, C, wb_t);
268   wc_t = rotl32_S ((w9_t ^ w4_t ^ we_t ^ wc_t), 1u); SHA1_STEP_S (SHA1_F1, C, D, E, A, B, wc_t);
269   wd_t = rotl32_S ((wa_t ^ w5_t ^ wf_t ^ wd_t), 1u); SHA1_STEP_S (SHA1_F1, B, C, D, E, A, wd_t);
270   we_t = rotl32_S ((wb_t ^ w6_t ^ w0_t ^ we_t), 1u); SHA1_STEP_S (SHA1_F1, A, B, C, D, E, we_t);
271   wf_t = rotl32_S ((wc_t ^ w7_t ^ w1_t ^ wf_t), 1u); SHA1_STEP_S (SHA1_F1, E, A, B, C, D, wf_t);
272   w0_t = rotl32_S ((wd_t ^ w8_t ^ w2_t ^ w0_t), 1u); SHA1_STEP_S (SHA1_F1, D, E, A, B, C, w0_t);
273   w1_t = rotl32_S ((we_t ^ w9_t ^ w3_t ^ w1_t), 1u); SHA1_STEP_S (SHA1_F1, C, D, E, A, B, w1_t);
274   w2_t = rotl32_S ((wf_t ^ wa_t ^ w4_t ^ w2_t), 1u); SHA1_STEP_S (SHA1_F1, B, C, D, E, A, w2_t);
275   w3_t = rotl32_S ((w0_t ^ wb_t ^ w5_t ^ w3_t), 1u); SHA1_STEP_S (SHA1_F1, A, B, C, D, E, w3_t);
276   w4_t = rotl32_S ((w1_t ^ wc_t ^ w6_t ^ w4_t), 1u); SHA1_STEP_S (SHA1_F1, E, A, B, C, D, w4_t);
277   w5_t = rotl32_S ((w2_t ^ wd_t ^ w7_t ^ w5_t), 1u); SHA1_STEP_S (SHA1_F1, D, E, A, B, C, w5_t);
278   w6_t = rotl32_S ((w3_t ^ we_t ^ w8_t ^ w6_t), 1u); SHA1_STEP_S (SHA1_F1, C, D, E, A, B, w6_t);
279   w7_t = rotl32_S ((w4_t ^ wf_t ^ w9_t ^ w7_t), 1u); SHA1_STEP_S (SHA1_F1, B, C, D, E, A, w7_t);
280
281   #undef K
282   #define K SHA1C02
283
284   w8_t = rotl32_S ((w5_t ^ w0_t ^ wa_t ^ w8_t), 1u); SHA1_STEP_S (SHA1_F2o, A, B, C, D, E, w8_t);
285   w9_t = rotl32_S ((w6_t ^ w1_t ^ wb_t ^ w9_t), 1u); SHA1_STEP_S (SHA1_F2o, E, A, B, C, D, w9_t);
286   wa_t = rotl32_S ((w7_t ^ w2_t ^ wc_t ^ wa_t), 1u); SHA1_STEP_S (SHA1_F2o, D, E, A, B, C, wa_t);
287   wb_t = rotl32_S ((w8_t ^ w3_t ^ wd_t ^ wb_t), 1u); SHA1_STEP_S (SHA1_F2o, C, D, E, A, B, wb_t);
288   wc_t = rotl32_S ((w9_t ^ w4_t ^ we_t ^ wc_t), 1u); SHA1_STEP_S (SHA1_F2o, B, C, D, E, A, wc_t);
289   wd_t = rotl32_S ((wa_t ^ w5_t ^ wf_t ^ wd_t), 1u); SHA1_STEP_S (SHA1_F2o, A, B, C, D, E, wd_t);
290   we_t = rotl32_S ((wb_t ^ w6_t ^ w0_t ^ we_t), 1u); SHA1_STEP_S (SHA1_F2o, E, A, B, C, D, we_t);
291   wf_t = rotl32_S ((wc_t ^ w7_t ^ w1_t ^ wf_t), 1u); SHA1_STEP_S (SHA1_F2o, D, E, A, B, C, wf_t);
292   w0_t = rotl32_S ((wd_t ^ w8_t ^ w2_t ^ w0_t), 1u); SHA1_STEP_S (SHA1_F2o, C, D, E, A, B, w0_t);
293   w1_t = rotl32_S ((we_t ^ w9_t ^ w3_t ^ w1_t), 1u); SHA1_STEP_S (SHA1_F2o, B, C, D, E, A, w1_t);
294   w2_t = rotl32_S ((wf_t ^ wa_t ^ w4_t ^ w2_t), 1u); SHA1_STEP_S (SHA1_F2o, A, B, C, D, E, w2_t);
295   w3_t = rotl32_S ((w0_t ^ wb_t ^ w5_t ^ w3_t), 1u); SHA1_STEP_S (SHA1_F2o, E, A, B, C, D, w3_t);
296   w4_t = rotl32_S ((w1_t ^ wc_t ^ w6_t ^ w4_t), 1u); SHA1_STEP_S (SHA1_F2o, D, E, A, B, C, w4_t);
297   w5_t = rotl32_S ((w2_t ^ wd_t ^ w7_t ^ w5_t), 1u); SHA1_STEP_S (SHA1_F2o, C, D, E, A, B, w5_t);
298   w6_t = rotl32_S ((w3_t ^ we_t ^ w8_t ^ w6_t), 1u); SHA1_STEP_S (SHA1_F2o, B, C, D, E, A, w6_t);
299   w7_t = rotl32_S ((w4_t ^ wf_t ^ w9_t ^ w7_t), 1u); SHA1_STEP_S (SHA1_F2o, A, B, C, D, E, w7_t);
300   w8_t = rotl32_S ((w5_t ^ w0_t ^ wa_t ^ w8_t), 1u); SHA1_STEP_S (SHA1_F2o, E, A, B, C, D, w8_t);
301   w9_t = rotl32_S ((w6_t ^ w1_t ^ wb_t ^ w9_t), 1u); SHA1_STEP_S (SHA1_F2o, D, E, A, B, C, w9_t);
302   wa_t = rotl32_S ((w7_t ^ w2_t ^ wc_t ^ wa_t), 1u); SHA1_STEP_S (SHA1_F2o, C, D, E, A, B, wa_t);
303   wb_t = rotl32_S ((w8_t ^ w3_t ^ wd_t ^ wb_t), 1u); SHA1_STEP_S (SHA1_F2o, B, C, D, E, A, wb_t);
304
305   #undef K
306   #define K SHA1C03
307
308   wc_t = rotl32_S ((w9_t ^ w4_t ^ we_t ^ wc_t), 1u); SHA1_STEP_S (SHA1_F1, A, B, C, D, E, wc_t);
309   wd_t = rotl32_S ((wa_t ^ w5_t ^ wf_t ^ wd_t), 1u); SHA1_STEP_S (SHA1_F1, E, A, B, C, D, wd_t);
310   we_t = rotl32_S ((wb_t ^ w6_t ^ w0_t ^ we_t), 1u); SHA1_STEP_S (SHA1_F1, D, E, A, B, C, we_t);
311   wf_t = rotl32_S ((wc_t ^ w7_t ^ w1_t ^ wf_t), 1u); SHA1_STEP_S (SHA1_F1, C, D, E, A, B, wf_t);
312   w0_t = rotl32_S ((wd_t ^ w8_t ^ w2_t ^ w0_t), 1u); SHA1_STEP_S (SHA1_F1, B, C, D, E, A, w0_t);
313   w1_t = rotl32_S ((we_t ^ w9_t ^ w3_t ^ w1_t), 1u); SHA1_STEP_S (SHA1_F1, A, B, C, D, E, w1_t);
314   w2_t = rotl32_S ((wf_t ^ wa_t ^ w4_t ^ w2_t), 1u); SHA1_STEP_S (SHA1_F1, E, A, B, C, D, w2_t);
315   w3_t = rotl32_S ((w0_t ^ wb_t ^ w5_t ^ w3_t), 1u); SHA1_STEP_S (SHA1_F1, D, E, A, B, C, w3_t);
316   w4_t = rotl32_S ((w1_t ^ wc_t ^ w6_t ^ w4_t), 1u); SHA1_STEP_S (SHA1_F1, C, D, E, A, B, w4_t);
317   w5_t = rotl32_S ((w2_t ^ wd_t ^ w7_t ^ w5_t), 1u); SHA1_STEP_S (SHA1_F1, B, C, D, E, A, w5_t);
318   w6_t = rotl32_S ((w3_t ^ we_t ^ w8_t ^ w6_t), 1u); SHA1_STEP_S (SHA1_F1, A, B, C, D, E, w6_t);
319   w7_t = rotl32_S ((w4_t ^ wf_t ^ w9_t ^ w7_t), 1u); SHA1_STEP_S (SHA1_F1, E, A, B, C, D, w7_t);
320   w8_t = rotl32_S ((w5_t ^ w0_t ^ wa_t ^ w8_t), 1u); SHA1_STEP_S (SHA1_F1, D, E, A, B, C, w8_t);
321   w9_t = rotl32_S ((w6_t ^ w1_t ^ wb_t ^ w9_t), 1u); SHA1_STEP_S (SHA1_F1, C, D, E, A, B, w9_t);
322   wa_t = rotl32_S ((w7_t ^ w2_t ^ wc_t ^ wa_t), 1u); SHA1_STEP_S (SHA1_F1, B, C, D, E, A, wa_t);
323   wb_t = rotl32_S ((w8_t ^ w3_t ^ wd_t ^ wb_t), 1u); SHA1_STEP_S (SHA1_F1, A, B, C, D, E, wb_t);
324   wc_t = rotl32_S ((w9_t ^ w4_t ^ we_t ^ wc_t), 1u); SHA1_STEP_S (SHA1_F1, E, A, B, C, D, wc_t);
325   wd_t = rotl32_S ((wa_t ^ w5_t ^ wf_t ^ wd_t), 1u); SHA1_STEP_S (SHA1_F1, D, E, A, B, C, wd_t);
326   we_t = rotl32_S ((wb_t ^ w6_t ^ w0_t ^ we_t), 1u); SHA1_STEP_S (SHA1_F1, C, D, E, A, B, we_t);
327   wf_t = rotl32_S ((wc_t ^ w7_t ^ w1_t ^ wf_t), 1u); SHA1_STEP_S (SHA1_F1, B, C, D, E, A, wf_t);
328
329   digest[0] += A;
330   digest[1] += B;
331   digest[2] += C;
332   digest[3] += D;
333   digest[4] += E;
334 }
335
336 void hmac_sha1_pad_S (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], u32 ipad[5], u32 opad[5])
337 {
338   w0[0] = w0[0] ^ 0x36363636;
339   w0[1] = w0[1] ^ 0x36363636;
340   w0[2] = w0[2] ^ 0x36363636;
341   w0[3] = w0[3] ^ 0x36363636;
342   w1[0] = w1[0] ^ 0x36363636;
343   w1[1] = w1[1] ^ 0x36363636;
344   w1[2] = w1[2] ^ 0x36363636;
345   w1[3] = w1[3] ^ 0x36363636;
346   w2[0] = w2[0] ^ 0x36363636;
347   w2[1] = w2[1] ^ 0x36363636;
348   w2[2] = w2[2] ^ 0x36363636;
349   w2[3] = w2[3] ^ 0x36363636;
350   w3[0] = w3[0] ^ 0x36363636;
351   w3[1] = w3[1] ^ 0x36363636;
352   w3[2] = w3[2] ^ 0x36363636;
353   w3[3] = w3[3] ^ 0x36363636;
354
355   ipad[0] = SHA1M_A;
356   ipad[1] = SHA1M_B;
357   ipad[2] = SHA1M_C;
358   ipad[3] = SHA1M_D;
359   ipad[4] = SHA1M_E;
360
361   sha1_transform_S (w0, w1, w2, w3, ipad);
362
363   w0[0] = w0[0] ^ 0x6a6a6a6a;
364   w0[1] = w0[1] ^ 0x6a6a6a6a;
365   w0[2] = w0[2] ^ 0x6a6a6a6a;
366   w0[3] = w0[3] ^ 0x6a6a6a6a;
367   w1[0] = w1[0] ^ 0x6a6a6a6a;
368   w1[1] = w1[1] ^ 0x6a6a6a6a;
369   w1[2] = w1[2] ^ 0x6a6a6a6a;
370   w1[3] = w1[3] ^ 0x6a6a6a6a;
371   w2[0] = w2[0] ^ 0x6a6a6a6a;
372   w2[1] = w2[1] ^ 0x6a6a6a6a;
373   w2[2] = w2[2] ^ 0x6a6a6a6a;
374   w2[3] = w2[3] ^ 0x6a6a6a6a;
375   w3[0] = w3[0] ^ 0x6a6a6a6a;
376   w3[1] = w3[1] ^ 0x6a6a6a6a;
377   w3[2] = w3[2] ^ 0x6a6a6a6a;
378   w3[3] = w3[3] ^ 0x6a6a6a6a;
379
380   opad[0] = SHA1M_A;
381   opad[1] = SHA1M_B;
382   opad[2] = SHA1M_C;
383   opad[3] = SHA1M_D;
384   opad[4] = SHA1M_E;
385
386   sha1_transform_S (w0, w1, w2, w3, opad);
387 }
388
389 void hmac_sha1_run_S (u32 w0[4], u32 w1[4], u32 w2[4], u32 w3[4], u32 ipad[5], u32 opad[5], u32 digest[5])
390 {
391   digest[0] = ipad[0];
392   digest[1] = ipad[1];
393   digest[2] = ipad[2];
394   digest[3] = ipad[3];
395   digest[4] = ipad[4];
396
397   sha1_transform_S (w0, w1, w2, w3, digest);
398
399   w0[0] = digest[0];
400   w0[1] = digest[1];
401   w0[2] = digest[2];
402   w0[3] = digest[3];
403   w1[0] = digest[4];
404   w1[1] = 0x80000000;
405   w1[2] = 0;
406   w1[3] = 0;
407   w2[0] = 0;
408   w2[1] = 0;
409   w2[2] = 0;
410   w2[3] = 0;
411   w3[0] = 0;
412   w3[1] = 0;
413   w3[2] = 0;
414   w3[3] = (64 + 20) * 8;
415
416   digest[0] = opad[0];
417   digest[1] = opad[1];
418   digest[2] = opad[2];
419   digest[3] = opad[3];
420   digest[4] = opad[4];
421
422   sha1_transform_S (w0, w1, w2, w3, digest);
423 }
424
425 void sha1_transform_V (const u32x w0[4], const u32x w1[4], const u32x w2[4], const u32x w3[4], u32x digest[5])
426 {
427   u32x A = digest[0];
428   u32x B = digest[1];
429   u32x C = digest[2];
430   u32x D = digest[3];
431   u32x E = digest[4];
432
433   u32x w0_t = w0[0];
434   u32x w1_t = w0[1];
435   u32x w2_t = w0[2];
436   u32x w3_t = w0[3];
437   u32x w4_t = w1[0];
438   u32x w5_t = w1[1];
439   u32x w6_t = w1[2];
440   u32x w7_t = w1[3];
441   u32x w8_t = w2[0];
442   u32x w9_t = w2[1];
443   u32x wa_t = w2[2];
444   u32x wb_t = w2[3];
445   u32x wc_t = w3[0];
446   u32x wd_t = w3[1];
447   u32x we_t = w3[2];
448   u32x wf_t = w3[3];
449
450   #undef K
451   #define K SHA1C00
452
453   SHA1_STEP (SHA1_F0o, A, B, C, D, E, w0_t);
454   SHA1_STEP (SHA1_F0o, E, A, B, C, D, w1_t);
455   SHA1_STEP (SHA1_F0o, D, E, A, B, C, w2_t);
456   SHA1_STEP (SHA1_F0o, C, D, E, A, B, w3_t);
457   SHA1_STEP (SHA1_F0o, B, C, D, E, A, w4_t);
458   SHA1_STEP (SHA1_F0o, A, B, C, D, E, w5_t);
459   SHA1_STEP (SHA1_F0o, E, A, B, C, D, w6_t);
460   SHA1_STEP (SHA1_F0o, D, E, A, B, C, w7_t);
461   SHA1_STEP (SHA1_F0o, C, D, E, A, B, w8_t);
462   SHA1_STEP (SHA1_F0o, B, C, D, E, A, w9_t);
463   SHA1_STEP (SHA1_F0o, A, B, C, D, E, wa_t);
464   SHA1_STEP (SHA1_F0o, E, A, B, C, D, wb_t);
465   SHA1_STEP (SHA1_F0o, D, E, A, B, C, wc_t);
466   SHA1_STEP (SHA1_F0o, C, D, E, A, B, wd_t);
467   SHA1_STEP (SHA1_F0o, B, C, D, E, A, we_t);
468   SHA1_STEP (SHA1_F0o, A, B, C, D, E, wf_t);
469   w0_t = rotl32 ((wd_t ^ w8_t ^ w2_t ^ w0_t), 1u); SHA1_STEP (SHA1_F0o, E, A, B, C, D, w0_t);
470   w1_t = rotl32 ((we_t ^ w9_t ^ w3_t ^ w1_t), 1u); SHA1_STEP (SHA1_F0o, D, E, A, B, C, w1_t);
471   w2_t = rotl32 ((wf_t ^ wa_t ^ w4_t ^ w2_t), 1u); SHA1_STEP (SHA1_F0o, C, D, E, A, B, w2_t);
472   w3_t = rotl32 ((w0_t ^ wb_t ^ w5_t ^ w3_t), 1u); SHA1_STEP (SHA1_F0o, B, C, D, E, A, w3_t);
473
474   #undef K
475   #define K SHA1C01
476
477   w4_t = rotl32 ((w1_t ^ wc_t ^ w6_t ^ w4_t), 1u); SHA1_STEP (SHA1_F1, A, B, C, D, E, w4_t);
478   w5_t = rotl32 ((w2_t ^ wd_t ^ w7_t ^ w5_t), 1u); SHA1_STEP (SHA1_F1, E, A, B, C, D, w5_t);
479   w6_t = rotl32 ((w3_t ^ we_t ^ w8_t ^ w6_t), 1u); SHA1_STEP (SHA1_F1, D, E, A, B, C, w6_t);
480   w7_t = rotl32 ((w4_t ^ wf_t ^ w9_t ^ w7_t), 1u); SHA1_STEP (SHA1_F1, C, D, E, A, B, w7_t);
481   w8_t = rotl32 ((w5_t ^ w0_t ^ wa_t ^ w8_t), 1u); SHA1_STEP (SHA1_F1, B, C, D, E, A, w8_t);
482   w9_t = rotl32 ((w6_t ^ w1_t ^ wb_t ^ w9_t), 1u); SHA1_STEP (SHA1_F1, A, B, C, D, E, w9_t);
483   wa_t = rotl32 ((w7_t ^ w2_t ^ wc_t ^ wa_t), 1u); SHA1_STEP (SHA1_F1, E, A, B, C, D, wa_t);
484   wb_t = rotl32 ((w8_t ^ w3_t ^ wd_t ^ wb_t), 1u); SHA1_STEP (SHA1_F1, D, E, A, B, C, wb_t);
485   wc_t = rotl32 ((w9_t ^ w4_t ^ we_t ^ wc_t), 1u); SHA1_STEP (SHA1_F1, C, D, E, A, B, wc_t);
486   wd_t = rotl32 ((wa_t ^ w5_t ^ wf_t ^ wd_t), 1u); SHA1_STEP (SHA1_F1, B, C, D, E, A, wd_t);
487   we_t = rotl32 ((wb_t ^ w6_t ^ w0_t ^ we_t), 1u); SHA1_STEP (SHA1_F1, A, B, C, D, E, we_t);
488   wf_t = rotl32 ((wc_t ^ w7_t ^ w1_t ^ wf_t), 1u); SHA1_STEP (SHA1_F1, E, A, B, C, D, wf_t);
489   w0_t = rotl32 ((wd_t ^ w8_t ^ w2_t ^ w0_t), 1u); SHA1_STEP (SHA1_F1, D, E, A, B, C, w0_t);
490   w1_t = rotl32 ((we_t ^ w9_t ^ w3_t ^ w1_t), 1u); SHA1_STEP (SHA1_F1, C, D, E, A, B, w1_t);
491   w2_t = rotl32 ((wf_t ^ wa_t ^ w4_t ^ w2_t), 1u); SHA1_STEP (SHA1_F1, B, C, D, E, A, w2_t);
492   w3_t = rotl32 ((w0_t ^ wb_t ^ w5_t ^ w3_t), 1u); SHA1_STEP (SHA1_F1, A, B, C, D, E, w3_t);
493   w4_t = rotl32 ((w1_t ^ wc_t ^ w6_t ^ w4_t), 1u); SHA1_STEP (SHA1_F1, E, A, B, C, D, w4_t);
494   w5_t = rotl32 ((w2_t ^ wd_t ^ w7_t ^ w5_t), 1u); SHA1_STEP (SHA1_F1, D, E, A, B, C, w5_t);
495   w6_t = rotl32 ((w3_t ^ we_t ^ w8_t ^ w6_t), 1u); SHA1_STEP (SHA1_F1, C, D, E, A, B, w6_t);
496   w7_t = rotl32 ((w4_t ^ wf_t ^ w9_t ^ w7_t), 1u); SHA1_STEP (SHA1_F1, B, C, D, E, A, w7_t);
497
498   #undef K
499   #define K SHA1C02
500
501   w8_t = rotl32 ((w5_t ^ w0_t ^ wa_t ^ w8_t), 1u); SHA1_STEP (SHA1_F2o, A, B, C, D, E, w8_t);
502   w9_t = rotl32 ((w6_t ^ w1_t ^ wb_t ^ w9_t), 1u); SHA1_STEP (SHA1_F2o, E, A, B, C, D, w9_t);
503   wa_t = rotl32 ((w7_t ^ w2_t ^ wc_t ^ wa_t), 1u); SHA1_STEP (SHA1_F2o, D, E, A, B, C, wa_t);
504   wb_t = rotl32 ((w8_t ^ w3_t ^ wd_t ^ wb_t), 1u); SHA1_STEP (SHA1_F2o, C, D, E, A, B, wb_t);
505   wc_t = rotl32 ((w9_t ^ w4_t ^ we_t ^ wc_t), 1u); SHA1_STEP (SHA1_F2o, B, C, D, E, A, wc_t);
506   wd_t = rotl32 ((wa_t ^ w5_t ^ wf_t ^ wd_t), 1u); SHA1_STEP (SHA1_F2o, A, B, C, D, E, wd_t);
507   we_t = rotl32 ((wb_t ^ w6_t ^ w0_t ^ we_t), 1u); SHA1_STEP (SHA1_F2o, E, A, B, C, D, we_t);
508   wf_t = rotl32 ((wc_t ^ w7_t ^ w1_t ^ wf_t), 1u); SHA1_STEP (SHA1_F2o, D, E, A, B, C, wf_t);
509   w0_t = rotl32 ((wd_t ^ w8_t ^ w2_t ^ w0_t), 1u); SHA1_STEP (SHA1_F2o, C, D, E, A, B, w0_t);
510   w1_t = rotl32 ((we_t ^ w9_t ^ w3_t ^ w1_t), 1u); SHA1_STEP (SHA1_F2o, B, C, D, E, A, w1_t);
511   w2_t = rotl32 ((wf_t ^ wa_t ^ w4_t ^ w2_t), 1u); SHA1_STEP (SHA1_F2o, A, B, C, D, E, w2_t);
512   w3_t = rotl32 ((w0_t ^ wb_t ^ w5_t ^ w3_t), 1u); SHA1_STEP (SHA1_F2o, E, A, B, C, D, w3_t);
513   w4_t = rotl32 ((w1_t ^ wc_t ^ w6_t ^ w4_t), 1u); SHA1_STEP (SHA1_F2o, D, E, A, B, C, w4_t);
514   w5_t = rotl32 ((w2_t ^ wd_t ^ w7_t ^ w5_t), 1u); SHA1_STEP (SHA1_F2o, C, D, E, A, B, w5_t);
515   w6_t = rotl32 ((w3_t ^ we_t ^ w8_t ^ w6_t), 1u); SHA1_STEP (SHA1_F2o, B, C, D, E, A, w6_t);
516   w7_t = rotl32 ((w4_t ^ wf_t ^ w9_t ^ w7_t), 1u); SHA1_STEP (SHA1_F2o, A, B, C, D, E, w7_t);
517   w8_t = rotl32 ((w5_t ^ w0_t ^ wa_t ^ w8_t), 1u); SHA1_STEP (SHA1_F2o, E, A, B, C, D, w8_t);
518   w9_t = rotl32 ((w6_t ^ w1_t ^ wb_t ^ w9_t), 1u); SHA1_STEP (SHA1_F2o, D, E, A, B, C, w9_t);
519   wa_t = rotl32 ((w7_t ^ w2_t ^ wc_t ^ wa_t), 1u); SHA1_STEP (SHA1_F2o, C, D, E, A, B, wa_t);
520   wb_t = rotl32 ((w8_t ^ w3_t ^ wd_t ^ wb_t), 1u); SHA1_STEP (SHA1_F2o, B, C, D, E, A, wb_t);
521
522   #undef K
523   #define K SHA1C03
524
525   wc_t = rotl32 ((w9_t ^ w4_t ^ we_t ^ wc_t), 1u); SHA1_STEP (SHA1_F1, A, B, C, D, E, wc_t);
526   wd_t = rotl32 ((wa_t ^ w5_t ^ wf_t ^ wd_t), 1u); SHA1_STEP (SHA1_F1, E, A, B, C, D, wd_t);
527   we_t = rotl32 ((wb_t ^ w6_t ^ w0_t ^ we_t), 1u); SHA1_STEP (SHA1_F1, D, E, A, B, C, we_t);
528   wf_t = rotl32 ((wc_t ^ w7_t ^ w1_t ^ wf_t), 1u); SHA1_STEP (SHA1_F1, C, D, E, A, B, wf_t);
529   w0_t = rotl32 ((wd_t ^ w8_t ^ w2_t ^ w0_t), 1u); SHA1_STEP (SHA1_F1, B, C, D, E, A, w0_t);
530   w1_t = rotl32 ((we_t ^ w9_t ^ w3_t ^ w1_t), 1u); SHA1_STEP (SHA1_F1, A, B, C, D, E, w1_t);
531   w2_t = rotl32 ((wf_t ^ wa_t ^ w4_t ^ w2_t), 1u); SHA1_STEP (SHA1_F1, E, A, B, C, D, w2_t);
532   w3_t = rotl32 ((w0_t ^ wb_t ^ w5_t ^ w3_t), 1u); SHA1_STEP (SHA1_F1, D, E, A, B, C, w3_t);
533   w4_t = rotl32 ((w1_t ^ wc_t ^ w6_t ^ w4_t), 1u); SHA1_STEP (SHA1_F1, C, D, E, A, B, w4_t);
534   w5_t = rotl32 ((w2_t ^ wd_t ^ w7_t ^ w5_t), 1u); SHA1_STEP (SHA1_F1, B, C, D, E, A, w5_t);
535   w6_t = rotl32 ((w3_t ^ we_t ^ w8_t ^ w6_t), 1u); SHA1_STEP (SHA1_F1, A, B, C, D, E, w6_t);
536   w7_t = rotl32 ((w4_t ^ wf_t ^ w9_t ^ w7_t), 1u); SHA1_STEP (SHA1_F1, E, A, B, C, D, w7_t);
537   w8_t = rotl32 ((w5_t ^ w0_t ^ wa_t ^ w8_t), 1u); SHA1_STEP (SHA1_F1, D, E, A, B, C, w8_t);
538   w9_t = rotl32 ((w6_t ^ w1_t ^ wb_t ^ w9_t), 1u); SHA1_STEP (SHA1_F1, C, D, E, A, B, w9_t);
539   wa_t = rotl32 ((w7_t ^ w2_t ^ wc_t ^ wa_t), 1u); SHA1_STEP (SHA1_F1, B, C, D, E, A, wa_t);
540   wb_t = rotl32 ((w8_t ^ w3_t ^ wd_t ^ wb_t), 1u); SHA1_STEP (SHA1_F1, A, B, C, D, E, wb_t);
541   wc_t = rotl32 ((w9_t ^ w4_t ^ we_t ^ wc_t), 1u); SHA1_STEP (SHA1_F1, E, A, B, C, D, wc_t);
542   wd_t = rotl32 ((wa_t ^ w5_t ^ wf_t ^ wd_t), 1u); SHA1_STEP (SHA1_F1, D, E, A, B, C, wd_t);
543   we_t = rotl32 ((wb_t ^ w6_t ^ w0_t ^ we_t), 1u); SHA1_STEP (SHA1_F1, C, D, E, A, B, we_t);
544   wf_t = rotl32 ((wc_t ^ w7_t ^ w1_t ^ wf_t), 1u); SHA1_STEP (SHA1_F1, B, C, D, E, A, wf_t);
545
546   digest[0] += A;
547   digest[1] += B;
548   digest[2] += C;
549   digest[3] += D;
550   digest[4] += E;
551 }
552
553 void hmac_sha1_run_V (u32x w0[4], u32x w1[4], u32x w2[4], u32x w3[4], u32x ipad[5], u32x opad[5], u32x digest[5])
554 {
555   digest[0] = ipad[0];
556   digest[1] = ipad[1];
557   digest[2] = ipad[2];
558   digest[3] = ipad[3];
559   digest[4] = ipad[4];
560
561   sha1_transform_V (w0, w1, w2, w3, digest);
562
563   w0[0] = digest[0];
564   w0[1] = digest[1];
565   w0[2] = digest[2];
566   w0[3] = digest[3];
567   w1[0] = digest[4];
568   w1[1] = 0x80000000;
569   w1[2] = 0;
570   w1[3] = 0;
571   w2[0] = 0;
572   w2[1] = 0;
573   w2[2] = 0;
574   w2[3] = 0;
575   w3[0] = 0;
576   w3[1] = 0;
577   w3[2] = 0;
578   w3[3] = (64 + 20) * 8;
579
580   digest[0] = opad[0];
581   digest[1] = opad[1];
582   digest[2] = opad[2];
583   digest[3] = opad[3];
584   digest[4] = opad[4];
585
586   sha1_transform_V (w0, w1, w2, w3, digest);
587 }
588
589 __kernel void m02500_init (__global pw_t *pws, __global kernel_rule_t *rules_buf, __global comb_t *combs_buf, __global bf_t *bfs_buf, __global wpa_tmp_t *tmps, __global void *hooks, __global u32 *bitmaps_buf_s1_a, __global u32 *bitmaps_buf_s1_b, __global u32 *bitmaps_buf_s1_c, __global u32 *bitmaps_buf_s1_d, __global u32 *bitmaps_buf_s2_a, __global u32 *bitmaps_buf_s2_b, __global u32 *bitmaps_buf_s2_c, __global u32 *bitmaps_buf_s2_d, __global plain_t *plains_buf, __global digest_t *digests_buf, __global u32 *hashes_shown, __global salt_t *salt_bufs, __global wpa_t *wpa_bufs, __global u32 *d_return_buf, __global u32 *d_scryptV_buf, const u32 bitmap_mask, const u32 bitmap_shift1, const u32 bitmap_shift2, const u32 salt_pos, const u32 loop_pos, const u32 loop_cnt, const u32 il_cnt, const u32 digests_cnt, const u32 digests_offset, const u32 combs_mode, const u32 gid_max)
590 {
591   /**
592    * base
593    */
594
595   const u32 gid = get_global_id (0);
596
597   if (gid >= gid_max) return;
598
599   u32 w0[4];
600
601   w0[0] = pws[gid].i[ 0];
602   w0[1] = pws[gid].i[ 1];
603   w0[2] = pws[gid].i[ 2];
604   w0[3] = pws[gid].i[ 3];
605
606   u32 w1[4];
607
608   w1[0] = pws[gid].i[ 4];
609   w1[1] = pws[gid].i[ 5];
610   w1[2] = pws[gid].i[ 6];
611   w1[3] = pws[gid].i[ 7];
612
613   u32 w2[4];
614
615   w2[0] = pws[gid].i[ 8];
616   w2[1] = pws[gid].i[ 9];
617   w2[2] = pws[gid].i[10];
618   w2[3] = pws[gid].i[11];
619
620   u32 w3[4];
621
622   w3[0] = pws[gid].i[12];
623   w3[1] = pws[gid].i[13];
624   w3[2] = pws[gid].i[14];
625   w3[3] = pws[gid].i[15];
626
627   /**
628    * salt
629    */
630
631   u32 salt_len = salt_bufs[salt_pos].salt_len;
632
633   u32 salt_buf0[4];
634   u32 salt_buf1[4];
635
636   salt_buf0[0] = salt_bufs[salt_pos].salt_buf[0];
637   salt_buf0[1] = salt_bufs[salt_pos].salt_buf[1];
638   salt_buf0[2] = salt_bufs[salt_pos].salt_buf[2];
639   salt_buf0[3] = salt_bufs[salt_pos].salt_buf[3];
640   salt_buf1[0] = salt_bufs[salt_pos].salt_buf[4];
641   salt_buf1[1] = salt_bufs[salt_pos].salt_buf[5];
642   salt_buf1[2] = salt_bufs[salt_pos].salt_buf[6];
643   salt_buf1[3] = salt_bufs[salt_pos].salt_buf[7];
644
645   /**
646    * pads
647    */
648
649   w0[0] = swap32_S (w0[0]);
650   w0[1] = swap32_S (w0[1]);
651   w0[2] = swap32_S (w0[2]);
652   w0[3] = swap32_S (w0[3]);
653   w1[0] = swap32_S (w1[0]);
654   w1[1] = swap32_S (w1[1]);
655   w1[2] = swap32_S (w1[2]);
656   w1[3] = swap32_S (w1[3]);
657   w2[0] = swap32_S (w2[0]);
658   w2[1] = swap32_S (w2[1]);
659   w2[2] = swap32_S (w2[2]);
660   w2[3] = swap32_S (w2[3]);
661   w3[0] = swap32_S (w3[0]);
662   w3[1] = swap32_S (w3[1]);
663   w3[2] = swap32_S (w3[2]);
664   w3[3] = swap32_S (w3[3]);
665
666   u32 ipad[5];
667   u32 opad[5];
668
669   hmac_sha1_pad_S (w0, w1, w2, w3, ipad, opad);
670
671   tmps[gid].ipad[0] = ipad[0];
672   tmps[gid].ipad[1] = ipad[1];
673   tmps[gid].ipad[2] = ipad[2];
674   tmps[gid].ipad[3] = ipad[3];
675   tmps[gid].ipad[4] = ipad[4];
676
677   tmps[gid].opad[0] = opad[0];
678   tmps[gid].opad[1] = opad[1];
679   tmps[gid].opad[2] = opad[2];
680   tmps[gid].opad[3] = opad[3];
681   tmps[gid].opad[4] = opad[4];
682
683   for (u32 i = 0, j = 1; i < 8; i += 5, j += 1)
684   {
685     w0[0] = salt_buf0[0];
686     w0[1] = salt_buf0[1];
687     w0[2] = salt_buf0[2];
688     w0[3] = salt_buf0[3];
689     w1[0] = salt_buf1[0];
690     w1[1] = salt_buf1[1];
691     w1[2] = salt_buf1[2];
692     w1[3] = salt_buf1[3];
693     w2[0] = 0;
694     w2[1] = 0;
695     w2[2] = 0;
696     w2[3] = 0;
697     w3[0] = 0;
698     w3[1] = 0;
699     w3[2] = 0;
700     w3[3] = 0;
701
702     if (j == 1)
703       append_0x01_3x4_S (w0, w1, w2, salt_len + 3);
704     else
705       append_0x02_3x4_S (w0, w1, w2, salt_len + 3);
706
707     append_0x80_3x4_S (w0, w1, w2, salt_len + 4);
708
709     w0[0] = swap32_S (w0[0]);
710     w0[1] = swap32_S (w0[1]);
711     w0[2] = swap32_S (w0[2]);
712     w0[3] = swap32_S (w0[3]);
713     w1[0] = swap32_S (w1[0]);
714     w1[1] = swap32_S (w1[1]);
715     w1[2] = swap32_S (w1[2]);
716     w1[3] = swap32_S (w1[3]);
717     w2[0] = swap32_S (w2[0]);
718     w2[1] = swap32_S (w2[1]);
719     w2[2] = 0;
720     w2[3] = 0;
721     w3[0] = 0;
722     w3[1] = 0;
723     w3[2] = 0;
724     w3[3] = (64 + salt_len + 4) * 8;
725
726     u32 dgst[5];
727
728     hmac_sha1_run_S (w0, w1, w2, w3, ipad, opad, dgst);
729
730     tmps[gid].dgst[i + 0] = dgst[0];
731     tmps[gid].dgst[i + 1] = dgst[1];
732     tmps[gid].dgst[i + 2] = dgst[2];
733     tmps[gid].dgst[i + 3] = dgst[3];
734     tmps[gid].dgst[i + 4] = dgst[4];
735
736     tmps[gid].out[i + 0] = dgst[0];
737     tmps[gid].out[i + 1] = dgst[1];
738     tmps[gid].out[i + 2] = dgst[2];
739     tmps[gid].out[i + 3] = dgst[3];
740     tmps[gid].out[i + 4] = dgst[4];
741   }
742 }
743
744 __kernel void m02500_loop (__global pw_t *pws, __global kernel_rule_t *rules_buf, __global comb_t *combs_buf, __global bf_t *bfs_buf, __global wpa_tmp_t *tmps, __global void *hooks, __global u32 *bitmaps_buf_s1_a, __global u32 *bitmaps_buf_s1_b, __global u32 *bitmaps_buf_s1_c, __global u32 *bitmaps_buf_s1_d, __global u32 *bitmaps_buf_s2_a, __global u32 *bitmaps_buf_s2_b, __global u32 *bitmaps_buf_s2_c, __global u32 *bitmaps_buf_s2_d, __global plain_t *plains_buf, __global digest_t *digests_buf, __global u32 *hashes_shown, __global salt_t *salt_bufs, __global wpa_t *wpa_bufs, __global u32 *d_return_buf, __global u32 *d_scryptV_buf, const u32 bitmap_mask, const u32 bitmap_shift1, const u32 bitmap_shift2, const u32 salt_pos, const u32 loop_pos, const u32 loop_cnt, const u32 il_cnt, const u32 digests_cnt, const u32 digests_offset, const u32 combs_mode, const u32 gid_max)
745 {
746   const u32 gid = get_global_id (0);
747
748   if (gid >= gid_max) return;
749
750   u32x ipad[5];
751   u32x opad[5];
752
753   #if VECT_SIZE == 1
754
755   ipad[0] = tmps[gid].ipad[0];
756   ipad[1] = tmps[gid].ipad[1];
757   ipad[2] = tmps[gid].ipad[2];
758   ipad[3] = tmps[gid].ipad[3];
759   ipad[4] = tmps[gid].ipad[4];
760
761   opad[0] = tmps[gid].opad[0];
762   opad[1] = tmps[gid].opad[1];
763   opad[2] = tmps[gid].opad[2];
764   opad[3] = tmps[gid].opad[3];
765   opad[4] = tmps[gid].opad[4];
766
767   #else
768
769   const u32 gidx = gid * VECT_SIZE;
770
771   #if VECT_SIZE >= 2
772
773   if ((gidx + 0) < gid_max)
774   {
775     ipad[0].s0 = tmps[gidx + 0].ipad[0];
776     ipad[1].s0 = tmps[gidx + 0].ipad[1];
777     ipad[2].s0 = tmps[gidx + 0].ipad[2];
778     ipad[3].s0 = tmps[gidx + 0].ipad[3];
779     ipad[4].s0 = tmps[gidx + 0].ipad[4];
780
781     opad[0].s0 = tmps[gidx + 0].opad[0];
782     opad[1].s0 = tmps[gidx + 0].opad[1];
783     opad[2].s0 = tmps[gidx + 0].opad[2];
784     opad[3].s0 = tmps[gidx + 0].opad[3];
785     opad[4].s0 = tmps[gidx + 0].opad[4];
786   }
787
788   if ((gidx + 1) < gid_max)
789   {
790     ipad[0].s1 = tmps[gidx + 1].ipad[0];
791     ipad[1].s1 = tmps[gidx + 1].ipad[1];
792     ipad[2].s1 = tmps[gidx + 1].ipad[2];
793     ipad[3].s1 = tmps[gidx + 1].ipad[3];
794     ipad[4].s1 = tmps[gidx + 1].ipad[4];
795
796     opad[0].s1 = tmps[gidx + 1].opad[0];
797     opad[1].s1 = tmps[gidx + 1].opad[1];
798     opad[2].s1 = tmps[gidx + 1].opad[2];
799     opad[3].s1 = tmps[gidx + 1].opad[3];
800     opad[4].s1 = tmps[gidx + 1].opad[4];
801   }
802
803   #endif
804
805   #if VECT_SIZE >= 4
806
807   if ((gidx + 2) < gid_max)
808   {
809     ipad[0].s2 = tmps[gidx + 2].ipad[0];
810     ipad[1].s2 = tmps[gidx + 2].ipad[1];
811     ipad[2].s2 = tmps[gidx + 2].ipad[2];
812     ipad[3].s2 = tmps[gidx + 2].ipad[3];
813     ipad[4].s2 = tmps[gidx + 2].ipad[4];
814
815     opad[0].s2 = tmps[gidx + 2].opad[0];
816     opad[1].s2 = tmps[gidx + 2].opad[1];
817     opad[2].s2 = tmps[gidx + 2].opad[2];
818     opad[3].s2 = tmps[gidx + 2].opad[3];
819     opad[4].s2 = tmps[gidx + 2].opad[4];
820   }
821
822   if ((gidx + 3) < gid_max)
823   {
824     ipad[0].s3 = tmps[gidx + 3].ipad[0];
825     ipad[1].s3 = tmps[gidx + 3].ipad[1];
826     ipad[2].s3 = tmps[gidx + 3].ipad[2];
827     ipad[3].s3 = tmps[gidx + 3].ipad[3];
828     ipad[4].s3 = tmps[gidx + 3].ipad[4];
829
830     opad[0].s3 = tmps[gidx + 3].opad[0];
831     opad[1].s3 = tmps[gidx + 3].opad[1];
832     opad[2].s3 = tmps[gidx + 3].opad[2];
833     opad[3].s3 = tmps[gidx + 3].opad[3];
834     opad[4].s3 = tmps[gidx + 3].opad[4];
835   }
836
837   #endif
838
839   #if VECT_SIZE >= 8
840
841   if ((gidx + 4) < gid_max)
842   {
843     ipad[0].s4 = tmps[gidx + 4].ipad[0];
844     ipad[1].s4 = tmps[gidx + 4].ipad[1];
845     ipad[2].s4 = tmps[gidx + 4].ipad[2];
846     ipad[3].s4 = tmps[gidx + 4].ipad[3];
847     ipad[4].s4 = tmps[gidx + 4].ipad[4];
848
849     opad[0].s4 = tmps[gidx + 4].opad[0];
850     opad[1].s4 = tmps[gidx + 4].opad[1];
851     opad[2].s4 = tmps[gidx + 4].opad[2];
852     opad[3].s4 = tmps[gidx + 4].opad[3];
853     opad[4].s4 = tmps[gidx + 4].opad[4];
854   }
855
856   if ((gidx + 5) < gid_max)
857   {
858     ipad[0].s5 = tmps[gidx + 5].ipad[0];
859     ipad[1].s5 = tmps[gidx + 5].ipad[1];
860     ipad[2].s5 = tmps[gidx + 5].ipad[2];
861     ipad[3].s5 = tmps[gidx + 5].ipad[3];
862     ipad[4].s5 = tmps[gidx + 5].ipad[4];
863
864     opad[0].s5 = tmps[gidx + 5].opad[0];
865     opad[1].s5 = tmps[gidx + 5].opad[1];
866     opad[2].s5 = tmps[gidx + 5].opad[2];
867     opad[3].s5 = tmps[gidx + 5].opad[3];
868     opad[4].s5 = tmps[gidx + 5].opad[4];
869   }
870
871   if ((gidx + 6) < gid_max)
872   {
873     ipad[0].s6 = tmps[gidx + 6].ipad[0];
874     ipad[1].s6 = tmps[gidx + 6].ipad[1];
875     ipad[2].s6 = tmps[gidx + 6].ipad[2];
876     ipad[3].s6 = tmps[gidx + 6].ipad[3];
877     ipad[4].s6 = tmps[gidx + 6].ipad[4];
878
879     opad[0].s6 = tmps[gidx + 6].opad[0];
880     opad[1].s6 = tmps[gidx + 6].opad[1];
881     opad[2].s6 = tmps[gidx + 6].opad[2];
882     opad[3].s6 = tmps[gidx + 6].opad[3];
883     opad[4].s6 = tmps[gidx + 6].opad[4];
884   }
885
886   if ((gidx + 7) < gid_max)
887   {
888     ipad[0].s7 = tmps[gidx + 7].ipad[0];
889     ipad[1].s7 = tmps[gidx + 7].ipad[1];
890     ipad[2].s7 = tmps[gidx + 7].ipad[2];
891     ipad[3].s7 = tmps[gidx + 7].ipad[3];
892     ipad[4].s7 = tmps[gidx + 7].ipad[4];
893
894     opad[0].s7 = tmps[gidx + 7].opad[0];
895     opad[1].s7 = tmps[gidx + 7].opad[1];
896     opad[2].s7 = tmps[gidx + 7].opad[2];
897     opad[3].s7 = tmps[gidx + 7].opad[3];
898     opad[4].s7 = tmps[gidx + 7].opad[4];
899   }
900
901   #endif
902
903   #endif
904
905   for (u32 i = 0; i < 8; i += 5)
906   {
907     u32x dgst[5];
908     u32x out[5];
909
910     #if VECT_SIZE == 1
911
912     dgst[0] = tmps[gid].dgst[i + 0];
913     dgst[1] = tmps[gid].dgst[i + 1];
914     dgst[2] = tmps[gid].dgst[i + 2];
915     dgst[3] = tmps[gid].dgst[i + 3];
916     dgst[4] = tmps[gid].dgst[i + 4];
917
918     out[0] = tmps[gid].out[i + 0];
919     out[1] = tmps[gid].out[i + 1];
920     out[2] = tmps[gid].out[i + 2];
921     out[3] = tmps[gid].out[i + 3];
922     out[4] = tmps[gid].out[i + 4];
923
924     #else
925
926     #if VECT_SIZE >= 2
927
928     if ((gidx + 0) < gid_max)
929     {
930       dgst[0].s0 = tmps[gidx + 0].dgst[i + 0];
931       dgst[1].s0 = tmps[gidx + 0].dgst[i + 1];
932       dgst[2].s0 = tmps[gidx + 0].dgst[i + 2];
933       dgst[3].s0 = tmps[gidx + 0].dgst[i + 3];
934       dgst[4].s0 = tmps[gidx + 0].dgst[i + 4];
935
936       out[0].s0 = tmps[gidx + 0].out[i + 0];
937       out[1].s0 = tmps[gidx + 0].out[i + 1];
938       out[2].s0 = tmps[gidx + 0].out[i + 2];
939       out[3].s0 = tmps[gidx + 0].out[i + 3];
940       out[4].s0 = tmps[gidx + 0].out[i + 4];
941     }
942
943     if ((gidx + 1) < gid_max)
944     {
945       dgst[0].s1 = tmps[gidx + 1].dgst[i + 0];
946       dgst[1].s1 = tmps[gidx + 1].dgst[i + 1];
947       dgst[2].s1 = tmps[gidx + 1].dgst[i + 2];
948       dgst[3].s1 = tmps[gidx + 1].dgst[i + 3];
949       dgst[4].s1 = tmps[gidx + 1].dgst[i + 4];
950
951       out[0].s1 = tmps[gidx + 1].out[i + 0];
952       out[1].s1 = tmps[gidx + 1].out[i + 1];
953       out[2].s1 = tmps[gidx + 1].out[i + 2];
954       out[3].s1 = tmps[gidx + 1].out[i + 3];
955       out[4].s1 = tmps[gidx + 1].out[i + 4];
956     }
957
958     #endif
959
960     #if VECT_SIZE >= 4
961
962     if ((gidx + 2) < gid_max)
963     {
964       dgst[0].s2 = tmps[gidx + 2].dgst[i + 0];
965       dgst[1].s2 = tmps[gidx + 2].dgst[i + 1];
966       dgst[2].s2 = tmps[gidx + 2].dgst[i + 2];
967       dgst[3].s2 = tmps[gidx + 2].dgst[i + 3];
968       dgst[4].s2 = tmps[gidx + 2].dgst[i + 4];
969
970       out[0].s2 = tmps[gidx + 2].out[i + 0];
971       out[1].s2 = tmps[gidx + 2].out[i + 1];
972       out[2].s2 = tmps[gidx + 2].out[i + 2];
973       out[3].s2 = tmps[gidx + 2].out[i + 3];
974       out[4].s2 = tmps[gidx + 2].out[i + 4];
975     }
976
977     if ((gidx + 3) < gid_max)
978     {
979       dgst[0].s3 = tmps[gidx + 3].dgst[i + 0];
980       dgst[1].s3 = tmps[gidx + 3].dgst[i + 1];
981       dgst[2].s3 = tmps[gidx + 3].dgst[i + 2];
982       dgst[3].s3 = tmps[gidx + 3].dgst[i + 3];
983       dgst[4].s3 = tmps[gidx + 3].dgst[i + 4];
984
985       out[0].s3 = tmps[gidx + 3].out[i + 0];
986       out[1].s3 = tmps[gidx + 3].out[i + 1];
987       out[2].s3 = tmps[gidx + 3].out[i + 2];
988       out[3].s3 = tmps[gidx + 3].out[i + 3];
989       out[4].s3 = tmps[gidx + 3].out[i + 4];
990     }
991
992     #endif
993
994     #if VECT_SIZE >= 8
995
996     if ((gidx + 4) < gid_max)
997     {
998       dgst[0].s4 = tmps[gidx + 4].dgst[i + 0];
999       dgst[1].s4 = tmps[gidx + 4].dgst[i + 1];
1000       dgst[2].s4 = tmps[gidx + 4].dgst[i + 2];
1001       dgst[3].s4 = tmps[gidx + 4].dgst[i + 3];
1002       dgst[4].s4 = tmps[gidx + 4].dgst[i + 4];
1003
1004       out[0].s4 = tmps[gidx + 4].out[i + 0];
1005       out[1].s4 = tmps[gidx + 4].out[i + 1];
1006       out[2].s4 = tmps[gidx + 4].out[i + 2];
1007       out[3].s4 = tmps[gidx + 4].out[i + 3];
1008       out[4].s4 = tmps[gidx + 4].out[i + 4];
1009     }
1010
1011     if ((gidx + 5) < gid_max)
1012     {
1013       dgst[0].s5 = tmps[gidx + 5].dgst[i + 0];
1014       dgst[1].s5 = tmps[gidx + 5].dgst[i + 1];
1015       dgst[2].s5 = tmps[gidx + 5].dgst[i + 2];
1016       dgst[3].s5 = tmps[gidx + 5].dgst[i + 3];
1017       dgst[4].s5 = tmps[gidx + 5].dgst[i + 4];
1018
1019       out[0].s5 = tmps[gidx + 5].out[i + 0];
1020       out[1].s5 = tmps[gidx + 5].out[i + 1];
1021       out[2].s5 = tmps[gidx + 5].out[i + 2];
1022       out[3].s5 = tmps[gidx + 5].out[i + 3];
1023       out[4].s5 = tmps[gidx + 5].out[i + 4];
1024     }
1025
1026     if ((gidx + 6) < gid_max)
1027     {
1028       dgst[0].s6 = tmps[gidx + 6].dgst[i + 0];
1029       dgst[1].s6 = tmps[gidx + 6].dgst[i + 1];
1030       dgst[2].s6 = tmps[gidx + 6].dgst[i + 2];
1031       dgst[3].s6 = tmps[gidx + 6].dgst[i + 3];
1032       dgst[4].s6 = tmps[gidx + 6].dgst[i + 4];
1033
1034       out[0].s6 = tmps[gidx + 6].out[i + 0];
1035       out[1].s6 = tmps[gidx + 6].out[i + 1];
1036       out[2].s6 = tmps[gidx + 6].out[i + 2];
1037       out[3].s6 = tmps[gidx + 6].out[i + 3];
1038       out[4].s6 = tmps[gidx + 6].out[i + 4];
1039     }
1040
1041     if ((gidx + 7) < gid_max)
1042     {
1043       dgst[0].s7 = tmps[gidx + 7].dgst[i + 0];
1044       dgst[1].s7 = tmps[gidx + 7].dgst[i + 1];
1045       dgst[2].s7 = tmps[gidx + 7].dgst[i + 2];
1046       dgst[3].s7 = tmps[gidx + 7].dgst[i + 3];
1047       dgst[4].s7 = tmps[gidx + 7].dgst[i + 4];
1048
1049       out[0].s7 = tmps[gidx + 7].out[i + 0];
1050       out[1].s7 = tmps[gidx + 7].out[i + 1];
1051       out[2].s7 = tmps[gidx + 7].out[i + 2];
1052       out[3].s7 = tmps[gidx + 7].out[i + 3];
1053       out[4].s7 = tmps[gidx + 7].out[i + 4];
1054     }
1055
1056     #endif
1057
1058     #endif
1059
1060     for (u32 j = 0; j < loop_cnt; j++)
1061     {
1062       u32x w0[4];
1063       u32x w1[4];
1064       u32x w2[4];
1065       u32x w3[4];
1066
1067       w0[0] = dgst[0];
1068       w0[1] = dgst[1];
1069       w0[2] = dgst[2];
1070       w0[3] = dgst[3];
1071       w1[0] = dgst[4];
1072       w1[1] = 0x80000000;
1073       w1[2] = 0;
1074       w1[3] = 0;
1075       w2[0] = 0;
1076       w2[1] = 0;
1077       w2[2] = 0;
1078       w2[3] = 0;
1079       w3[0] = 0;
1080       w3[1] = 0;
1081       w3[2] = 0;
1082       w3[3] = (64 + 20) * 8;
1083
1084       hmac_sha1_run_V (w0, w1, w2, w3, ipad, opad, dgst);
1085
1086       out[0] ^= dgst[0];
1087       out[1] ^= dgst[1];
1088       out[2] ^= dgst[2];
1089       out[3] ^= dgst[3];
1090       out[4] ^= dgst[4];
1091     }
1092
1093     #if VECT_SIZE == 1
1094
1095     tmps[gid].dgst[i + 0] = dgst[0];
1096     tmps[gid].dgst[i + 1] = dgst[1];
1097     tmps[gid].dgst[i + 2] = dgst[2];
1098     tmps[gid].dgst[i + 3] = dgst[3];
1099     tmps[gid].dgst[i + 4] = dgst[4];
1100
1101     tmps[gid].out[i + 0] = out[0];
1102     tmps[gid].out[i + 1] = out[1];
1103     tmps[gid].out[i + 2] = out[2];
1104     tmps[gid].out[i + 3] = out[3];
1105     tmps[gid].out[i + 4] = out[4];
1106
1107     #else
1108
1109     #if VECT_SIZE >= 2
1110
1111     if ((gidx + 0) < gid_max)
1112     {
1113       tmps[gidx + 0].dgst[i + 0] = dgst[0].s0;
1114       tmps[gidx + 0].dgst[i + 1] = dgst[1].s0;
1115       tmps[gidx + 0].dgst[i + 2] = dgst[2].s0;
1116       tmps[gidx + 0].dgst[i + 3] = dgst[3].s0;
1117       tmps[gidx + 0].dgst[i + 4] = dgst[4].s0;
1118
1119       tmps[gidx + 0].out[i + 0] = out[0].s0;
1120       tmps[gidx + 0].out[i + 1] = out[1].s0;
1121       tmps[gidx + 0].out[i + 2] = out[2].s0;
1122       tmps[gidx + 0].out[i + 3] = out[3].s0;
1123       tmps[gidx + 0].out[i + 4] = out[4].s0;
1124     }
1125
1126     if ((gidx + 1) < gid_max)
1127     {
1128       tmps[gidx + 1].dgst[i + 0] = dgst[0].s1;
1129       tmps[gidx + 1].dgst[i + 1] = dgst[1].s1;
1130       tmps[gidx + 1].dgst[i + 2] = dgst[2].s1;
1131       tmps[gidx + 1].dgst[i + 3] = dgst[3].s1;
1132       tmps[gidx + 1].dgst[i + 4] = dgst[4].s1;
1133
1134       tmps[gidx + 1].out[i + 0] = out[0].s1;
1135       tmps[gidx + 1].out[i + 1] = out[1].s1;
1136       tmps[gidx + 1].out[i + 2] = out[2].s1;
1137       tmps[gidx + 1].out[i + 3] = out[3].s1;
1138       tmps[gidx + 1].out[i + 4] = out[4].s1;
1139     }
1140
1141     #endif
1142
1143     #if VECT_SIZE >= 4
1144
1145     if ((gidx + 2) < gid_max)
1146     {
1147       tmps[gidx + 2].dgst[i + 0] = dgst[0].s2;
1148       tmps[gidx + 2].dgst[i + 1] = dgst[1].s2;
1149       tmps[gidx + 2].dgst[i + 2] = dgst[2].s2;
1150       tmps[gidx + 2].dgst[i + 3] = dgst[3].s2;
1151       tmps[gidx + 2].dgst[i + 4] = dgst[4].s2;
1152
1153       tmps[gidx + 2].out[i + 0] = out[0].s2;
1154       tmps[gidx + 2].out[i + 1] = out[1].s2;
1155       tmps[gidx + 2].out[i + 2] = out[2].s2;
1156       tmps[gidx + 2].out[i + 3] = out[3].s2;
1157       tmps[gidx + 2].out[i + 4] = out[4].s2;
1158     }
1159
1160     if ((gidx + 3) < gid_max)
1161     {
1162       tmps[gidx + 3].dgst[i + 0] = dgst[0].s3;
1163       tmps[gidx + 3].dgst[i + 1] = dgst[1].s3;
1164       tmps[gidx + 3].dgst[i + 2] = dgst[2].s3;
1165       tmps[gidx + 3].dgst[i + 3] = dgst[3].s3;
1166       tmps[gidx + 3].dgst[i + 4] = dgst[4].s3;
1167
1168       tmps[gidx + 3].out[i + 0] = out[0].s3;
1169       tmps[gidx + 3].out[i + 1] = out[1].s3;
1170       tmps[gidx + 3].out[i + 2] = out[2].s3;
1171       tmps[gidx + 3].out[i + 3] = out[3].s3;
1172       tmps[gidx + 3].out[i + 4] = out[4].s3;
1173     }
1174
1175     #endif
1176
1177     #if VECT_SIZE >= 8
1178
1179     if ((gidx + 4) < gid_max)
1180     {
1181       tmps[gidx + 4].dgst[i + 0] = dgst[0].s4;
1182       tmps[gidx + 4].dgst[i + 1] = dgst[1].s4;
1183       tmps[gidx + 4].dgst[i + 2] = dgst[2].s4;
1184       tmps[gidx + 4].dgst[i + 3] = dgst[3].s4;
1185       tmps[gidx + 4].dgst[i + 4] = dgst[4].s4;
1186
1187       tmps[gidx + 4].out[i + 0] = out[0].s4;
1188       tmps[gidx + 4].out[i + 1] = out[1].s4;
1189       tmps[gidx + 4].out[i + 2] = out[2].s4;
1190       tmps[gidx + 4].out[i + 3] = out[3].s4;
1191       tmps[gidx + 4].out[i + 4] = out[4].s4;
1192     }
1193
1194     if ((gidx + 5) < gid_max)
1195     {
1196       tmps[gidx + 5].dgst[i + 0] = dgst[0].s5;
1197       tmps[gidx + 5].dgst[i + 1] = dgst[1].s5;
1198       tmps[gidx + 5].dgst[i + 2] = dgst[2].s5;
1199       tmps[gidx + 5].dgst[i + 3] = dgst[3].s5;
1200       tmps[gidx + 5].dgst[i + 4] = dgst[4].s5;
1201
1202       tmps[gidx + 5].out[i + 0] = out[0].s5;
1203       tmps[gidx + 5].out[i + 1] = out[1].s5;
1204       tmps[gidx + 5].out[i + 2] = out[2].s5;
1205       tmps[gidx + 5].out[i + 3] = out[3].s5;
1206       tmps[gidx + 5].out[i + 4] = out[4].s5;
1207     }
1208
1209     if ((gidx + 6) < gid_max)
1210     {
1211       tmps[gidx + 6].dgst[i + 0] = dgst[0].s6;
1212       tmps[gidx + 6].dgst[i + 1] = dgst[1].s6;
1213       tmps[gidx + 6].dgst[i + 2] = dgst[2].s6;
1214       tmps[gidx + 6].dgst[i + 3] = dgst[3].s6;
1215       tmps[gidx + 6].dgst[i + 4] = dgst[4].s6;
1216
1217       tmps[gidx + 6].out[i + 0] = out[0].s6;
1218       tmps[gidx + 6].out[i + 1] = out[1].s6;
1219       tmps[gidx + 6].out[i + 2] = out[2].s6;
1220       tmps[gidx + 6].out[i + 3] = out[3].s6;
1221       tmps[gidx + 6].out[i + 4] = out[4].s6;
1222     }
1223
1224     if ((gidx + 7) < gid_max)
1225     {
1226       tmps[gidx + 7].dgst[i + 0] = dgst[0].s7;
1227       tmps[gidx + 7].dgst[i + 1] = dgst[1].s7;
1228       tmps[gidx + 7].dgst[i + 2] = dgst[2].s7;
1229       tmps[gidx + 7].dgst[i + 3] = dgst[3].s7;
1230       tmps[gidx + 7].dgst[i + 4] = dgst[4].s7;
1231
1232       tmps[gidx + 7].out[i + 0] = out[0].s7;
1233       tmps[gidx + 7].out[i + 1] = out[1].s7;
1234       tmps[gidx + 7].out[i + 2] = out[2].s7;
1235       tmps[gidx + 7].out[i + 3] = out[3].s7;
1236       tmps[gidx + 7].out[i + 4] = out[4].s7;
1237     }
1238
1239     #endif
1240
1241     #endif
1242   }
1243 }
1244
1245 __kernel void m02500_comp (__global pw_t *pws, __global kernel_rule_t *rules_buf, __global comb_t *combs_buf, __global bf_t *bfs_buf, __global wpa_tmp_t *tmps, __global void *hooks, __global u32 *bitmaps_buf_s1_a, __global u32 *bitmaps_buf_s1_b, __global u32 *bitmaps_buf_s1_c, __global u32 *bitmaps_buf_s1_d, __global u32 *bitmaps_buf_s2_a, __global u32 *bitmaps_buf_s2_b, __global u32 *bitmaps_buf_s2_c, __global u32 *bitmaps_buf_s2_d, __global plain_t *plains_buf, __global digest_t *digests_buf, __global u32 *hashes_shown, __global salt_t *salt_bufs, __global wpa_t *wpa_bufs, __global u32 *d_return_buf, __global u32 *d_scryptV_buf, const u32 bitmap_mask, const u32 bitmap_shift1, const u32 bitmap_shift2, const u32 salt_pos, const u32 loop_pos, const u32 loop_cnt, const u32 il_cnt, const u32 digests_cnt, const u32 digests_offset, const u32 combs_mode, const u32 gid_max)
1246 {
1247   const u32 gid = get_global_id (0);
1248
1249   if (gid >= gid_max) return;
1250
1251   const u32 lid = get_local_id (0);
1252
1253   u32 w0[4];
1254   u32 w1[4];
1255   u32 w2[4];
1256   u32 w3[4];
1257
1258   w0[0] = tmps[gid].out[0];
1259   w0[1] = tmps[gid].out[1];
1260   w0[2] = tmps[gid].out[2];
1261   w0[3] = tmps[gid].out[3];
1262   w1[0] = tmps[gid].out[4];
1263   w1[1] = tmps[gid].out[5];
1264   w1[2] = tmps[gid].out[6];
1265   w1[3] = tmps[gid].out[7];
1266   w2[0] = 0;
1267   w2[1] = 0;
1268   w2[2] = 0;
1269   w2[3] = 0;
1270   w3[0] = 0;
1271   w3[1] = 0;
1272   w3[2] = 0;
1273   w3[3] = 0;
1274
1275   u32 ipad[5];
1276   u32 opad[5];
1277
1278   hmac_sha1_pad_S (w0, w1, w2, w3, ipad, opad);
1279
1280   w0[0] = wpa_bufs[salt_pos].pke[ 0];
1281   w0[1] = wpa_bufs[salt_pos].pke[ 1];
1282   w0[2] = wpa_bufs[salt_pos].pke[ 2];
1283   w0[3] = wpa_bufs[salt_pos].pke[ 3];
1284   w1[0] = wpa_bufs[salt_pos].pke[ 4];
1285   w1[1] = wpa_bufs[salt_pos].pke[ 5];
1286   w1[2] = wpa_bufs[salt_pos].pke[ 6];
1287   w1[3] = wpa_bufs[salt_pos].pke[ 7];
1288   w2[0] = wpa_bufs[salt_pos].pke[ 8];
1289   w2[1] = wpa_bufs[salt_pos].pke[ 9];
1290   w2[2] = wpa_bufs[salt_pos].pke[10];
1291   w2[3] = wpa_bufs[salt_pos].pke[11];
1292   w3[0] = wpa_bufs[salt_pos].pke[12];
1293   w3[1] = wpa_bufs[salt_pos].pke[13];
1294   w3[2] = wpa_bufs[salt_pos].pke[14];
1295   w3[3] = wpa_bufs[salt_pos].pke[15];
1296
1297   sha1_transform_S (w0, w1, w2, w3, ipad);
1298
1299   w0[0] = wpa_bufs[salt_pos].pke[16];
1300   w0[1] = wpa_bufs[salt_pos].pke[17];
1301   w0[2] = wpa_bufs[salt_pos].pke[18];
1302   w0[3] = wpa_bufs[salt_pos].pke[19];
1303   w1[0] = wpa_bufs[salt_pos].pke[20];
1304   w1[1] = wpa_bufs[salt_pos].pke[21];
1305   w1[2] = wpa_bufs[salt_pos].pke[22];
1306   w1[3] = wpa_bufs[salt_pos].pke[23];
1307   w2[0] = wpa_bufs[salt_pos].pke[24];
1308   w2[1] = 0x80000000;
1309   w2[2] = 0;
1310   w2[3] = 0;
1311   w3[0] = 0;
1312   w3[1] = 0;
1313   w3[2] = 0;
1314   w3[3] = (64 + 100) * 8;
1315
1316   u32 digest[5];
1317
1318   hmac_sha1_run_S (w0, w1, w2, w3, ipad, opad, digest);
1319
1320   {
1321     w0[0] = swap32_S (digest[0]);
1322     w0[1] = swap32_S (digest[1]);
1323     w0[2] = swap32_S (digest[2]);
1324     w0[3] = swap32_S (digest[3]);
1325     w1[0] = 0;
1326     w1[1] = 0;
1327     w1[2] = 0;
1328     w1[3] = 0;
1329     w2[0] = 0;
1330     w2[1] = 0;
1331     w2[2] = 0;
1332     w2[3] = 0;
1333     w3[0] = 0;
1334     w3[1] = 0;
1335     w3[2] = 0;
1336     w3[3] = 0;
1337
1338     hmac_md5_pad_S (w0, w1, w2, w3, ipad, opad);
1339
1340     int eapol_size = wpa_bufs[salt_pos].eapol_size;
1341
1342     int eapol_left;
1343     int eapol_off;
1344
1345     for (eapol_left = eapol_size, eapol_off = 0; eapol_left >= 56; eapol_left -= 64, eapol_off += 16)
1346     {
1347       w0[0] = wpa_bufs[salt_pos].eapol[eapol_off +  0];
1348       w0[1] = wpa_bufs[salt_pos].eapol[eapol_off +  1];
1349       w0[2] = wpa_bufs[salt_pos].eapol[eapol_off +  2];
1350       w0[3] = wpa_bufs[salt_pos].eapol[eapol_off +  3];
1351       w1[0] = wpa_bufs[salt_pos].eapol[eapol_off +  4];
1352       w1[1] = wpa_bufs[salt_pos].eapol[eapol_off +  5];
1353       w1[2] = wpa_bufs[salt_pos].eapol[eapol_off +  6];
1354       w1[3] = wpa_bufs[salt_pos].eapol[eapol_off +  7];
1355       w2[0] = wpa_bufs[salt_pos].eapol[eapol_off +  8];
1356       w2[1] = wpa_bufs[salt_pos].eapol[eapol_off +  9];
1357       w2[2] = wpa_bufs[salt_pos].eapol[eapol_off + 10];
1358       w2[3] = wpa_bufs[salt_pos].eapol[eapol_off + 11];
1359       w3[0] = wpa_bufs[salt_pos].eapol[eapol_off + 12];
1360       w3[1] = wpa_bufs[salt_pos].eapol[eapol_off + 13];
1361       w3[2] = wpa_bufs[salt_pos].eapol[eapol_off + 14];
1362       w3[3] = wpa_bufs[salt_pos].eapol[eapol_off + 15];
1363
1364       md5_transform_S (w0, w1, w2, w3, ipad);
1365     }
1366
1367     w0[0] = wpa_bufs[salt_pos].eapol[eapol_off +  0];
1368     w0[1] = wpa_bufs[salt_pos].eapol[eapol_off +  1];
1369     w0[2] = wpa_bufs[salt_pos].eapol[eapol_off +  2];
1370     w0[3] = wpa_bufs[salt_pos].eapol[eapol_off +  3];
1371     w1[0] = wpa_bufs[salt_pos].eapol[eapol_off +  4];
1372     w1[1] = wpa_bufs[salt_pos].eapol[eapol_off +  5];
1373     w1[2] = wpa_bufs[salt_pos].eapol[eapol_off +  6];
1374     w1[3] = wpa_bufs[salt_pos].eapol[eapol_off +  7];
1375     w2[0] = wpa_bufs[salt_pos].eapol[eapol_off +  8];
1376     w2[1] = wpa_bufs[salt_pos].eapol[eapol_off +  9];
1377     w2[2] = wpa_bufs[salt_pos].eapol[eapol_off + 10];
1378     w2[3] = wpa_bufs[salt_pos].eapol[eapol_off + 11];
1379     w3[0] = wpa_bufs[salt_pos].eapol[eapol_off + 12];
1380     w3[1] = wpa_bufs[salt_pos].eapol[eapol_off + 13];
1381     w3[2] = (64 + eapol_size) * 8;
1382     w3[3] = 0;
1383
1384     u32 digest1[4];
1385
1386     hmac_md5_run_S (w0, w1, w2, w3, ipad, opad, digest1);
1387
1388     /**
1389      * base
1390      */
1391
1392     #define il_pos 0
1393
1394     const u32 r0 = digest1[DGST_R0];
1395     const u32 r1 = digest1[DGST_R1];
1396     const u32 r2 = digest1[DGST_R2];
1397     const u32 r3 = digest1[DGST_R3];
1398
1399     #include COMPARE_M
1400   }
1401
1402   {
1403     w0[0] = digest[0];
1404     w0[1] = digest[1];
1405     w0[2] = digest[2];
1406     w0[3] = digest[3];
1407     w1[0] = 0;
1408     w1[1] = 0;
1409     w1[2] = 0;
1410     w1[3] = 0;
1411     w2[0] = 0;
1412     w2[1] = 0;
1413     w2[2] = 0;
1414     w2[3] = 0;
1415     w3[0] = 0;
1416     w3[1] = 0;
1417     w3[2] = 0;
1418     w3[3] = 0;
1419
1420     hmac_sha1_pad_S (w0, w1, w2, w3, ipad, opad);
1421
1422     int eapol_size = wpa_bufs[salt_pos].eapol_size;
1423
1424     int eapol_left;
1425     int eapol_off;
1426
1427     for (eapol_left = eapol_size, eapol_off = 0; eapol_left >= 56; eapol_left -= 64, eapol_off += 16)
1428     {
1429       w0[0] = wpa_bufs[salt_pos].eapol[eapol_off +  0];
1430       w0[1] = wpa_bufs[salt_pos].eapol[eapol_off +  1];
1431       w0[2] = wpa_bufs[salt_pos].eapol[eapol_off +  2];
1432       w0[3] = wpa_bufs[salt_pos].eapol[eapol_off +  3];
1433       w1[0] = wpa_bufs[salt_pos].eapol[eapol_off +  4];
1434       w1[1] = wpa_bufs[salt_pos].eapol[eapol_off +  5];
1435       w1[2] = wpa_bufs[salt_pos].eapol[eapol_off +  6];
1436       w1[3] = wpa_bufs[salt_pos].eapol[eapol_off +  7];
1437       w2[0] = wpa_bufs[salt_pos].eapol[eapol_off +  8];
1438       w2[1] = wpa_bufs[salt_pos].eapol[eapol_off +  9];
1439       w2[2] = wpa_bufs[salt_pos].eapol[eapol_off + 10];
1440       w2[3] = wpa_bufs[salt_pos].eapol[eapol_off + 11];
1441       w3[0] = wpa_bufs[salt_pos].eapol[eapol_off + 12];
1442       w3[1] = wpa_bufs[salt_pos].eapol[eapol_off + 13];
1443       w3[2] = wpa_bufs[salt_pos].eapol[eapol_off + 14];
1444       w3[3] = wpa_bufs[salt_pos].eapol[eapol_off + 15];
1445
1446       sha1_transform_S (w0, w1, w2, w3, ipad);
1447     }
1448
1449     w0[0] = wpa_bufs[salt_pos].eapol[eapol_off +  0];
1450     w0[1] = wpa_bufs[salt_pos].eapol[eapol_off +  1];
1451     w0[2] = wpa_bufs[salt_pos].eapol[eapol_off +  2];
1452     w0[3] = wpa_bufs[salt_pos].eapol[eapol_off +  3];
1453     w1[0] = wpa_bufs[salt_pos].eapol[eapol_off +  4];
1454     w1[1] = wpa_bufs[salt_pos].eapol[eapol_off +  5];
1455     w1[2] = wpa_bufs[salt_pos].eapol[eapol_off +  6];
1456     w1[3] = wpa_bufs[salt_pos].eapol[eapol_off +  7];
1457     w2[0] = wpa_bufs[salt_pos].eapol[eapol_off +  8];
1458     w2[1] = wpa_bufs[salt_pos].eapol[eapol_off +  9];
1459     w2[2] = wpa_bufs[salt_pos].eapol[eapol_off + 10];
1460     w2[3] = wpa_bufs[salt_pos].eapol[eapol_off + 11];
1461     w3[0] = wpa_bufs[salt_pos].eapol[eapol_off + 12];
1462     w3[1] = wpa_bufs[salt_pos].eapol[eapol_off + 13];
1463     w3[2] = 0;
1464     w3[3] = (64 + eapol_size) * 8;
1465
1466     u32 digest2[5];
1467
1468     hmac_sha1_run_S (w0, w1, w2, w3, ipad, opad, digest2);
1469
1470     /**
1471      * base
1472      */
1473
1474     #define il_pos 0
1475
1476     const u32 r0 = digest2[DGST_R0];
1477     const u32 r1 = digest2[DGST_R1];
1478     const u32 r2 = digest2[DGST_R2];
1479     const u32 r3 = digest2[DGST_R3];
1480
1481     #include COMPARE_M
1482   }
1483 }