ROUND_STEP (0);
 
-  //#pragma unroll // kernel fails if used
+  //#pragma unroll
   for (int i = 16; i < 80; i += 16)
   {
     ROUND_EXPAND (); ROUND_STEP (i);
 
 
   ROUND_STEP (0);
 
-  //#pragma unroll // kernel fails if used
+  //#pragma unroll
   for (int i = 16; i < 80; i += 16)
   {
     ROUND_EXPAND (); ROUND_STEP (i);
 
 
   ROUND_STEP (0);
 
-  //#pragma unroll // kernel fails if used
+  //#pragma unroll
   for (int i = 16; i < 80; i += 16)
   {
     ROUND_EXPAND (); ROUND_STEP (i);
 
 
   ROUND_STEP (0);
 
-  //#pragma unroll // kernel fails if used
+  //#pragma unroll
   for (int i = 16; i < 80; i += 16)
   {
     ROUND_EXPAND (); ROUND_STEP (i);
 
 
   ROUND_STEP (0);
 
-  //#pragma unroll // kernel fails if used
+  //#pragma unroll
   for (int i = 16; i < 80; i += 16)
   {
     ROUND_EXPAND (); ROUND_STEP (i);
 
 
   ROUND_STEP (0);
 
-  //#pragma unroll // kernel fails if used
+  //#pragma unroll
   for (int i = 16; i < 80; i += 16)
   {
     ROUND_EXPAND (); ROUND_STEP (i);
 
 
   ROUND_STEP (0);
 
-  //#pragma unroll // kernel fails if used
+  //#pragma unroll
   for (int i = 16; i < 80; i += 16)
   {
     ROUND_EXPAND (); ROUND_STEP (i);
 
 
   ROUND_STEP (0);
 
-  //#pragma unroll // kernel fails if used
+  //#pragma unroll
   for (int i = 16; i < 80; i += 16)
   {
     ROUND_EXPAND (); ROUND_STEP (i);
 
 
   ROUND_STEP (0);
 
-  #pragma unroll
+  //#pragma unroll
   for (int i = 16; i < 80; i += 16)
   {
     ROUND_EXPAND (); ROUND_STEP (i);
 
 
   ROUND512_STEP (0);
 
-  //#pragma unroll // kernel fails if used
+  //#pragma unroll
   for (int i = 16; i < 80; i += 16)
   {
     ROUND512_EXPAND (); ROUND512_STEP (i);
 
 
   ROUND_STEP (0);
 
-//  #pragma unroll
+  //#pragma unroll
   for (int i = 16; i < 80; i += 16)
   {
     ROUND_EXPAND (); ROUND_STEP (i);
 
 
   ROUND_STEP (0);
 
-  //#pragma unroll // kernel fails if used
+  //#pragma unroll
   for (int i = 16; i < 80; i += 16)
   {
     ROUND_EXPAND (); ROUND_STEP (i);
 
 
   ROUND_STEP (0);
 
-  //#pragma unroll // kernel fails if used
+  //#pragma unroll
   for (int i = 16; i < 80; i += 16)
   {
     ROUND_EXPAND (); ROUND_STEP (i);