test/CodeGen/X86/pmul.ll

   1 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown | FileCheck %s --check-prefix=ALL --check-prefix=SSE2
   2 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=sse4.1 | FileCheck %s --check-prefix=ALL --check-prefix=SSE41
   3 ; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=core-avx2 | FileCheck %s --check-prefix=AVX2
   4
   5 define <16 x i8> @mul8c(<16 x i8> %i) nounwind  {
   6 ; SSE2-LABEL: mul8c:
   7 ; SSE2:       # BB#0: # %entry
   8 ; SSE2-NEXT:    movdqa {{.*#+}} xmm1 = [117,117,117,117,117,117,117,117,117,117,117,117,117,117,117,117]
   9 ; SSE2-NEXT:    psraw $8, %xmm1
  10 ; SSE2-NEXT:    movdqa %xmm0, %xmm2
  11 ; SSE2-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
  12 ; SSE2-NEXT:    psraw $8, %xmm2
  13 ; SSE2-NEXT:    pmullw %xmm1, %xmm2
  14 ; SSE2-NEXT:    movdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
  15 ; SSE2-NEXT:    pand %xmm3, %xmm2
  16 ; SSE2-NEXT:    punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
  17 ; SSE2-NEXT:    psraw $8, %xmm0
  18 ; SSE2-NEXT:    pmullw %xmm1, %xmm0
  19 ; SSE2-NEXT:    pand %xmm3, %xmm0
  20 ; SSE2-NEXT:    packuswb %xmm2, %xmm0
  21 ; SSE2-NEXT:    retq
  22 ;
  23 ; SSE41-LABEL: mul8c:
  24 ; SSE41:       # BB#0: # %entry
  25 ; SSE41-NEXT:    pmovsxbw %xmm0, %xmm1
  26 ; SSE41-NEXT:    pmovsxbw {{.*}}(%rip), %xmm2
  27 ; SSE41-NEXT:    pmullw %xmm2, %xmm1
  28 ; SSE41-NEXT:    movdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
  29 ; SSE41-NEXT:    pand %xmm3, %xmm1
  30 ; SSE41-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
  31 ; SSE41-NEXT:    pmovsxbw %xmm0, %xmm0
  32 ; SSE41-NEXT:    pmullw %xmm2, %xmm0
  33 ; SSE41-NEXT:    pand %xmm3, %xmm0
  34 ; SSE41-NEXT:    packuswb %xmm0, %xmm1
  35 ; SSE41-NEXT:    movdqa %xmm1, %xmm0
  36 ; SSE41-NEXT:    retq
  37 entry:
  38   %A = mul <16 x i8> %i, < i8 117, i8 117, i8 117, i8 117, i8 117, i8 117, i8 117, i8 117, i8 117, i8 117, i8 117, i8 117, i8 117, i8 117, i8 117, i8 117 >
  39   ret <16 x i8> %A
  40 }
  41
  42 define <8 x i16> @mul16c(<8 x i16> %i) nounwind  {
  43 ; ALL-LABEL: mul16c:
  44 ; ALL:       # BB#0: # %entry
  45 ; ALL-NEXT:    pmullw {{.*}}(%rip), %xmm0
  46 ; ALL-NEXT:    retq
  47 entry:
  48   %A = mul <8 x i16> %i, < i16 117, i16 117, i16 117, i16 117, i16 117, i16 117, i16 117, i16 117 >
  49   ret <8 x i16> %A
  50 }
  51
  52 define <4 x i32> @a(<4 x i32> %i) nounwind  {
  53 ; SSE2-LABEL: a:
  54 ; SSE2:       # BB#0: # %entry
  55 ; SSE2-NEXT:    movdqa {{.*#+}} xmm1 = [117,117,117,117]
  56 ; SSE2-NEXT:    pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
  57 ; SSE2-NEXT:    pmuludq %xmm1, %xmm0
  58 ; SSE2-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
  59 ; SSE2-NEXT:    pmuludq %xmm1, %xmm2
  60 ; SSE2-NEXT:    pshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]
  61 ; SSE2-NEXT:    punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
  62 ; SSE2-NEXT:    retq
  63 ;
  64 ; SSE41-LABEL: a:
  65 ; SSE41:       # BB#0: # %entry
  66 ; SSE41-NEXT:    pmulld {{.*}}(%rip), %xmm0
  67 ; SSE41-NEXT:    retq
  68 entry:
  69   %A = mul <4 x i32> %i, < i32 117, i32 117, i32 117, i32 117 >
  70   ret <4 x i32> %A
  71 }
  72
  73 define <2 x i64> @b(<2 x i64> %i) nounwind  {
  74 ; ALL-LABEL: b:
  75 ; ALL:       # BB#0: # %entry
  76 ; ALL-NEXT:    movdqa {{.*#+}} xmm1 = [117,117]
  77 ; ALL-NEXT:    movdqa %xmm0, %xmm2
  78 ; ALL-NEXT:    pmuludq %xmm1, %xmm2
  79 ; ALL-NEXT:    psrlq $32, %xmm0
  80 ; ALL-NEXT:    pmuludq %xmm1, %xmm0
  81 ; ALL-NEXT:    psllq $32, %xmm0
  82 ; ALL-NEXT:    paddq %xmm2, %xmm0
  83 ; ALL-NEXT:    retq
  84 entry:
  85   %A = mul <2 x i64> %i, < i64 117, i64 117 >
  86   ret <2 x i64> %A
  87 }
  88
  89 define <16 x i8> @mul8(<16 x i8> %i, <16 x i8> %j) nounwind  {
  90 ; SSE2-LABEL: mul8:
  91 ; SSE2:       # BB#0: # %entry
  92 ; SSE2-NEXT:    movdqa %xmm1, %xmm2
  93 ; SSE2-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
  94 ; SSE2-NEXT:    psraw $8, %xmm2
  95 ; SSE2-NEXT:    movdqa %xmm0, %xmm3
  96 ; SSE2-NEXT:    punpckhbw {{.*#+}} xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
  97 ; SSE2-NEXT:    psraw $8, %xmm3
  98 ; SSE2-NEXT:    pmullw %xmm2, %xmm3
  99 ; SSE2-NEXT:    movdqa {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]
 100 ; SSE2-NEXT:    pand %xmm2, %xmm3
 101 ; SSE2-NEXT:    punpcklbw {{.*#+}} xmm1 = xmm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
 102 ; SSE2-NEXT:    psraw $8, %xmm1
 103 ; SSE2-NEXT:    punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
 104 ; SSE2-NEXT:    psraw $8, %xmm0
 105 ; SSE2-NEXT:    pmullw %xmm1, %xmm0
 106 ; SSE2-NEXT:    pand %xmm2, %xmm0
 107 ; SSE2-NEXT:    packuswb %xmm3, %xmm0
 108 ; SSE2-NEXT:    retq
 109 ;
 110 ; SSE41-LABEL: mul8:
 111 ; SSE41:       # BB#0: # %entry
 112 ; SSE41-NEXT:    pmovsxbw %xmm1, %xmm3
 113 ; SSE41-NEXT:    pmovsxbw %xmm0, %xmm2
 114 ; SSE41-NEXT:    pmullw %xmm3, %xmm2
 115 ; SSE41-NEXT:    movdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
 116 ; SSE41-NEXT:    pand %xmm3, %xmm2
 117 ; SSE41-NEXT:    pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
 118 ; SSE41-NEXT:    pmovsxbw %xmm1, %xmm1
 119 ; SSE41-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
 120 ; SSE41-NEXT:    pmovsxbw %xmm0, %xmm0
 121 ; SSE41-NEXT:    pmullw %xmm1, %xmm0
 122 ; SSE41-NEXT:    pand %xmm3, %xmm0
 123 ; SSE41-NEXT:    packuswb %xmm0, %xmm2
 124 ; SSE41-NEXT:    movdqa %xmm2, %xmm0
 125 ; SSE41-NEXT:    retq
 126 entry:
 127   %A = mul <16 x i8> %i, %j
 128   ret <16 x i8> %A
 129 }
 130
 131 define <8 x i16> @mul16(<8 x i16> %i, <8 x i16> %j) nounwind  {
 132 ; ALL-LABEL: mul16:
 133 ; ALL:       # BB#0: # %entry
 134 ; ALL-NEXT:    pmullw %xmm1, %xmm0
 135 ; ALL-NEXT:    retq
 136 entry:
 137   %A = mul <8 x i16> %i, %j
 138   ret <8 x i16> %A
 139 }
 140
 141 define <4 x i32> @c(<4 x i32> %i, <4 x i32> %j) nounwind  {
 142 ; SSE2-LABEL: c:
 143 ; SSE2:       # BB#0: # %entry
 144 ; SSE2-NEXT:    pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
 145 ; SSE2-NEXT:    pmuludq %xmm1, %xmm0
 146 ; SSE2-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
 147 ; SSE2-NEXT:    pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
 148 ; SSE2-NEXT:    pmuludq %xmm2, %xmm1
 149 ; SSE2-NEXT:    pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
 150 ; SSE2-NEXT:    punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
 151 ; SSE2-NEXT:    retq
 152 ;
 153 ; SSE41-LABEL: c:
 154 ; SSE41:       # BB#0: # %entry
 155 ; SSE41-NEXT:    pmulld %xmm1, %xmm0
 156 ; SSE41-NEXT:    retq
 157 entry:
 158   %A = mul <4 x i32> %i, %j
 159   ret <4 x i32> %A
 160 }
 161
 162 define <2 x i64> @d(<2 x i64> %i, <2 x i64> %j) nounwind  {
 163 ; ALL-LABEL: d:
 164 ; ALL:       # BB#0: # %entry
 165 ; ALL-NEXT:    movdqa %xmm0, %xmm2
 166 ; ALL-NEXT:    pmuludq %xmm1, %xmm2
 167 ; ALL-NEXT:    movdqa %xmm1, %xmm3
 168 ; ALL-NEXT:    psrlq $32, %xmm3
 169 ; ALL-NEXT:    pmuludq %xmm0, %xmm3
 170 ; ALL-NEXT:    psllq $32, %xmm3
 171 ; ALL-NEXT:    paddq %xmm3, %xmm2
 172 ; ALL-NEXT:    psrlq $32, %xmm0
 173 ; ALL-NEXT:    pmuludq %xmm1, %xmm0
 174 ; ALL-NEXT:    psllq $32, %xmm0
 175 ; ALL-NEXT:    paddq %xmm2, %xmm0
 176 ; ALL-NEXT:    retq
 177 entry:
 178   %A = mul <2 x i64> %i, %j
 179   ret <2 x i64> %A
 180 }
 181
 182 declare void @foo()
 183
 184 define <4 x i32> @e(<4 x i32> %i, <4 x i32> %j) nounwind  {
 185 ; SSE2-LABEL: e:
 186 ; SSE2:       # BB#0: # %entry
 187 ; SSE2-NEXT:    subq $40, %rsp
 188 ; SSE2-NEXT:    movaps %xmm1, {{[0-9]+}}(%rsp) # 16-byte Spill
 189 ; SSE2-NEXT:    movaps %xmm0, (%rsp) # 16-byte Spill
 190 ; SSE2-NEXT:    callq foo
 191 ; SSE2-NEXT:    movdqa (%rsp), %xmm0 # 16-byte Reload
 192 ; SSE2-NEXT:    pshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
 193 ; SSE2-NEXT:    movdqa {{[0-9]+}}(%rsp), %xmm2 # 16-byte Reload
 194 ; SSE2-NEXT:    pmuludq %xmm2, %xmm0
 195 ; SSE2-NEXT:    pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
 196 ; SSE2-NEXT:    pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
 197 ; SSE2-NEXT:    pmuludq %xmm1, %xmm2
 198 ; SSE2-NEXT:    pshufd {{.*#+}} xmm1 = xmm2[0,2,2,3]
 199 ; SSE2-NEXT:    punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
 200 ; SSE2-NEXT:    addq $40, %rsp
 201 ; SSE2-NEXT:    retq
 202 ;
 203 ; SSE41-LABEL: e:
 204 ; SSE41:       # BB#0: # %entry
 205 ; SSE41-NEXT:    subq $40, %rsp
 206 ; SSE41-NEXT:    movaps %xmm1, {{[0-9]+}}(%rsp) # 16-byte Spill
 207 ; SSE41-NEXT:    movaps %xmm0, (%rsp) # 16-byte Spill
 208 ; SSE41-NEXT:    callq foo
 209 ; SSE41-NEXT:    movdqa (%rsp), %xmm0 # 16-byte Reload
 210 ; SSE41-NEXT:    pmulld {{[0-9]+}}(%rsp), %xmm0 # 16-byte Folded Reload
 211 ; SSE41-NEXT:    addq $40, %rsp
 212 ; SSE41-NEXT:    retq
 213 entry:
 214   ; Use a call to force spills.
 215   call void @foo()
 216   %A = mul <4 x i32> %i, %j
 217   ret <4 x i32> %A
 218 }
 219
 220 define <2 x i64> @f(<2 x i64> %i, <2 x i64> %j) nounwind  {
 221 ; ALL-LABEL: f:
 222 ; ALL:       # BB#0: # %entry
 223 ; ALL-NEXT:    subq $40, %rsp
 224 ; ALL-NEXT:    movaps %xmm1, {{[0-9]+}}(%rsp) # 16-byte Spill
 225 ; ALL-NEXT:    movaps %xmm0, (%rsp) # 16-byte Spill
 226 ; ALL-NEXT:    callq foo
 227 ; ALL-NEXT:    movdqa (%rsp), %xmm0 # 16-byte Reload
 228 ; ALL-NEXT:    movdqa %xmm0, %xmm2
 229 ; ALL-NEXT:    movdqa {{[0-9]+}}(%rsp), %xmm3 # 16-byte Reload
 230 ; ALL-NEXT:    pmuludq %xmm3, %xmm2
 231 ; ALL-NEXT:    movdqa %xmm3, %xmm1
 232 ; ALL-NEXT:    psrlq $32, %xmm1
 233 ; ALL-NEXT:    pmuludq %xmm0, %xmm1
 234 ; ALL-NEXT:    psllq $32, %xmm1
 235 ; ALL-NEXT:    paddq %xmm1, %xmm2
 236 ; ALL-NEXT:    psrlq $32, %xmm0
 237 ; ALL-NEXT:    pmuludq %xmm3, %xmm0
 238 ; ALL-NEXT:    psllq $32, %xmm0
 239 ; ALL-NEXT:    paddq %xmm2, %xmm0
 240 ; ALL-NEXT:    addq $40, %rsp
 241 ; ALL-NEXT:    retq
 242 entry:
 243   ; Use a call to force spills.
 244   call void @foo()
 245   %A = mul <2 x i64> %i, %j
 246   ret <2 x i64> %A
 247 }
 248
 249 define <4 x i64> @b1(<4 x i64> %i) nounwind  {
 250 ; AVX2-LABEL: @b1
 251 ; AVX2: vpbroadcastq
 252 ; AVX2-NEXT: vpmuludq
 253 ; AVX2-NEXT: vpsrlq  $32
 254 ; AVX2-NEXT: vpmuludq
 255 ; AVX2-NEXT: vpsllq  $32
 256 ; AVX2-NEXT: vpaddq
 257 ; AVX2-NEXT: retq
 258 entry:
 259   %A = mul <4 x i64> %i, < i64 117, i64 117, i64 117, i64 117 >
 260   ret <4 x i64> %A
 261 }
 262
 263 define <4 x i64> @b2(<4 x i64> %i, <4 x i64> %j) nounwind  {
 264 ; AVX2-LABEL: @b2
 265 ; AVX2:  vpmuludq
 266 ; AVX2-NEXT: vpsrlq  $32
 267 ; AVX2-NEXT: vpmuludq
 268 ; AVX2-NEXT: vpsllq  $32
 269 ; AVX2-NEXT: vpaddq
 270 ; AVX2-NEXT: vpsrlq  $32
 271 ; AVX2-NEXT: vpmuludq
 272 ; AVX2-NEXT: vpsllq  $32
 273 ; AVX2-NEXT: vpaddq
 274 ; AVX2-NEXT: retq
 275 entry:
 276   %A = mul <4 x i64> %i, %j
 277   ret <4 x i64> %A
 278 }
 279