CodeGen peephole: fold redundant phys reg copies

[oota-llvm.git] / test / CodeGen / X86 / vector-popcnt-128.ll
diff --git a/test/CodeGen/X86/vector-popcnt-128.ll b/test/CodeGen/X86/vector-popcnt-128.ll

index dc99fec3d475b649baaf1f5d3e565129681f627f..358bd40182907a4fb574a565732335ffa2352fd6 100644 (file)
--- a/test/CodeGen/X86/vector-popcnt-128.ll
+++ b/test/CodeGen/X86/vector-popcnt-128.ll
@@ -1,13 +1,12 @@
-; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 | FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE2
-; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+sse3 | FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE3
-; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+ssse3 | FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSSE3
-; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+sse4.1 | FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE41
-; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+avx | FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1
-; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+avx2 | FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2
+; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
+; RUN: llc < %s -mtriple=x86_64-unknown-unknown | FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE2
+; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse3 | FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE3
+; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+ssse3 | FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSSE3
+; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 | FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE41
+; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx | FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1
+; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 | FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2
  
-target triple = "x86_64-unknown-unknown"
-
-define <2 x i64> @testv2i64(<2 x i64> %in) {
+define <2 x i64> @testv2i64(<2 x i64> %in) nounwind {
  ; SSE2-LABEL: testv2i64:
  ; SSE2:       # BB#0:
  ; SSE2-NEXT:    movdqa %xmm0, %xmm1
@@ -24,16 +23,9 @@ define <2 x i64> @testv2i64(<2 x i64> %in) {
  ; SSE2-NEXT:    psrlq $4, %xmm1
  ; SSE2-NEXT:    paddq %xmm0, %xmm1
  ; SSE2-NEXT:    pand {{.*}}(%rip), %xmm1
+; SSE2-NEXT:    pxor %xmm0, %xmm0
+; SSE2-NEXT:    psadbw %xmm0, %xmm1
  ; SSE2-NEXT:    movdqa %xmm1, %xmm0
-; SSE2-NEXT:    psllq $32, %xmm0
-; SSE2-NEXT:    paddb %xmm1, %xmm0
-; SSE2-NEXT:    movdqa %xmm0, %xmm1
-; SSE2-NEXT:    psllq $16, %xmm1
-; SSE2-NEXT:    paddb %xmm0, %xmm1
-; SSE2-NEXT:    movdqa %xmm1, %xmm0
-; SSE2-NEXT:    psllq $8, %xmm0
-; SSE2-NEXT:    paddb %xmm1, %xmm0
-; SSE2-NEXT:    psrlq $56, %xmm0
  ; SSE2-NEXT:    retq
  ;
  ; SSE3-LABEL: testv2i64:
@@ -52,16 +44,9 @@ define <2 x i64> @testv2i64(<2 x i64> %in) {
  ; SSE3-NEXT:    psrlq $4, %xmm1
  ; SSE3-NEXT:    paddq %xmm0, %xmm1
  ; SSE3-NEXT:    pand {{.*}}(%rip), %xmm1
+; SSE3-NEXT:    pxor %xmm0, %xmm0
+; SSE3-NEXT:    psadbw %xmm0, %xmm1
  ; SSE3-NEXT:    movdqa %xmm1, %xmm0
-; SSE3-NEXT:    psllq $32, %xmm0
-; SSE3-NEXT:    paddb %xmm1, %xmm0
-; SSE3-NEXT:    movdqa %xmm0, %xmm1
-; SSE3-NEXT:    psllq $16, %xmm1
-; SSE3-NEXT:    paddb %xmm0, %xmm1
-; SSE3-NEXT:    movdqa %xmm1, %xmm0
-; SSE3-NEXT:    psllq $8, %xmm0
-; SSE3-NEXT:    paddb %xmm1, %xmm0
-; SSE3-NEXT:    psrlq $56, %xmm0
  ; SSE3-NEXT:    retq
  ;
  ; SSSE3-LABEL: testv2i64:
@@ -107,13 +92,13 @@ define <2 x i64> @testv2i64(<2 x i64> %in) {
  ; AVX-NEXT:    vpshufb %xmm0, %xmm3, %xmm0
  ; AVX-NEXT:    vpaddb %xmm2, %xmm0, %xmm0
  ; AVX-NEXT:    vpxor %xmm1, %xmm1, %xmm1
-; AVX-NEXT:    vpsadbw %xmm0, %xmm1, %xmm0
+; AVX-NEXT:    vpsadbw %xmm1, %xmm0, %xmm0
  ; AVX-NEXT:    retq
    %out = call <2 x i64> @llvm.ctpop.v2i64(<2 x i64> %in)
    ret <2 x i64> %out
  }
  
-define <4 x i32> @testv4i32(<4 x i32> %in) {
+define <4 x i32> @testv4i32(<4 x i32> %in) nounwind {
  ; SSE2-LABEL: testv4i32:
  ; SSE2:       # BB#0:
  ; SSE2-NEXT:    movdqa %xmm0, %xmm1
@@ -130,13 +115,14 @@ define <4 x i32> @testv4i32(<4 x i32> %in) {
  ; SSE2-NEXT:    psrld $4, %xmm1
  ; SSE2-NEXT:    paddd %xmm0, %xmm1
  ; SSE2-NEXT:    pand {{.*}}(%rip), %xmm1
+; SSE2-NEXT:    pxor %xmm0, %xmm0
  ; SSE2-NEXT:    movdqa %xmm1, %xmm2
-; SSE2-NEXT:    psllq $16, %xmm2
-; SSE2-NEXT:    paddb %xmm1, %xmm2
-; SSE2-NEXT:    movdqa %xmm2, %xmm0
-; SSE2-NEXT:    psllq $8, %xmm0
-; SSE2-NEXT:    paddb %xmm2, %xmm0
-; SSE2-NEXT:    psrld $24, %xmm0
+; SSE2-NEXT:    punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm0[2],xmm2[3],xmm0[3]
+; SSE2-NEXT:    psadbw %xmm0, %xmm2
+; SSE2-NEXT:    punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
+; SSE2-NEXT:    psadbw %xmm0, %xmm1
+; SSE2-NEXT:    packuswb %xmm2, %xmm1
+; SSE2-NEXT:    movdqa %xmm1, %xmm0
  ; SSE2-NEXT:    retq
  ;
  ; SSE3-LABEL: testv4i32:
@@ -155,13 +141,14 @@ define <4 x i32> @testv4i32(<4 x i32> %in) {
  ; SSE3-NEXT:    psrld $4, %xmm1
  ; SSE3-NEXT:    paddd %xmm0, %xmm1
  ; SSE3-NEXT:    pand {{.*}}(%rip), %xmm1
+; SSE3-NEXT:    pxor %xmm0, %xmm0
  ; SSE3-NEXT:    movdqa %xmm1, %xmm2
-; SSE3-NEXT:    psllq $16, %xmm2
-; SSE3-NEXT:    paddb %xmm1, %xmm2
-; SSE3-NEXT:    movdqa %xmm2, %xmm0
-; SSE3-NEXT:    psllq $8, %xmm0
-; SSE3-NEXT:    paddb %xmm2, %xmm0
-; SSE3-NEXT:    psrld $24, %xmm0
+; SSE3-NEXT:    punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm0[2],xmm2[3],xmm0[3]
+; SSE3-NEXT:    psadbw %xmm0, %xmm2
+; SSE3-NEXT:    punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
+; SSE3-NEXT:    psadbw %xmm0, %xmm1
+; SSE3-NEXT:    packuswb %xmm2, %xmm1
+; SSE3-NEXT:    movdqa %xmm1, %xmm0
  ; SSE3-NEXT:    retq
  ;
  ; SSSE3-LABEL: testv4i32:
@@ -220,16 +207,16 @@ define <4 x i32> @testv4i32(<4 x i32> %in) {
  ; AVX-NEXT:    vpaddb %xmm2, %xmm0, %xmm0
  ; AVX-NEXT:    vpxor %xmm1, %xmm1, %xmm1
  ; AVX-NEXT:    vpunpckhdq {{.*#+}} xmm2 = xmm0[2],xmm1[2],xmm0[3],xmm1[3]
-; AVX-NEXT:    vpsadbw %xmm2, %xmm1, %xmm2
+; AVX-NEXT:    vpsadbw %xmm1, %xmm2, %xmm2
  ; AVX-NEXT:    vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
-; AVX-NEXT:    vpsadbw %xmm0, %xmm1, %xmm0
+; AVX-NEXT:    vpsadbw %xmm1, %xmm0, %xmm0
  ; AVX-NEXT:    vpackuswb %xmm2, %xmm0, %xmm0
  ; AVX-NEXT:    retq
    %out = call <4 x i32> @llvm.ctpop.v4i32(<4 x i32> %in)
    ret <4 x i32> %out
  }
  
-define <8 x i16> @testv8i16(<8 x i16> %in) {
+define <8 x i16> @testv8i16(<8 x i16> %in) nounwind {
  ; SSE2-LABEL: testv8i16:
  ; SSE2:       # BB#0:
  ; SSE2-NEXT:    movdqa %xmm0, %xmm1
@@ -247,7 +234,7 @@ define <8 x i16> @testv8i16(<8 x i16> %in) {
  ; SSE2-NEXT:    paddw %xmm0, %xmm1
  ; SSE2-NEXT:    pand {{.*}}(%rip), %xmm1
  ; SSE2-NEXT:    movdqa %xmm1, %xmm0
-; SSE2-NEXT:    psllq $8, %xmm0
+; SSE2-NEXT:    psllw $8, %xmm0
  ; SSE2-NEXT:    paddb %xmm1, %xmm0
  ; SSE2-NEXT:    psrlw $8, %xmm0
  ; SSE2-NEXT:    retq
@@ -269,30 +256,27 @@ define <8 x i16> @testv8i16(<8 x i16> %in) {
  ; SSE3-NEXT:    paddw %xmm0, %xmm1
  ; SSE3-NEXT:    pand {{.*}}(%rip), %xmm1
  ; SSE3-NEXT:    movdqa %xmm1, %xmm0
-; SSE3-NEXT:    psllq $8, %xmm0
+; SSE3-NEXT:    psllw $8, %xmm0
  ; SSE3-NEXT:    paddb %xmm1, %xmm0
  ; SSE3-NEXT:    psrlw $8, %xmm0
  ; SSE3-NEXT:    retq
  ;
  ; SSSE3-LABEL: testv8i16:
  ; SSSE3:       # BB#0:
-; SSSE3-NEXT:    movdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
-; SSSE3-NEXT:    movdqa %xmm0, %xmm3
-; SSSE3-NEXT:    pand %xmm2, %xmm3
-; SSSE3-NEXT:    movdqa {{.*#+}} xmm1 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
-; SSSE3-NEXT:    movdqa %xmm1, %xmm4
-; SSSE3-NEXT:    pshufb %xmm3, %xmm4
+; SSSE3-NEXT:    movdqa {{.*#+}} xmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
+; SSSE3-NEXT:    movdqa %xmm0, %xmm2
+; SSSE3-NEXT:    pand %xmm1, %xmm2
+; SSSE3-NEXT:    movdqa {{.*#+}} xmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
+; SSSE3-NEXT:    movdqa %xmm3, %xmm4
+; SSSE3-NEXT:    pshufb %xmm2, %xmm4
  ; SSSE3-NEXT:    psrlw $4, %xmm0
-; SSSE3-NEXT:    pand %xmm2, %xmm0
-; SSSE3-NEXT:    pshufb %xmm0, %xmm1
-; SSSE3-NEXT:    paddb %xmm4, %xmm1
-; SSSE3-NEXT:    movdqa %xmm1, %xmm0
-; SSSE3-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[1,3,5,7,9,11,13,15,u,u,u,u,u,u,u,u]
-; SSSE3-NEXT:    pshufb {{.*#+}} xmm1 = xmm1[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]
-; SSSE3-NEXT:    paddb %xmm0, %xmm1
-; SSSE3-NEXT:    pxor %xmm0, %xmm0
-; SSSE3-NEXT:    punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
-; SSSE3-NEXT:    movdqa %xmm1, %xmm0
+; SSSE3-NEXT:    pand %xmm1, %xmm0
+; SSSE3-NEXT:    pshufb %xmm0, %xmm3
+; SSSE3-NEXT:    paddb %xmm4, %xmm3
+; SSSE3-NEXT:    movdqa %xmm3, %xmm0
+; SSSE3-NEXT:    psllw $8, %xmm0
+; SSSE3-NEXT:    paddb %xmm3, %xmm0
+; SSSE3-NEXT:    psrlw $8, %xmm0
  ; SSSE3-NEXT:    retq
  ;
  ; SSE41-LABEL: testv8i16:
@@ -308,10 +292,9 @@ define <8 x i16> @testv8i16(<8 x i16> %in) {
  ; SSE41-NEXT:    pshufb %xmm0, %xmm3
  ; SSE41-NEXT:    paddb %xmm4, %xmm3
  ; SSE41-NEXT:    movdqa %xmm3, %xmm0
-; SSE41-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[1,3,5,7,9,11,13,15,u,u,u,u,u,u,u,u]
-; SSE41-NEXT:    pshufb {{.*#+}} xmm3 = xmm3[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]
-; SSE41-NEXT:    paddb %xmm0, %xmm3
-; SSE41-NEXT:    pmovzxbw {{.*#+}} xmm0 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+; SSE41-NEXT:    psllw $8, %xmm0
+; SSE41-NEXT:    paddb %xmm3, %xmm0
+; SSE41-NEXT:    psrlw $8, %xmm0
  ; SSE41-NEXT:    retq
  ;
  ; AVX-LABEL: testv8i16:
@@ -324,36 +307,31 @@ define <8 x i16> @testv8i16(<8 x i16> %in) {
  ; AVX-NEXT:    vpand %xmm1, %xmm0, %xmm0
  ; AVX-NEXT:    vpshufb %xmm0, %xmm3, %xmm0
  ; AVX-NEXT:    vpaddb %xmm2, %xmm0, %xmm0
-; AVX-NEXT:    vpshufb {{.*#+}} xmm1 = xmm0[1,3,5,7,9,11,13,15,u,u,u,u,u,u,u,u]
-; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]
-; AVX-NEXT:    vpaddb %xmm1, %xmm0, %xmm0
-; AVX-NEXT:    vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
+; AVX-NEXT:    vpsllw $8, %xmm0, %xmm1
+; AVX-NEXT:    vpaddb %xmm0, %xmm1, %xmm0
+; AVX-NEXT:    vpsrlw $8, %xmm0, %xmm0
  ; AVX-NEXT:    retq
    %out = call <8 x i16> @llvm.ctpop.v8i16(<8 x i16> %in)
    ret <8 x i16> %out
  }
  
-define <16 x i8> @testv16i8(<16 x i8> %in) {
+define <16 x i8> @testv16i8(<16 x i8> %in) nounwind {
  ; SSE2-LABEL: testv16i8:
  ; SSE2:       # BB#0:
  ; SSE2-NEXT:    movdqa %xmm0, %xmm1
  ; SSE2-NEXT:    psrlw $1, %xmm1
  ; SSE2-NEXT:    pand {{.*}}(%rip), %xmm1
-; SSE2-NEXT:    pand {{.*}}(%rip), %xmm1
  ; SSE2-NEXT:    psubb %xmm1, %xmm0
  ; SSE2-NEXT:    movdqa {{.*#+}} xmm1 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]
  ; SSE2-NEXT:    movdqa %xmm0, %xmm2
  ; SSE2-NEXT:    pand %xmm1, %xmm2
  ; SSE2-NEXT:    psrlw $2, %xmm0
-; SSE2-NEXT:    pand {{.*}}(%rip), %xmm0
  ; SSE2-NEXT:    pand %xmm1, %xmm0
  ; SSE2-NEXT:    paddb %xmm2, %xmm0
  ; SSE2-NEXT:    movdqa %xmm0, %xmm1
  ; SSE2-NEXT:    psrlw $4, %xmm1
-; SSE2-NEXT:    movdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
-; SSE2-NEXT:    pand %xmm2, %xmm1
  ; SSE2-NEXT:    paddb %xmm0, %xmm1
-; SSE2-NEXT:    pand %xmm2, %xmm1
+; SSE2-NEXT:    pand {{.*}}(%rip), %xmm1
  ; SSE2-NEXT:    movdqa %xmm1, %xmm0
  ; SSE2-NEXT:    retq
  ;
@@ -362,21 +340,17 @@ define <16 x i8> @testv16i8(<16 x i8> %in) {
  ; SSE3-NEXT:    movdqa %xmm0, %xmm1
  ; SSE3-NEXT:    psrlw $1, %xmm1
  ; SSE3-NEXT:    pand {{.*}}(%rip), %xmm1
-; SSE3-NEXT:    pand {{.*}}(%rip), %xmm1
  ; SSE3-NEXT:    psubb %xmm1, %xmm0
  ; SSE3-NEXT:    movdqa {{.*#+}} xmm1 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]
  ; SSE3-NEXT:    movdqa %xmm0, %xmm2
  ; SSE3-NEXT:    pand %xmm1, %xmm2
  ; SSE3-NEXT:    psrlw $2, %xmm0
-; SSE3-NEXT:    pand {{.*}}(%rip), %xmm0
  ; SSE3-NEXT:    pand %xmm1, %xmm0
  ; SSE3-NEXT:    paddb %xmm2, %xmm0
  ; SSE3-NEXT:    movdqa %xmm0, %xmm1
  ; SSE3-NEXT:    psrlw $4, %xmm1
-; SSE3-NEXT:    movdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
-; SSE3-NEXT:    pand %xmm2, %xmm1
  ; SSE3-NEXT:    paddb %xmm0, %xmm1
-; SSE3-NEXT:    pand %xmm2, %xmm1
+; SSE3-NEXT:    pand {{.*}}(%rip), %xmm1
  ; SSE3-NEXT:    movdqa %xmm1, %xmm0
  ; SSE3-NEXT:    retq
  ;
@@ -425,6 +399,62 @@ define <16 x i8> @testv16i8(<16 x i8> %in) {
    ret <16 x i8> %out
  }
  
+define <2 x i64> @foldv2i64() nounwind {
+; SSE-LABEL: foldv2i64:
+; SSE:       # BB#0:
+; SSE-NEXT:    movaps {{.*#+}} xmm0 = [1,64]
+; SSE-NEXT:    retq
+;
+; AVX-LABEL: foldv2i64:
+; AVX:       # BB#0:
+; AVX-NEXT:    vmovaps {{.*#+}} xmm0 = [1,64]
+; AVX-NEXT:    retq
+  %out = call <2 x i64> @llvm.ctpop.v2i64(<2 x i64> <i64 256, i64 -1>)
+  ret <2 x i64> %out
+}
+
+define <4 x i32> @foldv4i32() nounwind {
+; SSE-LABEL: foldv4i32:
+; SSE:       # BB#0:
+; SSE-NEXT:    movaps {{.*#+}} xmm0 = [1,32,0,8]
+; SSE-NEXT:    retq
+;
+; AVX-LABEL: foldv4i32:
+; AVX:       # BB#0:
+; AVX-NEXT:    vmovaps {{.*#+}} xmm0 = [1,32,0,8]
+; AVX-NEXT:    retq
+  %out = call <4 x i32> @llvm.ctpop.v4i32(<4 x i32> <i32 256, i32 -1, i32 0, i32 255>)
+  ret <4 x i32> %out
+}
+
+define <8 x i16> @foldv8i16() nounwind {
+; SSE-LABEL: foldv8i16:
+; SSE:       # BB#0:
+; SSE-NEXT:    movaps {{.*#+}} xmm0 = [1,16,0,8,0,3,2,3]
+; SSE-NEXT:    retq
+;
+; AVX-LABEL: foldv8i16:
+; AVX:       # BB#0:
+; AVX-NEXT:    vmovaps {{.*#+}} xmm0 = [1,16,0,8,0,3,2,3]
+; AVX-NEXT:    retq
+  %out = call <8 x i16> @llvm.ctpop.v8i16(<8 x i16> <i16 256, i16 -1, i16 0, i16 255, i16 -65536, i16 7, i16 24, i16 88>)
+  ret <8 x i16> %out
+}
+
+define <16 x i8> @foldv16i8() nounwind {
+; SSE-LABEL: foldv16i8:
+; SSE:       # BB#0:
+; SSE-NEXT:    movaps {{.*#+}} xmm0 = [0,8,0,8,0,3,2,3,7,7,1,1,1,1,1,1]
+; SSE-NEXT:    retq
+;
+; AVX-LABEL: foldv16i8:
+; AVX:       # BB#0:
+; AVX-NEXT:    vmovaps {{.*#+}} xmm0 = [0,8,0,8,0,3,2,3,7,7,1,1,1,1,1,1]
+; AVX-NEXT:    retq
+  %out = call <16 x i8> @llvm.ctpop.v16i8(<16 x i8> <i8 256, i8 -1, i8 0, i8 255, i8 -65536, i8 7, i8 24, i8 88, i8 -2, i8 254, i8 1, i8 2, i8 4, i8 8, i8 16, i8 32>)
+  ret <16 x i8> %out
+}
+
  declare <2 x i64> @llvm.ctpop.v2i64(<2 x i64>)
  declare <4 x i32> @llvm.ctpop.v4i32(<4 x i32>)
  declare <8 x i16> @llvm.ctpop.v8i16(<8 x i16>)