Add a new shuffle test case that requires pshuflw / pshufhw pair.
[oota-llvm.git] / test / CodeGen / X86 / vec_shuffle.ll
1 ; RUN: llvm-as < %s | llc -march=x86 -mattr=+sse2 | grep shufp | wc -l | grep 1
2 ; RUN: llvm-as < %s | llc -march=x86 -mattr=+sse2 | grep movhpd | wc -l | grep 1
3 ; RUN: llvm-as < %s | llc -march=x86 -mattr=+sse2 | grep pshufhw | wc -l | grep 2
4 ; RUN: llvm-as < %s | llc -march=x86 -mattr=+sse2 | grep pshuflw | wc -l | grep 1
5
6 void %test_v4sf(<4 x float>* %P, float %X, float %Y) {
7         %tmp = insertelement <4 x float> zeroinitializer, float %X, uint 0
8         %tmp2 = insertelement <4 x float> %tmp, float %X, uint 1
9         %tmp4 = insertelement <4 x float> %tmp2, float %Y, uint 2
10         %tmp6 = insertelement <4 x float> %tmp4, float %Y, uint 3
11         store <4 x float> %tmp6, <4 x float>* %P
12         ret void
13 }
14
15 void %test_v2sd(<2 x double>* %P, double %X, double %Y) {
16         %tmp = insertelement <2 x double> zeroinitializer, double %X, uint 0
17         %tmp2 = insertelement <2 x double> %tmp, double %Y, uint 1
18         store <2 x double> %tmp2, <2 x double>* %P
19         ret void
20 }
21
22 void %test_v8i16(<2 x long>* %res, <2 x long>* %A) {
23         %tmp = load <2 x long>* %A
24         %tmp = cast <2 x long> %tmp to <8 x short>
25         %tmp = extractelement <8 x short> %tmp, uint 0
26         %tmp1 = extractelement <8 x short> %tmp, uint 1
27         %tmp2 = extractelement <8 x short> %tmp, uint 2
28         %tmp3 = extractelement <8 x short> %tmp, uint 3
29         %tmp4 = extractelement <8 x short> %tmp, uint 6
30         %tmp5 = extractelement <8 x short> %tmp, uint 5
31         %tmp6 = extractelement <8 x short> %tmp, uint 4
32         %tmp7 = extractelement <8 x short> %tmp, uint 7
33         %tmp8 = insertelement <8 x short> undef, short %tmp, uint 0
34         %tmp9 = insertelement <8 x short> %tmp8, short %tmp1, uint 1
35         %tmp10 = insertelement <8 x short> %tmp9, short %tmp2, uint 2
36         %tmp11 = insertelement <8 x short> %tmp10, short %tmp3, uint 3
37         %tmp12 = insertelement <8 x short> %tmp11, short %tmp4, uint 4
38         %tmp13 = insertelement <8 x short> %tmp12, short %tmp5, uint 5
39         %tmp14 = insertelement <8 x short> %tmp13, short %tmp6, uint 6
40         %tmp15 = insertelement <8 x short> %tmp14, short %tmp7, uint 7
41         %tmp15 = cast <8 x short> %tmp15 to <2 x long>
42         store <2 x long> %tmp15, <2 x long>* %res
43         ret void
44 }
45
46 void %test_v8i16_2(<2 x long>* %res, <2 x long>* %A) {
47         %tmp = load <2 x long>* %A
48         %tmp = cast <2 x long> %tmp to <8 x short>
49         %tmp0 = extractelement <8 x short> %tmp, uint 0
50         %tmp1 = extractelement <8 x short> %tmp, uint 1
51         %tmp2 = extractelement <8 x short> %tmp, uint 2
52         %tmp3 = extractelement <8 x short> %tmp, uint 3
53         %tmp4 = extractelement <8 x short> %tmp, uint 4
54         %tmp5 = extractelement <8 x short> %tmp, uint 5
55         %tmp6 = extractelement <8 x short> %tmp, uint 6
56         %tmp7 = extractelement <8 x short> %tmp, uint 7
57         %tmp8 = insertelement <8 x short> undef, short %tmp2, uint 0
58         %tmp9 = insertelement <8 x short> %tmp8, short %tmp1, uint 1
59         %tmp10 = insertelement <8 x short> %tmp9, short %tmp0, uint 2
60         %tmp11 = insertelement <8 x short> %tmp10, short %tmp3, uint 3
61         %tmp12 = insertelement <8 x short> %tmp11, short %tmp6, uint 4
62         %tmp13 = insertelement <8 x short> %tmp12, short %tmp5, uint 5
63         %tmp14 = insertelement <8 x short> %tmp13, short %tmp4, uint 6
64         %tmp15 = insertelement <8 x short> %tmp14, short %tmp7, uint 7
65         %tmp15 = cast <8 x short> %tmp15 to <2 x long>
66         store <2 x long> %tmp15, <2 x long>* %res
67         ret void
68 }