test/MC/ARM/neon-dup-encoding.ll

   1 ; RUN: llc -show-mc-encoding -march=arm -mcpu=cortex-a8 -mattr=+neon < %s | FileCheck %s
   2
   3 define <8 x i8> @v_dup8(i8 %A) nounwind {
   4 ; CHECK: vdup.8 d16, r0                 @ encoding: [0x90,0x0b,0xc0,0xee]
   5         %tmp1 = insertelement <8 x i8> zeroinitializer, i8 %A, i32 0
   6         %tmp2 = insertelement <8 x i8> %tmp1, i8 %A, i32 1
   7         %tmp3 = insertelement <8 x i8> %tmp2, i8 %A, i32 2
   8         %tmp4 = insertelement <8 x i8> %tmp3, i8 %A, i32 3
   9         %tmp5 = insertelement <8 x i8> %tmp4, i8 %A, i32 4
  10         %tmp6 = insertelement <8 x i8> %tmp5, i8 %A, i32 5
  11         %tmp7 = insertelement <8 x i8> %tmp6, i8 %A, i32 6
  12         %tmp8 = insertelement <8 x i8> %tmp7, i8 %A, i32 7
  13         ret <8 x i8> %tmp8
  14 }
  15
  16 define <4 x i16> @v_dup16(i16 %A) nounwind {
  17 ; CHECK: vdup.16        d16, r0                 @ encoding: [0xb0,0x0b,0x80,0xee]
  18         %tmp1 = insertelement <4 x i16> zeroinitializer, i16 %A, i32 0
  19         %tmp2 = insertelement <4 x i16> %tmp1, i16 %A, i32 1
  20         %tmp3 = insertelement <4 x i16> %tmp2, i16 %A, i32 2
  21         %tmp4 = insertelement <4 x i16> %tmp3, i16 %A, i32 3
  22         ret <4 x i16> %tmp4
  23 }
  24
  25 define <2 x i32> @v_dup32(i32 %A) nounwind {
  26 ; CHECK: vdup.32        d16, r0                 @ encoding: [0x90,0x0b,0x80,0xee]
  27         %tmp1 = insertelement <2 x i32> zeroinitializer, i32 %A, i32 0
  28         %tmp2 = insertelement <2 x i32> %tmp1, i32 %A, i32 1
  29         ret <2 x i32> %tmp2
  30 }
  31
  32 define <16 x i8> @v_dupQ8(i8 %A) nounwind {
  33 ; CHECK: vdup.8 q8, r0                  @ encoding: [0x90,0x0b,0xe0,0xee]
  34         %tmp1 = insertelement <16 x i8> zeroinitializer, i8 %A, i32 0
  35         %tmp2 = insertelement <16 x i8> %tmp1, i8 %A, i32 1
  36         %tmp3 = insertelement <16 x i8> %tmp2, i8 %A, i32 2
  37         %tmp4 = insertelement <16 x i8> %tmp3, i8 %A, i32 3
  38         %tmp5 = insertelement <16 x i8> %tmp4, i8 %A, i32 4
  39         %tmp6 = insertelement <16 x i8> %tmp5, i8 %A, i32 5
  40         %tmp7 = insertelement <16 x i8> %tmp6, i8 %A, i32 6
  41         %tmp8 = insertelement <16 x i8> %tmp7, i8 %A, i32 7
  42         %tmp9 = insertelement <16 x i8> %tmp8, i8 %A, i32 8
  43         %tmp10 = insertelement <16 x i8> %tmp9, i8 %A, i32 9
  44         %tmp11 = insertelement <16 x i8> %tmp10, i8 %A, i32 10
  45         %tmp12 = insertelement <16 x i8> %tmp11, i8 %A, i32 11
  46         %tmp13 = insertelement <16 x i8> %tmp12, i8 %A, i32 12
  47         %tmp14 = insertelement <16 x i8> %tmp13, i8 %A, i32 13
  48         %tmp15 = insertelement <16 x i8> %tmp14, i8 %A, i32 14
  49         %tmp16 = insertelement <16 x i8> %tmp15, i8 %A, i32 15
  50         ret <16 x i8> %tmp16
  51 }
  52
  53 define <8 x i16> @v_dupQ16(i16 %A) nounwind {
  54 ; CHECK: vdup.16        q8, r0                  @ encoding: [0xb0,0x0b,0xa0,0xee]
  55         %tmp1 = insertelement <8 x i16> zeroinitializer, i16 %A, i32 0
  56         %tmp2 = insertelement <8 x i16> %tmp1, i16 %A, i32 1
  57         %tmp3 = insertelement <8 x i16> %tmp2, i16 %A, i32 2
  58         %tmp4 = insertelement <8 x i16> %tmp3, i16 %A, i32 3
  59         %tmp5 = insertelement <8 x i16> %tmp4, i16 %A, i32 4
  60         %tmp6 = insertelement <8 x i16> %tmp5, i16 %A, i32 5
  61         %tmp7 = insertelement <8 x i16> %tmp6, i16 %A, i32 6
  62         %tmp8 = insertelement <8 x i16> %tmp7, i16 %A, i32 7
  63         ret <8 x i16> %tmp8
  64 }
  65
  66 define <4 x i32> @v_dupQ32(i32 %A) nounwind {
  67 ; CHECK: vdup.32        q8, r0                  @ encoding: [0x90,0x0b,0xa0,0xee]
  68         %tmp1 = insertelement <4 x i32> zeroinitializer, i32 %A, i32 0
  69         %tmp2 = insertelement <4 x i32> %tmp1, i32 %A, i32 1
  70         %tmp3 = insertelement <4 x i32> %tmp2, i32 %A, i32 2
  71         %tmp4 = insertelement <4 x i32> %tmp3, i32 %A, i32 3
  72         ret <4 x i32> %tmp4
  73 }
  74
  75 define <8 x i8> @vduplane8(<8 x i8>* %A) nounwind {
  76         %tmp1 = load <8 x i8>* %A
  77 ; CHECK: vdup.8 d16, d16[1]             @ encoding: [0x20,0x0c,0xf3,0xf3]
  78         %tmp2 = shufflevector <8 x i8> %tmp1, <8 x i8> undef, <8 x i32> < i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1 >
  79         ret <8 x i8> %tmp2
  80 }
  81
  82 define <4 x i16> @vduplane16(<4 x i16>* %A) nounwind {
  83         %tmp1 = load <4 x i16>* %A
  84 ; CHECK: vdup.16        d16, d16[1]             @ encoding: [0x20,0x0c,0xf6,0xf3]
  85         %tmp2 = shufflevector <4 x i16> %tmp1, <4 x i16> undef, <4 x i32> < i32 1, i32 1, i32 1, i32 1 >
  86         ret <4 x i16> %tmp2
  87 }
  88
  89 define <2 x i32> @vduplane32(<2 x i32>* %A) nounwind {
  90         %tmp1 = load <2 x i32>* %A
  91 ; CHECK: vdup.32        d16, d16[1]             @ encoding: [0x20,0x0c,0xfc,0xf3]
  92         %tmp2 = shufflevector <2 x i32> %tmp1, <2 x i32> undef, <2 x i32> < i32 1, i32 1 >
  93         ret <2 x i32> %tmp2
  94 }
  95
  96 define <16 x i8> @vduplaneQ8(<8 x i8>* %A) nounwind {
  97         %tmp1 = load <8 x i8>* %A
  98 ; CHECK: vdup.8 q8, d16[1]              @ encoding: [0x60,0x0c,0xf3,0xf3]
  99         %tmp2 = shufflevector <8 x i8> %tmp1, <8 x i8> undef, <16 x i32> < i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1 >
 100         ret <16 x i8> %tmp2
 101 }
 102
 103 define <8 x i16> @vduplaneQ16(<4 x i16>* %A) nounwind {
 104         %tmp1 = load <4 x i16>* %A
 105 ; CHECK: vdup.16        q8, d16[1]              @ encoding: [0x60,0x0c,0xf6,0xf3]
 106         %tmp2 = shufflevector <4 x i16> %tmp1, <4 x i16> undef, <8 x i32> < i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1 >
 107         ret <8 x i16> %tmp2
 108 }
 109
 110 define <4 x i32> @vduplaneQ32(<2 x i32>* %A) nounwind {
 111         %tmp1 = load <2 x i32>* %A
 112 ; CHECK: vdup.32        q8, d16[1]              @ encoding: [0x60,0x0c,0xfc,0xf3]
 113         %tmp2 = shufflevector <2 x i32> %tmp1, <2 x i32> undef, <4 x i32> < i32 1, i32 1, i32 1, i32 1 >
 114         ret <4 x i32> %tmp2
 115 }