test/CodeGen/ARM/vmla.ll

   1 ; RUN: llc < %s -march=arm -mattr=+neon | FileCheck %s
   2
   3 define <8 x i8> @vmlai8(<8 x i8>* %A, <8 x i8>* %B, <8 x i8> * %C) nounwind {
   4 ;CHECK: vmlai8:
   5 ;CHECK: vmla.i8
   6         %tmp1 = load <8 x i8>* %A
   7         %tmp2 = load <8 x i8>* %B
   8         %tmp3 = load <8 x i8>* %C
   9         %tmp4 = mul <8 x i8> %tmp2, %tmp3
  10         %tmp5 = add <8 x i8> %tmp1, %tmp4
  11         ret <8 x i8> %tmp5
  12 }
  13
  14 define <4 x i16> @vmlai16(<4 x i16>* %A, <4 x i16>* %B, <4 x i16>* %C) nounwind {
  15 ;CHECK: vmlai16:
  16 ;CHECK: vmla.i16
  17         %tmp1 = load <4 x i16>* %A
  18         %tmp2 = load <4 x i16>* %B
  19         %tmp3 = load <4 x i16>* %C
  20         %tmp4 = mul <4 x i16> %tmp2, %tmp3
  21         %tmp5 = add <4 x i16> %tmp1, %tmp4
  22         ret <4 x i16> %tmp5
  23 }
  24
  25 define <2 x i32> @vmlai32(<2 x i32>* %A, <2 x i32>* %B, <2 x i32>* %C) nounwind {
  26 ;CHECK: vmlai32:
  27 ;CHECK: vmla.i32
  28         %tmp1 = load <2 x i32>* %A
  29         %tmp2 = load <2 x i32>* %B
  30         %tmp3 = load <2 x i32>* %C
  31         %tmp4 = mul <2 x i32> %tmp2, %tmp3
  32         %tmp5 = add <2 x i32> %tmp1, %tmp4
  33         ret <2 x i32> %tmp5
  34 }
  35
  36 define <2 x float> @vmlaf32(<2 x float>* %A, <2 x float>* %B, <2 x float>* %C) nounwind {
  37 ;CHECK: vmlaf32:
  38 ;CHECK: vmla.f32
  39         %tmp1 = load <2 x float>* %A
  40         %tmp2 = load <2 x float>* %B
  41         %tmp3 = load <2 x float>* %C
  42         %tmp4 = mul <2 x float> %tmp2, %tmp3
  43         %tmp5 = add <2 x float> %tmp1, %tmp4
  44         ret <2 x float> %tmp5
  45 }
  46
  47 define <16 x i8> @vmlaQi8(<16 x i8>* %A, <16 x i8>* %B, <16 x i8> * %C) nounwind {
  48 ;CHECK: vmlaQi8:
  49 ;CHECK: vmla.i8
  50         %tmp1 = load <16 x i8>* %A
  51         %tmp2 = load <16 x i8>* %B
  52         %tmp3 = load <16 x i8>* %C
  53         %tmp4 = mul <16 x i8> %tmp2, %tmp3
  54         %tmp5 = add <16 x i8> %tmp1, %tmp4
  55         ret <16 x i8> %tmp5
  56 }
  57
  58 define <8 x i16> @vmlaQi16(<8 x i16>* %A, <8 x i16>* %B, <8 x i16>* %C) nounwind {
  59 ;CHECK: vmlaQi16:
  60 ;CHECK: vmla.i16
  61         %tmp1 = load <8 x i16>* %A
  62         %tmp2 = load <8 x i16>* %B
  63         %tmp3 = load <8 x i16>* %C
  64         %tmp4 = mul <8 x i16> %tmp2, %tmp3
  65         %tmp5 = add <8 x i16> %tmp1, %tmp4
  66         ret <8 x i16> %tmp5
  67 }
  68
  69 define <4 x i32> @vmlaQi32(<4 x i32>* %A, <4 x i32>* %B, <4 x i32>* %C) nounwind {
  70 ;CHECK: vmlaQi32:
  71 ;CHECK: vmla.i32
  72         %tmp1 = load <4 x i32>* %A
  73         %tmp2 = load <4 x i32>* %B
  74         %tmp3 = load <4 x i32>* %C
  75         %tmp4 = mul <4 x i32> %tmp2, %tmp3
  76         %tmp5 = add <4 x i32> %tmp1, %tmp4
  77         ret <4 x i32> %tmp5
  78 }
  79
  80 define <4 x float> @vmlaQf32(<4 x float>* %A, <4 x float>* %B, <4 x float>* %C) nounwind {
  81 ;CHECK: vmlaQf32:
  82 ;CHECK: vmla.f32
  83         %tmp1 = load <4 x float>* %A
  84         %tmp2 = load <4 x float>* %B
  85         %tmp3 = load <4 x float>* %C
  86         %tmp4 = mul <4 x float> %tmp2, %tmp3
  87         %tmp5 = add <4 x float> %tmp1, %tmp4
  88         ret <4 x float> %tmp5
  89 }
  90
  91 define <8 x i16> @vmlals8(<8 x i16>* %A, <8 x i8>* %B, <8 x i8>* %C) nounwind {
  92 ;CHECK: vmlals8:
  93 ;CHECK: vmlal.s8
  94         %tmp1 = load <8 x i16>* %A
  95         %tmp2 = load <8 x i8>* %B
  96         %tmp3 = load <8 x i8>* %C
  97         %tmp4 = call <8 x i16> @llvm.arm.neon.vmlals.v8i16(<8 x i16> %tmp1, <8 x i8> %tmp2, <8 x i8> %tmp3)
  98         ret <8 x i16> %tmp4
  99 }
 100
 101 define <4 x i32> @vmlals16(<4 x i32>* %A, <4 x i16>* %B, <4 x i16>* %C) nounwind {
 102 ;CHECK: vmlals16:
 103 ;CHECK: vmlal.s16
 104         %tmp1 = load <4 x i32>* %A
 105         %tmp2 = load <4 x i16>* %B
 106         %tmp3 = load <4 x i16>* %C
 107         %tmp4 = call <4 x i32> @llvm.arm.neon.vmlals.v4i32(<4 x i32> %tmp1, <4 x i16> %tmp2, <4 x i16> %tmp3)
 108         ret <4 x i32> %tmp4
 109 }
 110
 111 define <2 x i64> @vmlals32(<2 x i64>* %A, <2 x i32>* %B, <2 x i32>* %C) nounwind {
 112 ;CHECK: vmlals32:
 113 ;CHECK: vmlal.s32
 114         %tmp1 = load <2 x i64>* %A
 115         %tmp2 = load <2 x i32>* %B
 116         %tmp3 = load <2 x i32>* %C
 117         %tmp4 = call <2 x i64> @llvm.arm.neon.vmlals.v2i64(<2 x i64> %tmp1, <2 x i32> %tmp2, <2 x i32> %tmp3)
 118         ret <2 x i64> %tmp4
 119 }
 120
 121 define <8 x i16> @vmlalu8(<8 x i16>* %A, <8 x i8>* %B, <8 x i8>* %C) nounwind {
 122 ;CHECK: vmlalu8:
 123 ;CHECK: vmlal.u8
 124         %tmp1 = load <8 x i16>* %A
 125         %tmp2 = load <8 x i8>* %B
 126         %tmp3 = load <8 x i8>* %C
 127         %tmp4 = call <8 x i16> @llvm.arm.neon.vmlalu.v8i16(<8 x i16> %tmp1, <8 x i8> %tmp2, <8 x i8> %tmp3)
 128         ret <8 x i16> %tmp4
 129 }
 130
 131 define <4 x i32> @vmlalu16(<4 x i32>* %A, <4 x i16>* %B, <4 x i16>* %C) nounwind {
 132 ;CHECK: vmlalu16:
 133 ;CHECK: vmlal.u16
 134         %tmp1 = load <4 x i32>* %A
 135         %tmp2 = load <4 x i16>* %B
 136         %tmp3 = load <4 x i16>* %C
 137         %tmp4 = call <4 x i32> @llvm.arm.neon.vmlalu.v4i32(<4 x i32> %tmp1, <4 x i16> %tmp2, <4 x i16> %tmp3)
 138         ret <4 x i32> %tmp4
 139 }
 140
 141 define <2 x i64> @vmlalu32(<2 x i64>* %A, <2 x i32>* %B, <2 x i32>* %C) nounwind {
 142 ;CHECK: vmlalu32:
 143 ;CHECK: vmlal.u32
 144         %tmp1 = load <2 x i64>* %A
 145         %tmp2 = load <2 x i32>* %B
 146         %tmp3 = load <2 x i32>* %C
 147         %tmp4 = call <2 x i64> @llvm.arm.neon.vmlalu.v2i64(<2 x i64> %tmp1, <2 x i32> %tmp2, <2 x i32> %tmp3)
 148         ret <2 x i64> %tmp4
 149 }
 150
 151 define arm_aapcs_vfpcc <4 x i32> @test_vmlal_lanes16(<4 x i32> %arg0_int32x4_t, <4 x i16> %arg1_int16x4_t, <4 x i16> %arg2_int16x4_t) nounwind readnone {
 152 entry:
 153 ; CHECK: test_vmlal_lanes16
 154 ; CHECK: vmlal.s16 q0, d2, d3[1]
 155   %0 = shufflevector <4 x i16> %arg2_int16x4_t, <4 x i16> undef, <4 x i32> <i32 1, i32 1, i32 1, i32 1> ; <<4 x i16>> [#uses=1]
 156   %1 = tail call <4 x i32> @llvm.arm.neon.vmlals.v4i32(<4 x i32> %arg0_int32x4_t, <4 x i16> %arg1_int16x4_t, <4 x i16> %0) ; <<4 x i32>> [#uses=1]
 157   ret <4 x i32> %1
 158 }
 159
 160 define arm_aapcs_vfpcc <2 x i64> @test_vmlal_lanes32(<2 x i64> %arg0_int64x2_t, <2 x i32> %arg1_int32x2_t, <2 x i32> %arg2_int32x2_t) nounwind readnone {
 161 entry:
 162 ; CHECK: test_vmlal_lanes32
 163 ; CHECK: vmlal.s32 q0, d2, d3[1]
 164   %0 = shufflevector <2 x i32> %arg2_int32x2_t, <2 x i32> undef, <2 x i32> <i32 1, i32 1> ; <<2 x i32>> [#uses=1]
 165   %1 = tail call <2 x i64> @llvm.arm.neon.vmlals.v2i64(<2 x i64> %arg0_int64x2_t, <2 x i32> %arg1_int32x2_t, <2 x i32> %0) ; <<2 x i64>> [#uses=1]
 166   ret <2 x i64> %1
 167 }
 168
 169 define arm_aapcs_vfpcc <4 x i32> @test_vmlal_laneu16(<4 x i32> %arg0_uint32x4_t, <4 x i16> %arg1_uint16x4_t, <4 x i16> %arg2_uint16x4_t) nounwind readnone {
 170 entry:
 171 ; CHECK: test_vmlal_laneu16
 172 ; CHECK: vmlal.u16 q0, d2, d3[1]
 173   %0 = shufflevector <4 x i16> %arg2_uint16x4_t, <4 x i16> undef, <4 x i32> <i32 1, i32 1, i32 1, i32 1> ; <<4 x i16>> [#uses=1]
 174   %1 = tail call <4 x i32> @llvm.arm.neon.vmlalu.v4i32(<4 x i32> %arg0_uint32x4_t, <4 x i16> %arg1_uint16x4_t, <4 x i16> %0) ; <<4 x i32>> [#uses=1]
 175   ret <4 x i32> %1
 176 }
 177
 178 define arm_aapcs_vfpcc <2 x i64> @test_vmlal_laneu32(<2 x i64> %arg0_uint64x2_t, <2 x i32> %arg1_uint32x2_t, <2 x i32> %arg2_uint32x2_t) nounwind readnone {
 179 entry:
 180 ; CHECK: test_vmlal_laneu32
 181 ; CHECK: vmlal.u32 q0, d2, d3[1]
 182   %0 = shufflevector <2 x i32> %arg2_uint32x2_t, <2 x i32> undef, <2 x i32> <i32 1, i32 1> ; <<2 x i32>> [#uses=1]
 183   %1 = tail call <2 x i64> @llvm.arm.neon.vmlalu.v2i64(<2 x i64> %arg0_uint64x2_t, <2 x i32> %arg1_uint32x2_t, <2 x i32> %0) ; <<2 x i64>> [#uses=1]
 184   ret <2 x i64> %1
 185 }
 186
 187 declare <8 x i16> @llvm.arm.neon.vmlals.v8i16(<8 x i16>, <8 x i8>, <8 x i8>) nounwind readnone
 188 declare <4 x i32> @llvm.arm.neon.vmlals.v4i32(<4 x i32>, <4 x i16>, <4 x i16>) nounwind readnone
 189 declare <2 x i64> @llvm.arm.neon.vmlals.v2i64(<2 x i64>, <2 x i32>, <2 x i32>) nounwind readnone
 190
 191 declare <8 x i16> @llvm.arm.neon.vmlalu.v8i16(<8 x i16>, <8 x i8>, <8 x i8>) nounwind readnone
 192 declare <4 x i32> @llvm.arm.neon.vmlalu.v4i32(<4 x i32>, <4 x i16>, <4 x i16>) nounwind readnone
 193 declare <2 x i64> @llvm.arm.neon.vmlalu.v2i64(<2 x i64>, <2 x i32>, <2 x i32>) nounwind readnone