test/CodeGen/AArch64/neon-max-min-pairwise.ll

   1 ; RUN: llc -mtriple=aarch64-none-linux-gnu -mattr=+neon < %s | FileCheck %s
   2 ; These duplicate arm64 tests in vmax.ll
   3
   4 declare <8 x i8> @llvm.arm.neon.vpmaxs.v8i8(<8 x i8>, <8 x i8>)
   5 declare <8 x i8> @llvm.arm.neon.vpmaxu.v8i8(<8 x i8>, <8 x i8>)
   6
   7 define <8 x i8> @test_smaxp_v8i8(<8 x i8> %lhs, <8 x i8> %rhs) {
   8 ; Using registers other than v0, v1 are possible, but would be odd.
   9 ; CHECK: test_smaxp_v8i8:
  10   %tmp1 = call <8 x i8> @llvm.arm.neon.vpmaxs.v8i8(<8 x i8> %lhs, <8 x i8> %rhs)
  11 ; CHECK: smaxp v0.8b, v0.8b, v1.8b
  12   ret <8 x i8> %tmp1
  13 }
  14
  15 define <8 x i8> @test_umaxp_v8i8(<8 x i8> %lhs, <8 x i8> %rhs) {
  16   %tmp1 = call <8 x i8> @llvm.arm.neon.vpmaxu.v8i8(<8 x i8> %lhs, <8 x i8> %rhs)
  17 ; CHECK: umaxp v0.8b, v0.8b, v1.8b
  18   ret <8 x i8> %tmp1
  19 }
  20
  21 declare <16 x i8> @llvm.arm.neon.vpmaxs.v16i8(<16 x i8>, <16 x i8>)
  22 declare <16 x i8> @llvm.arm.neon.vpmaxu.v16i8(<16 x i8>, <16 x i8>)
  23
  24 define <16 x i8> @test_smaxp_v16i8(<16 x i8> %lhs, <16 x i8> %rhs) {
  25 ; CHECK: test_smaxp_v16i8:
  26   %tmp1 = call <16 x i8> @llvm.arm.neon.vpmaxs.v16i8(<16 x i8> %lhs, <16 x i8> %rhs)
  27 ; CHECK: smaxp v0.16b, v0.16b, v1.16b
  28   ret <16 x i8> %tmp1
  29 }
  30
  31 define <16 x i8> @test_umaxp_v16i8(<16 x i8> %lhs, <16 x i8> %rhs) {
  32 ; CHECK: test_umaxp_v16i8:
  33   %tmp1 = call <16 x i8> @llvm.arm.neon.vpmaxu.v16i8(<16 x i8> %lhs, <16 x i8> %rhs)
  34 ; CHECK: umaxp v0.16b, v0.16b, v1.16b
  35   ret <16 x i8> %tmp1
  36 }
  37
  38 declare <4 x i16> @llvm.arm.neon.vpmaxs.v4i16(<4 x i16>, <4 x i16>)
  39 declare <4 x i16> @llvm.arm.neon.vpmaxu.v4i16(<4 x i16>, <4 x i16>)
  40
  41 define <4 x i16> @test_smaxp_v4i16(<4 x i16> %lhs, <4 x i16> %rhs) {
  42 ; CHECK: test_smaxp_v4i16:
  43   %tmp1 = call <4 x i16> @llvm.arm.neon.vpmaxs.v4i16(<4 x i16> %lhs, <4 x i16> %rhs)
  44 ; CHECK: smaxp v0.4h, v0.4h, v1.4h
  45   ret <4 x i16> %tmp1
  46 }
  47
  48 define <4 x i16> @test_umaxp_v4i16(<4 x i16> %lhs, <4 x i16> %rhs) {
  49 ; CHECK: test_umaxp_v4i16:
  50   %tmp1 = call <4 x i16> @llvm.arm.neon.vpmaxu.v4i16(<4 x i16> %lhs, <4 x i16> %rhs)
  51 ; CHECK: umaxp v0.4h, v0.4h, v1.4h
  52   ret <4 x i16> %tmp1
  53 }
  54
  55
  56 declare <8 x i16> @llvm.arm.neon.vpmaxs.v8i16(<8 x i16>, <8 x i16>)
  57 declare <8 x i16> @llvm.arm.neon.vpmaxu.v8i16(<8 x i16>, <8 x i16>)
  58
  59 define <8 x i16> @test_smaxp_v8i16(<8 x i16> %lhs, <8 x i16> %rhs) {
  60 ; CHECK: test_smaxp_v8i16:
  61   %tmp1 = call <8 x i16> @llvm.arm.neon.vpmaxs.v8i16(<8 x i16> %lhs, <8 x i16> %rhs)
  62 ; CHECK: smaxp v0.8h, v0.8h, v1.8h
  63   ret <8 x i16> %tmp1
  64 }
  65
  66 define <8 x i16> @test_umaxp_v8i16(<8 x i16> %lhs, <8 x i16> %rhs) {
  67 ; CHECK: test_umaxp_v8i16:
  68   %tmp1 = call <8 x i16> @llvm.arm.neon.vpmaxu.v8i16(<8 x i16> %lhs, <8 x i16> %rhs)
  69 ; CHECK: umaxp v0.8h, v0.8h, v1.8h
  70   ret <8 x i16> %tmp1
  71 }
  72
  73
  74 declare <2 x i32> @llvm.arm.neon.vpmaxs.v2i32(<2 x i32>, <2 x i32>)
  75 declare <2 x i32> @llvm.arm.neon.vpmaxu.v2i32(<2 x i32>, <2 x i32>)
  76
  77 define <2 x i32> @test_smaxp_v2i32(<2 x i32> %lhs, <2 x i32> %rhs) {
  78 ; CHECK: test_smaxp_v2i32:
  79   %tmp1 = call <2 x i32> @llvm.arm.neon.vpmaxs.v2i32(<2 x i32> %lhs, <2 x i32> %rhs)
  80 ; CHECK: smaxp v0.2s, v0.2s, v1.2s
  81   ret <2 x i32> %tmp1
  82 }
  83
  84 define <2 x i32> @test_umaxp_v2i32(<2 x i32> %lhs, <2 x i32> %rhs) {
  85 ; CHECK: test_umaxp_v2i32:
  86   %tmp1 = call <2 x i32> @llvm.arm.neon.vpmaxu.v2i32(<2 x i32> %lhs, <2 x i32> %rhs)
  87 ; CHECK: umaxp v0.2s, v0.2s, v1.2s
  88   ret <2 x i32> %tmp1
  89 }
  90
  91 declare <4 x i32> @llvm.arm.neon.vpmaxs.v4i32(<4 x i32>, <4 x i32>)
  92 declare <4 x i32> @llvm.arm.neon.vpmaxu.v4i32(<4 x i32>, <4 x i32>)
  93
  94 define <4 x i32> @test_smaxp_v4i32(<4 x i32> %lhs, <4 x i32> %rhs) {
  95 ; CHECK: test_smaxp_v4i32:
  96   %tmp1 = call <4 x i32> @llvm.arm.neon.vpmaxs.v4i32(<4 x i32> %lhs, <4 x i32> %rhs)
  97 ; CHECK: smaxp v0.4s, v0.4s, v1.4s
  98   ret <4 x i32> %tmp1
  99 }
 100
 101 define <4 x i32> @test_umaxp_v4i32(<4 x i32> %lhs, <4 x i32> %rhs) {
 102 ; CHECK: test_umaxp_v4i32:
 103   %tmp1 = call <4 x i32> @llvm.arm.neon.vpmaxu.v4i32(<4 x i32> %lhs, <4 x i32> %rhs)
 104 ; CHECK: umaxp v0.4s, v0.4s, v1.4s
 105   ret <4 x i32> %tmp1
 106 }
 107
 108 declare <8 x i8> @llvm.arm.neon.vpmins.v8i8(<8 x i8>, <8 x i8>)
 109 declare <8 x i8> @llvm.arm.neon.vpminu.v8i8(<8 x i8>, <8 x i8>)
 110
 111 define <8 x i8> @test_sminp_v8i8(<8 x i8> %lhs, <8 x i8> %rhs) {
 112 ; Using registers other than v0, v1 are possible, but would be odd.
 113 ; CHECK: test_sminp_v8i8:
 114   %tmp1 = call <8 x i8> @llvm.arm.neon.vpmins.v8i8(<8 x i8> %lhs, <8 x i8> %rhs)
 115 ; CHECK: sminp v0.8b, v0.8b, v1.8b
 116   ret <8 x i8> %tmp1
 117 }
 118
 119 define <8 x i8> @test_uminp_v8i8(<8 x i8> %lhs, <8 x i8> %rhs) {
 120   %tmp1 = call <8 x i8> @llvm.arm.neon.vpminu.v8i8(<8 x i8> %lhs, <8 x i8> %rhs)
 121 ; CHECK: uminp v0.8b, v0.8b, v1.8b
 122   ret <8 x i8> %tmp1
 123 }
 124
 125 declare <16 x i8> @llvm.arm.neon.vpmins.v16i8(<16 x i8>, <16 x i8>)
 126 declare <16 x i8> @llvm.arm.neon.vpminu.v16i8(<16 x i8>, <16 x i8>)
 127
 128 define <16 x i8> @test_sminp_v16i8(<16 x i8> %lhs, <16 x i8> %rhs) {
 129 ; CHECK: test_sminp_v16i8:
 130   %tmp1 = call <16 x i8> @llvm.arm.neon.vpmins.v16i8(<16 x i8> %lhs, <16 x i8> %rhs)
 131 ; CHECK: sminp v0.16b, v0.16b, v1.16b
 132   ret <16 x i8> %tmp1
 133 }
 134
 135 define <16 x i8> @test_uminp_v16i8(<16 x i8> %lhs, <16 x i8> %rhs) {
 136 ; CHECK: test_uminp_v16i8:
 137   %tmp1 = call <16 x i8> @llvm.arm.neon.vpminu.v16i8(<16 x i8> %lhs, <16 x i8> %rhs)
 138 ; CHECK: uminp v0.16b, v0.16b, v1.16b
 139   ret <16 x i8> %tmp1
 140 }
 141
 142 declare <4 x i16> @llvm.arm.neon.vpmins.v4i16(<4 x i16>, <4 x i16>)
 143 declare <4 x i16> @llvm.arm.neon.vpminu.v4i16(<4 x i16>, <4 x i16>)
 144
 145 define <4 x i16> @test_sminp_v4i16(<4 x i16> %lhs, <4 x i16> %rhs) {
 146 ; CHECK: test_sminp_v4i16:
 147   %tmp1 = call <4 x i16> @llvm.arm.neon.vpmins.v4i16(<4 x i16> %lhs, <4 x i16> %rhs)
 148 ; CHECK: sminp v0.4h, v0.4h, v1.4h
 149   ret <4 x i16> %tmp1
 150 }
 151
 152 define <4 x i16> @test_uminp_v4i16(<4 x i16> %lhs, <4 x i16> %rhs) {
 153 ; CHECK: test_uminp_v4i16:
 154   %tmp1 = call <4 x i16> @llvm.arm.neon.vpminu.v4i16(<4 x i16> %lhs, <4 x i16> %rhs)
 155 ; CHECK: uminp v0.4h, v0.4h, v1.4h
 156   ret <4 x i16> %tmp1
 157 }
 158
 159
 160 declare <8 x i16> @llvm.arm.neon.vpmins.v8i16(<8 x i16>, <8 x i16>)
 161 declare <8 x i16> @llvm.arm.neon.vpminu.v8i16(<8 x i16>, <8 x i16>)
 162
 163 define <8 x i16> @test_sminp_v8i16(<8 x i16> %lhs, <8 x i16> %rhs) {
 164 ; CHECK: test_sminp_v8i16:
 165   %tmp1 = call <8 x i16> @llvm.arm.neon.vpmins.v8i16(<8 x i16> %lhs, <8 x i16> %rhs)
 166 ; CHECK: sminp v0.8h, v0.8h, v1.8h
 167   ret <8 x i16> %tmp1
 168 }
 169
 170 define <8 x i16> @test_uminp_v8i16(<8 x i16> %lhs, <8 x i16> %rhs) {
 171 ; CHECK: test_uminp_v8i16:
 172   %tmp1 = call <8 x i16> @llvm.arm.neon.vpminu.v8i16(<8 x i16> %lhs, <8 x i16> %rhs)
 173 ; CHECK: uminp v0.8h, v0.8h, v1.8h
 174   ret <8 x i16> %tmp1
 175 }
 176
 177
 178 declare <2 x i32> @llvm.arm.neon.vpmins.v2i32(<2 x i32>, <2 x i32>)
 179 declare <2 x i32> @llvm.arm.neon.vpminu.v2i32(<2 x i32>, <2 x i32>)
 180
 181 define <2 x i32> @test_sminp_v2i32(<2 x i32> %lhs, <2 x i32> %rhs) {
 182 ; CHECK: test_sminp_v2i32:
 183   %tmp1 = call <2 x i32> @llvm.arm.neon.vpmins.v2i32(<2 x i32> %lhs, <2 x i32> %rhs)
 184 ; CHECK: sminp v0.2s, v0.2s, v1.2s
 185   ret <2 x i32> %tmp1
 186 }
 187
 188 define <2 x i32> @test_uminp_v2i32(<2 x i32> %lhs, <2 x i32> %rhs) {
 189 ; CHECK: test_uminp_v2i32:
 190   %tmp1 = call <2 x i32> @llvm.arm.neon.vpminu.v2i32(<2 x i32> %lhs, <2 x i32> %rhs)
 191 ; CHECK: uminp v0.2s, v0.2s, v1.2s
 192   ret <2 x i32> %tmp1
 193 }
 194
 195 declare <4 x i32> @llvm.arm.neon.vpmins.v4i32(<4 x i32>, <4 x i32>)
 196 declare <4 x i32> @llvm.arm.neon.vpminu.v4i32(<4 x i32>, <4 x i32>)
 197
 198 define <4 x i32> @test_sminp_v4i32(<4 x i32> %lhs, <4 x i32> %rhs) {
 199 ; CHECK: test_sminp_v4i32:
 200   %tmp1 = call <4 x i32> @llvm.arm.neon.vpmins.v4i32(<4 x i32> %lhs, <4 x i32> %rhs)
 201 ; CHECK: sminp v0.4s, v0.4s, v1.4s
 202   ret <4 x i32> %tmp1
 203 }
 204
 205 define <4 x i32> @test_uminp_v4i32(<4 x i32> %lhs, <4 x i32> %rhs) {
 206 ; CHECK: test_uminp_v4i32:
 207   %tmp1 = call <4 x i32> @llvm.arm.neon.vpminu.v4i32(<4 x i32> %lhs, <4 x i32> %rhs)
 208 ; CHECK: uminp v0.4s, v0.4s, v1.4s
 209   ret <4 x i32> %tmp1
 210 }
 211
 212 declare <2 x float> @llvm.arm.neon.vpmaxs.v2f32(<2 x float>, <2 x float>)
 213 declare <4 x float> @llvm.arm.neon.vpmaxs.v4f32(<4 x float>, <4 x float>)
 214 declare <2 x double> @llvm.arm.neon.vpmaxs.v2f64(<2 x double>, <2 x double>)
 215
 216 define <2 x float> @test_fmaxp_v2f32(<2 x float> %lhs, <2 x float> %rhs) {
 217 ; CHECK: test_fmaxp_v2f32:
 218         %val = call <2 x float> @llvm.arm.neon.vpmaxs.v2f32(<2 x float> %lhs, <2 x float> %rhs)
 219 ; CHECK: fmaxp v0.2s, v0.2s, v1.2s
 220         ret <2 x float> %val
 221 }
 222
 223 define <4 x float> @test_fmaxp_v4f32(<4 x float> %lhs, <4 x float> %rhs) {
 224 ; CHECK: test_fmaxp_v4f32:
 225         %val = call <4 x float> @llvm.arm.neon.vpmaxs.v4f32(<4 x float> %lhs, <4 x float> %rhs)
 226 ; CHECK: fmaxp v0.4s, v0.4s, v1.4s
 227         ret <4 x float> %val
 228 }
 229
 230 define <2 x double> @test_fmaxp_v2f64(<2 x double> %lhs, <2 x double> %rhs) {
 231 ; CHECK: test_fmaxp_v2f64:
 232         %val = call <2 x double> @llvm.arm.neon.vpmaxs.v2f64(<2 x double> %lhs, <2 x double> %rhs)
 233 ; CHECK: fmaxp v0.2d, v0.2d, v1.2d
 234         ret <2 x double> %val
 235 }
 236
 237 declare <2 x float> @llvm.arm.neon.vpmins.v2f32(<2 x float>, <2 x float>)
 238 declare <4 x float> @llvm.arm.neon.vpmins.v4f32(<4 x float>, <4 x float>)
 239 declare <2 x double> @llvm.arm.neon.vpmins.v2f64(<2 x double>, <2 x double>)
 240
 241 define <2 x float> @test_fminp_v2f32(<2 x float> %lhs, <2 x float> %rhs) {
 242 ; CHECK: test_fminp_v2f32:
 243         %val = call <2 x float> @llvm.arm.neon.vpmins.v2f32(<2 x float> %lhs, <2 x float> %rhs)
 244 ; CHECK: fminp v0.2s, v0.2s, v1.2s
 245         ret <2 x float> %val
 246 }
 247
 248 define <4 x float> @test_fminp_v4f32(<4 x float> %lhs, <4 x float> %rhs) {
 249 ; CHECK: test_fminp_v4f32:
 250         %val = call <4 x float> @llvm.arm.neon.vpmins.v4f32(<4 x float> %lhs, <4 x float> %rhs)
 251 ; CHECK: fminp v0.4s, v0.4s, v1.4s
 252         ret <4 x float> %val
 253 }
 254
 255 define <2 x double> @test_fminp_v2f64(<2 x double> %lhs, <2 x double> %rhs) {
 256 ; CHECK: test_fminp_v2f64:
 257         %val = call <2 x double> @llvm.arm.neon.vpmins.v2f64(<2 x double> %lhs, <2 x double> %rhs)
 258 ; CHECK: fminp v0.2d, v0.2d, v1.2d
 259         ret <2 x double> %val
 260 }
 261
 262 declare <2 x float> @llvm.aarch64.neon.vpmaxnm.v2f32(<2 x float>, <2 x float>)
 263 declare <4 x float> @llvm.aarch64.neon.vpmaxnm.v4f32(<4 x float>, <4 x float>)
 264 declare <2 x double> @llvm.aarch64.neon.vpmaxnm.v2f64(<2 x double>, <2 x double>)
 265
 266 define <2 x float> @test_fmaxnmp_v2f32(<2 x float> %lhs, <2 x float> %rhs) {
 267 ; CHECK: test_fmaxnmp_v2f32:
 268         %val = call <2 x float> @llvm.aarch64.neon.vpmaxnm.v2f32(<2 x float> %lhs, <2 x float> %rhs)
 269 ; CHECK: fmaxnmp v0.2s, v0.2s, v1.2s
 270         ret <2 x float> %val
 271 }
 272
 273 define <4 x float> @test_fmaxnmp_v4f32(<4 x float> %lhs, <4 x float> %rhs) {
 274 ; CHECK: test_fmaxnmp_v4f32:
 275         %val = call <4 x float> @llvm.aarch64.neon.vpmaxnm.v4f32(<4 x float> %lhs, <4 x float> %rhs)
 276 ; CHECK: fmaxnmp v0.4s, v0.4s, v1.4s
 277         ret <4 x float> %val
 278 }
 279
 280 define <2 x double> @test_fmaxnmp_v2f64(<2 x double> %lhs, <2 x double> %rhs) {
 281 ; CHECK: test_fmaxnmp_v2f64:
 282         %val = call <2 x double> @llvm.aarch64.neon.vpmaxnm.v2f64(<2 x double> %lhs, <2 x double> %rhs)
 283 ; CHECK: fmaxnmp v0.2d, v0.2d, v1.2d
 284         ret <2 x double> %val
 285 }
 286
 287 declare <2 x float> @llvm.aarch64.neon.vpminnm.v2f32(<2 x float>, <2 x float>)
 288 declare <4 x float> @llvm.aarch64.neon.vpminnm.v4f32(<4 x float>, <4 x float>)
 289 declare <2 x double> @llvm.aarch64.neon.vpminnm.v2f64(<2 x double>, <2 x double>)
 290
 291 define <2 x float> @test_fminnmp_v2f32(<2 x float> %lhs, <2 x float> %rhs) {
 292 ; CHECK: test_fminnmp_v2f32:
 293         %val = call <2 x float> @llvm.aarch64.neon.vpminnm.v2f32(<2 x float> %lhs, <2 x float> %rhs)
 294 ; CHECK: fminnmp v0.2s, v0.2s, v1.2s
 295         ret <2 x float> %val
 296 }
 297
 298 define <4 x float> @test_fminnmp_v4f32(<4 x float> %lhs, <4 x float> %rhs) {
 299 ; CHECK: test_fminnmp_v4f32:
 300         %val = call <4 x float> @llvm.aarch64.neon.vpminnm.v4f32(<4 x float> %lhs, <4 x float> %rhs)
 301 ; CHECK: fminnmp v0.4s, v0.4s, v1.4s
 302         ret <4 x float> %val
 303 }
 304
 305 define <2 x double> @test_fminnmp_v2f64(<2 x double> %lhs, <2 x double> %rhs) {
 306 ; CHECK: test_fminnmp_v2f64:
 307         %val = call <2 x double> @llvm.aarch64.neon.vpminnm.v2f64(<2 x double> %lhs, <2 x double> %rhs)
 308 ; CHECK: fminnmp v0.2d, v0.2d, v1.2d
 309         ret <2 x double> %val
 310 }
 311
 312 define i32 @test_vminv_s32(<2 x i32> %a) {
 313 ; CHECK-LABEL: test_vminv_s32
 314 ; CHECK: sminp {{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s
 315   %1 = tail call <1 x i32> @llvm.aarch64.neon.sminv.v1i32.v2i32(<2 x i32> %a)
 316   %2 = extractelement <1 x i32> %1, i32 0
 317   ret i32 %2
 318 }
 319
 320 define i32 @test_vminv_u32(<2 x i32> %a) {
 321 ; CHECK-LABEL: test_vminv_u32
 322 ; CHECK: uminp {{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s
 323   %1 = tail call <1 x i32> @llvm.aarch64.neon.uminv.v1i32.v2i32(<2 x i32> %a)
 324   %2 = extractelement <1 x i32> %1, i32 0
 325   ret i32 %2
 326 }
 327
 328 define i32 @test_vmaxv_s32(<2 x i32> %a) {
 329 ; CHECK-LABEL: test_vmaxv_s32
 330 ; CHECK: smaxp {{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s
 331   %1 = tail call <1 x i32> @llvm.aarch64.neon.smaxv.v1i32.v2i32(<2 x i32> %a)
 332   %2 = extractelement <1 x i32> %1, i32 0
 333   ret i32 %2
 334 }
 335
 336 define i32 @test_vmaxv_u32(<2 x i32> %a) {
 337 ; CHECK-LABEL: test_vmaxv_u32
 338 ; CHECK: umaxp {{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s
 339   %1 = tail call <1 x i32> @llvm.aarch64.neon.umaxv.v1i32.v2i32(<2 x i32> %a)
 340   %2 = extractelement <1 x i32> %1, i32 0
 341   ret i32 %2
 342 }
 343
 344 declare <1 x i32> @llvm.aarch64.neon.uminv.v1i32.v2i32(<2 x i32>)
 345 declare <1 x i32> @llvm.aarch64.neon.sminv.v1i32.v2i32(<2 x i32>)
 346 declare <1 x i32> @llvm.aarch64.neon.umaxv.v1i32.v2i32(<2 x i32>)
 347 declare <1 x i32> @llvm.aarch64.neon.smaxv.v1i32.v2i32(<2 x i32>)