lib/Target/ARM/ARMInstrNEON.td

   1 //===- ARMInstrNEON.td - NEON support for ARM -----------------------------===//
   2 //
   3 //                     The LLVM Compiler Infrastructure
   4 //
   5 // This file is distributed under the University of Illinois Open Source
   6 // License. See LICENSE.TXT for details.
   7 //
   8 //===----------------------------------------------------------------------===//
   9 //
  10 // This file describes the ARM NEON instruction set.
  11 //
  12 //===----------------------------------------------------------------------===//
  13
  14 //===----------------------------------------------------------------------===//
  15 // NEON-specific DAG Nodes.
  16 //===----------------------------------------------------------------------===//
  17
  18 def SDTARMVCMP    : SDTypeProfile<1, 2, [SDTCisInt<0>, SDTCisSameAs<1, 2>]>;
  19
  20 def NEONvceq      : SDNode<"ARMISD::VCEQ", SDTARMVCMP>;
  21 def NEONvcge      : SDNode<"ARMISD::VCGE", SDTARMVCMP>;
  22 def NEONvcgeu     : SDNode<"ARMISD::VCGEU", SDTARMVCMP>;
  23 def NEONvcgt      : SDNode<"ARMISD::VCGT", SDTARMVCMP>;
  24 def NEONvcgtu     : SDNode<"ARMISD::VCGTU", SDTARMVCMP>;
  25 def NEONvtst      : SDNode<"ARMISD::VTST", SDTARMVCMP>;
  26
  27 // Types for vector shift by immediates.  The "SHX" version is for long and
  28 // narrow operations where the source and destination vectors have different
  29 // types.  The "SHINS" version is for shift and insert operations.
  30 def SDTARMVSH     : SDTypeProfile<1, 2, [SDTCisInt<0>, SDTCisSameAs<0, 1>,
  31                                          SDTCisVT<2, i32>]>;
  32 def SDTARMVSHX    : SDTypeProfile<1, 2, [SDTCisInt<0>, SDTCisInt<1>,
  33                                          SDTCisVT<2, i32>]>;
  34 def SDTARMVSHINS  : SDTypeProfile<1, 3, [SDTCisInt<0>, SDTCisSameAs<0, 1>,
  35                                          SDTCisSameAs<0, 2>, SDTCisVT<3, i32>]>;
  36
  37 def NEONvshl      : SDNode<"ARMISD::VSHL", SDTARMVSH>;
  38 def NEONvshrs     : SDNode<"ARMISD::VSHRs", SDTARMVSH>;
  39 def NEONvshru     : SDNode<"ARMISD::VSHRu", SDTARMVSH>;
  40 def NEONvshlls    : SDNode<"ARMISD::VSHLLs", SDTARMVSHX>;
  41 def NEONvshllu    : SDNode<"ARMISD::VSHLLu", SDTARMVSHX>;
  42 def NEONvshlli    : SDNode<"ARMISD::VSHLLi", SDTARMVSHX>;
  43 def NEONvshrn     : SDNode<"ARMISD::VSHRN", SDTARMVSHX>;
  44
  45 def NEONvrshrs    : SDNode<"ARMISD::VRSHRs", SDTARMVSH>;
  46 def NEONvrshru    : SDNode<"ARMISD::VRSHRu", SDTARMVSH>;
  47 def NEONvrshrn    : SDNode<"ARMISD::VRSHRN", SDTARMVSHX>;
  48
  49 def NEONvqshls    : SDNode<"ARMISD::VQSHLs", SDTARMVSH>;
  50 def NEONvqshlu    : SDNode<"ARMISD::VQSHLu", SDTARMVSH>;
  51 def NEONvqshlsu   : SDNode<"ARMISD::VQSHLsu", SDTARMVSH>;
  52 def NEONvqshrns   : SDNode<"ARMISD::VQSHRNs", SDTARMVSHX>;
  53 def NEONvqshrnu   : SDNode<"ARMISD::VQSHRNu", SDTARMVSHX>;
  54 def NEONvqshrnsu  : SDNode<"ARMISD::VQSHRNsu", SDTARMVSHX>;
  55
  56 def NEONvqrshrns  : SDNode<"ARMISD::VQRSHRNs", SDTARMVSHX>;
  57 def NEONvqrshrnu  : SDNode<"ARMISD::VQRSHRNu", SDTARMVSHX>;
  58 def NEONvqrshrnsu : SDNode<"ARMISD::VQRSHRNsu", SDTARMVSHX>;
  59
  60 def NEONvsli      : SDNode<"ARMISD::VSLI", SDTARMVSHINS>;
  61 def NEONvsri      : SDNode<"ARMISD::VSRI", SDTARMVSHINS>;
  62
  63 def SDTARMVGETLN  : SDTypeProfile<1, 2, [SDTCisVT<0, i32>, SDTCisInt<1>,
  64                                          SDTCisVT<2, i32>]>;
  65 def NEONvgetlaneu : SDNode<"ARMISD::VGETLANEu", SDTARMVGETLN>;
  66 def NEONvgetlanes : SDNode<"ARMISD::VGETLANEs", SDTARMVGETLN>;
  67
  68 def NEONvdup      : SDNode<"ARMISD::VDUP", SDTypeProfile<1, 1, [SDTCisVec<0>]>>;
  69
  70 // VDUPLANE can produce a quad-register result from a double-register source,
  71 // so the result is not constrained to match the source.
  72 def NEONvduplane  : SDNode<"ARMISD::VDUPLANE",
  73                            SDTypeProfile<1, 2, [SDTCisVec<0>, SDTCisVec<1>,
  74                                                 SDTCisVT<2, i32>]>>;
  75
  76 def SDTARMVEXT    : SDTypeProfile<1, 3, [SDTCisVec<0>, SDTCisSameAs<0, 1>,
  77                                          SDTCisSameAs<0, 2>, SDTCisVT<3, i32>]>;
  78 def NEONvext      : SDNode<"ARMISD::VEXT", SDTARMVEXT>;
  79
  80 def SDTARMVSHUF   : SDTypeProfile<1, 1, [SDTCisVec<0>, SDTCisSameAs<0, 1>]>;
  81 def NEONvrev64    : SDNode<"ARMISD::VREV64", SDTARMVSHUF>;
  82 def NEONvrev32    : SDNode<"ARMISD::VREV32", SDTARMVSHUF>;
  83 def NEONvrev16    : SDNode<"ARMISD::VREV16", SDTARMVSHUF>;
  84
  85 def SDTARMVSHUF2  : SDTypeProfile<2, 2, [SDTCisVec<0>, SDTCisSameAs<0, 1>,
  86                                          SDTCisSameAs<0, 2>,
  87                                          SDTCisSameAs<0, 3>]>;
  88 def NEONzip       : SDNode<"ARMISD::VZIP", SDTARMVSHUF2>;
  89 def NEONuzp       : SDNode<"ARMISD::VUZP", SDTARMVSHUF2>;
  90 def NEONtrn       : SDNode<"ARMISD::VTRN", SDTARMVSHUF2>;
  91
  92 //===----------------------------------------------------------------------===//
  93 // NEON operand definitions
  94 //===----------------------------------------------------------------------===//
  95
  96 // addrmode_neonldstm := reg
  97 //
  98 /* TODO: Take advantage of vldm.
  99 def addrmode_neonldstm : Operand<i32>,
 100                 ComplexPattern<i32, 2, "SelectAddrModeNeonLdStM", []> {
 101   let PrintMethod = "printAddrNeonLdStMOperand";
 102   let MIOperandInfo = (ops GPR, i32imm);
 103 }
 104 */
 105
 106 def h8imm  : Operand<i8> {
 107   let PrintMethod = "printHex8ImmOperand";
 108 }
 109 def h16imm : Operand<i16> {
 110   let PrintMethod = "printHex16ImmOperand";
 111 }
 112 def h32imm : Operand<i32> {
 113   let PrintMethod = "printHex32ImmOperand";
 114 }
 115 def h64imm : Operand<i64> {
 116   let PrintMethod = "printHex64ImmOperand";
 117 }
 118
 119 //===----------------------------------------------------------------------===//
 120 // NEON load / store instructions
 121 //===----------------------------------------------------------------------===//
 122
 123 /* TODO: Take advantage of vldm.
 124 let mayLoad = 1, hasExtraDefRegAllocReq = 1 in {
 125 def VLDMD : NI<(outs),
 126                (ins addrmode_neonldstm:$addr, reglist:$dst1, variable_ops),
 127                IIC_fpLoadm, "vldm", "${addr:submode} ${addr:base}, $dst1", []> {
 128   let Inst{27-25} = 0b110;
 129   let Inst{20}    = 1;
 130   let Inst{11-9}  = 0b101;
 131 }
 132
 133 def VLDMS : NI<(outs),
 134                (ins addrmode_neonldstm:$addr, reglist:$dst1, variable_ops),
 135                IIC_fpLoadm, "vldm", "${addr:submode} ${addr:base}, $dst1", []> {
 136   let Inst{27-25} = 0b110;
 137   let Inst{20}    = 1;
 138   let Inst{11-9}  = 0b101;
 139 }
 140 }
 141 */
 142
 143 // Use vldmia to load a Q register as a D register pair.
 144 def VLDRQ : NI4<(outs QPR:$dst), (ins addrmode4:$addr), IIC_fpLoadm,
 145                 "vldmia", "$addr, ${dst:dregpair}",
 146                 [(set QPR:$dst, (v2f64 (load addrmode4:$addr)))]> {
 147   let Inst{27-25} = 0b110;
 148   let Inst{24}    = 0; // P bit
 149   let Inst{23}    = 1; // U bit
 150   let Inst{20}    = 1;
 151   let Inst{11-8}  = 0b1011;
 152 }
 153
 154 // Use vstmia to store a Q register as a D register pair.
 155 def VSTRQ : NI4<(outs), (ins QPR:$src, addrmode4:$addr), IIC_fpStorem,
 156                 "vstmia", "$addr, ${src:dregpair}",
 157                 [(store (v2f64 QPR:$src), addrmode4:$addr)]> {
 158   let Inst{27-25} = 0b110;
 159   let Inst{24}    = 0; // P bit
 160   let Inst{23}    = 1; // U bit
 161   let Inst{20}    = 0;
 162   let Inst{11-8}  = 0b1011;
 163 }
 164
 165 //   VLD1     : Vector Load (multiple single elements)
 166 class VLD1D<bits<4> op7_4, string OpcodeStr, string Dt,
 167             ValueType Ty, Intrinsic IntOp>
 168   : NLdSt<0,0b10,0b0111,op7_4, (outs DPR:$dst), (ins addrmode6:$addr), IIC_VLD1,
 169           OpcodeStr, Dt, "\\{$dst\\}, $addr", "",
 170           [(set DPR:$dst, (Ty (IntOp addrmode6:$addr)))]>;
 171 class VLD1Q<bits<4> op7_4, string OpcodeStr, string Dt,
 172             ValueType Ty, Intrinsic IntOp>
 173   : NLdSt<0,0b10,0b1010,op7_4, (outs QPR:$dst), (ins addrmode6:$addr), IIC_VLD1,
 174           OpcodeStr, Dt, "${dst:dregpair}, $addr", "",
 175           [(set QPR:$dst, (Ty (IntOp addrmode6:$addr)))]>;
 176
 177 def  VLD1d8   : VLD1D<0b0000, "vld1", "8",  v8i8,  int_arm_neon_vld1>;
 178 def  VLD1d16  : VLD1D<0b0100, "vld1", "16", v4i16, int_arm_neon_vld1>;
 179 def  VLD1d32  : VLD1D<0b1000, "vld1", "32", v2i32, int_arm_neon_vld1>;
 180 def  VLD1df   : VLD1D<0b1000, "vld1", "32", v2f32, int_arm_neon_vld1>;
 181 def  VLD1d64  : VLD1D<0b1100, "vld1", "64", v1i64, int_arm_neon_vld1>;
 182
 183 def  VLD1q8   : VLD1Q<0b0000, "vld1", "8",  v16i8, int_arm_neon_vld1>;
 184 def  VLD1q16  : VLD1Q<0b0100, "vld1", "16", v8i16, int_arm_neon_vld1>;
 185 def  VLD1q32  : VLD1Q<0b1000, "vld1", "32", v4i32, int_arm_neon_vld1>;
 186 def  VLD1qf   : VLD1Q<0b1000, "vld1", "32", v4f32, int_arm_neon_vld1>;
 187 def  VLD1q64  : VLD1Q<0b1100, "vld1", "64", v2i64, int_arm_neon_vld1>;
 188
 189 let mayLoad = 1, hasExtraDefRegAllocReq = 1 in {
 190
 191 //   VLD2     : Vector Load (multiple 2-element structures)
 192 class VLD2D<bits<4> op7_4, string OpcodeStr, string Dt>
 193   : NLdSt<0,0b10,0b1000,op7_4, (outs DPR:$dst1, DPR:$dst2),
 194           (ins addrmode6:$addr), IIC_VLD2,
 195           OpcodeStr, Dt, "\\{$dst1, $dst2\\}, $addr", "", []>;
 196 class VLD2Q<bits<4> op7_4, string OpcodeStr, string Dt>
 197   : NLdSt<0,0b10,0b0011,op7_4,
 198           (outs DPR:$dst1, DPR:$dst2, DPR:$dst3, DPR:$dst4),
 199           (ins addrmode6:$addr), IIC_VLD2,
 200           OpcodeStr, Dt, "\\{$dst1, $dst2, $dst3, $dst4\\}, $addr",
 201           "", []>;
 202
 203 def  VLD2d8   : VLD2D<0b0000, "vld2", "8">;
 204 def  VLD2d16  : VLD2D<0b0100, "vld2", "16">;
 205 def  VLD2d32  : VLD2D<0b1000, "vld2", "32">;
 206 def  VLD2d64  : NLdSt<0,0b10,0b1010,0b1100, (outs DPR:$dst1, DPR:$dst2),
 207                       (ins addrmode6:$addr), IIC_VLD1,
 208                       "vld1", "64", "\\{$dst1, $dst2\\}, $addr", "", []>;
 209
 210 def  VLD2q8   : VLD2Q<0b0000, "vld2", "8">;
 211 def  VLD2q16  : VLD2Q<0b0100, "vld2", "16">;
 212 def  VLD2q32  : VLD2Q<0b1000, "vld2", "32">;
 213
 214 //   VLD3     : Vector Load (multiple 3-element structures)
 215 class VLD3D<bits<4> op7_4, string OpcodeStr, string Dt>
 216   : NLdSt<0,0b10,0b0100,op7_4, (outs DPR:$dst1, DPR:$dst2, DPR:$dst3),
 217           (ins addrmode6:$addr), IIC_VLD3,
 218           OpcodeStr, Dt, "\\{$dst1, $dst2, $dst3\\}, $addr", "", []>;
 219 class VLD3WB<bits<4> op7_4, string OpcodeStr, string Dt>
 220   : NLdSt<0,0b10,0b0101,op7_4, (outs DPR:$dst1, DPR:$dst2, DPR:$dst3, GPR:$wb),
 221           (ins addrmode6:$addr), IIC_VLD3,
 222           OpcodeStr, Dt, "\\{$dst1, $dst2, $dst3\\}, $addr",
 223           "$addr.addr = $wb", []>;
 224
 225 def  VLD3d8   : VLD3D<0b0000, "vld3", "8">;
 226 def  VLD3d16  : VLD3D<0b0100, "vld3", "16">;
 227 def  VLD3d32  : VLD3D<0b1000, "vld3", "32">;
 228 def  VLD3d64  : NLdSt<0,0b10,0b0110,0b1100,
 229                       (outs DPR:$dst1, DPR:$dst2, DPR:$dst3),
 230                       (ins addrmode6:$addr), IIC_VLD1,
 231                       "vld1", "64", "\\{$dst1, $dst2, $dst3\\}, $addr", "", []>;
 232
 233 // vld3 to double-spaced even registers.
 234 def  VLD3q8a  : VLD3WB<0b0000, "vld3", "8">;
 235 def  VLD3q16a : VLD3WB<0b0100, "vld3", "16">;
 236 def  VLD3q32a : VLD3WB<0b1000, "vld3", "32">;
 237
 238 // vld3 to double-spaced odd registers.
 239 def  VLD3q8b  : VLD3WB<0b0000, "vld3", "8">;
 240 def  VLD3q16b : VLD3WB<0b0100, "vld3", "16">;
 241 def  VLD3q32b : VLD3WB<0b1000, "vld3", "32">;
 242
 243 //   VLD4     : Vector Load (multiple 4-element structures)
 244 class VLD4D<bits<4> op7_4, string OpcodeStr, string Dt>
 245   : NLdSt<0,0b10,0b0000,op7_4,
 246           (outs DPR:$dst1, DPR:$dst2, DPR:$dst3, DPR:$dst4),
 247           (ins addrmode6:$addr), IIC_VLD4,
 248           OpcodeStr, Dt, "\\{$dst1, $dst2, $dst3, $dst4\\}, $addr",
 249           "", []>;
 250 class VLD4WB<bits<4> op7_4, string OpcodeStr, string Dt>
 251   : NLdSt<0,0b10,0b0001,op7_4,
 252           (outs DPR:$dst1, DPR:$dst2, DPR:$dst3, DPR:$dst4, GPR:$wb),
 253           (ins addrmode6:$addr), IIC_VLD4,
 254           OpcodeStr, Dt, "\\{$dst1, $dst2, $dst3, $dst4\\}, $addr",
 255           "$addr.addr = $wb", []>;
 256
 257 def  VLD4d8   : VLD4D<0b0000, "vld4", "8">;
 258 def  VLD4d16  : VLD4D<0b0100, "vld4", "16">;
 259 def  VLD4d32  : VLD4D<0b1000, "vld4", "32">;
 260 def  VLD4d64  : NLdSt<0,0b10,0b0010,0b1100,
 261                       (outs DPR:$dst1, DPR:$dst2, DPR:$dst3, DPR:$dst4),
 262                       (ins addrmode6:$addr), IIC_VLD1,
 263                       "vld1", "64", "\\{$dst1, $dst2, $dst3, $dst4\\}, $addr",
 264                       "", []>;
 265
 266 // vld4 to double-spaced even registers.
 267 def  VLD4q8a  : VLD4WB<0b0000, "vld4", "8">;
 268 def  VLD4q16a : VLD4WB<0b0100, "vld4", "16">;
 269 def  VLD4q32a : VLD4WB<0b1000, "vld4", "32">;
 270
 271 // vld4 to double-spaced odd registers.
 272 def  VLD4q8b  : VLD4WB<0b0000, "vld4", "8">;
 273 def  VLD4q16b : VLD4WB<0b0100, "vld4", "16">;
 274 def  VLD4q32b : VLD4WB<0b1000, "vld4", "32">;
 275
 276 //   VLD1LN   : Vector Load (single element to one lane)
 277 //   FIXME: Not yet implemented.
 278
 279 //   VLD2LN   : Vector Load (single 2-element structure to one lane)
 280 class VLD2LN<bits<4> op11_8, string OpcodeStr, string Dt>
 281   : NLdSt<1,0b10,op11_8,{?,?,?,?}, (outs DPR:$dst1, DPR:$dst2),
 282             (ins addrmode6:$addr, DPR:$src1, DPR:$src2, nohash_imm:$lane),
 283             IIC_VLD2, OpcodeStr, Dt, "\\{$dst1[$lane], $dst2[$lane]\\}, $addr",
 284             "$src1 = $dst1, $src2 = $dst2", []>;
 285
 286 // vld2 to single-spaced registers.
 287 def VLD2LNd8  : VLD2LN<0b0001, "vld2", "8">;
 288 def VLD2LNd16 : VLD2LN<0b0101, "vld2", "16"> { let Inst{5} = 0; }
 289 def VLD2LNd32 : VLD2LN<0b1001, "vld2", "32"> { let Inst{6} = 0; }
 290
 291 // vld2 to double-spaced even registers.
 292 def VLD2LNq16a: VLD2LN<0b0101, "vld2", "16"> { let Inst{5} = 1; }
 293 def VLD2LNq32a: VLD2LN<0b1001, "vld2", "32"> { let Inst{6} = 1; }
 294
 295 // vld2 to double-spaced odd registers.
 296 def VLD2LNq16b: VLD2LN<0b0101, "vld2", "16"> { let Inst{5} = 1; }
 297 def VLD2LNq32b: VLD2LN<0b1001, "vld2", "32"> { let Inst{6} = 1; }
 298
 299 //   VLD3LN   : Vector Load (single 3-element structure to one lane)
 300 class VLD3LN<bits<4> op11_8, string OpcodeStr, string Dt>
 301   : NLdSt<1,0b10,op11_8,{?,?,?,?}, (outs DPR:$dst1, DPR:$dst2, DPR:$dst3),
 302             (ins addrmode6:$addr, DPR:$src1, DPR:$src2, DPR:$src3,
 303             nohash_imm:$lane), IIC_VLD3, OpcodeStr, Dt,
 304             "\\{$dst1[$lane], $dst2[$lane], $dst3[$lane]\\}, $addr",
 305             "$src1 = $dst1, $src2 = $dst2, $src3 = $dst3", []>;
 306
 307 // vld3 to single-spaced registers.
 308 def VLD3LNd8  : VLD3LN<0b0010, "vld3", "8"> { let Inst{4} = 0; }
 309 def VLD3LNd16 : VLD3LN<0b0110, "vld3", "16"> { let Inst{5-4} = 0b00; }
 310 def VLD3LNd32 : VLD3LN<0b1010, "vld3", "32"> { let Inst{6-4} = 0b000; }
 311
 312 // vld3 to double-spaced even registers.
 313 def VLD3LNq16a: VLD3LN<0b0110, "vld3", "16"> { let Inst{5-4} = 0b10; }
 314 def VLD3LNq32a: VLD3LN<0b1010, "vld3", "32"> { let Inst{6-4} = 0b100; }
 315
 316 // vld3 to double-spaced odd registers.
 317 def VLD3LNq16b: VLD3LN<0b0110, "vld3", "16"> { let Inst{5-4} = 0b10; }
 318 def VLD3LNq32b: VLD3LN<0b1010, "vld3", "32"> { let Inst{6-4} = 0b100; }
 319
 320 //   VLD4LN   : Vector Load (single 4-element structure to one lane)
 321 class VLD4LN<bits<4> op11_8, string OpcodeStr, string Dt>
 322   : NLdSt<1,0b10,op11_8,{?,?,?,?},
 323             (outs DPR:$dst1, DPR:$dst2, DPR:$dst3, DPR:$dst4),
 324             (ins addrmode6:$addr, DPR:$src1, DPR:$src2, DPR:$src3, DPR:$src4,
 325             nohash_imm:$lane), IIC_VLD4, OpcodeStr, Dt,
 326           "\\{$dst1[$lane], $dst2[$lane], $dst3[$lane], $dst4[$lane]\\}, $addr",
 327             "$src1 = $dst1, $src2 = $dst2, $src3 = $dst3, $src4 = $dst4", []>;
 328
 329 // vld4 to single-spaced registers.
 330 def VLD4LNd8  : VLD4LN<0b0011, "vld4", "8">;
 331 def VLD4LNd16 : VLD4LN<0b0111, "vld4", "16"> { let Inst{5} = 0; }
 332 def VLD4LNd32 : VLD4LN<0b1011, "vld4", "32"> { let Inst{6} = 0; }
 333
 334 // vld4 to double-spaced even registers.
 335 def VLD4LNq16a: VLD4LN<0b0111, "vld4", "16"> { let Inst{5} = 1; }
 336 def VLD4LNq32a: VLD4LN<0b1011, "vld4", "32"> { let Inst{6} = 1; }
 337
 338 // vld4 to double-spaced odd registers.
 339 def VLD4LNq16b: VLD4LN<0b0111, "vld4", "16"> { let Inst{5} = 1; }
 340 def VLD4LNq32b: VLD4LN<0b1011, "vld4", "32"> { let Inst{6} = 1; }
 341
 342 //   VLD1DUP  : Vector Load (single element to all lanes)
 343 //   VLD2DUP  : Vector Load (single 2-element structure to all lanes)
 344 //   VLD3DUP  : Vector Load (single 3-element structure to all lanes)
 345 //   VLD4DUP  : Vector Load (single 4-element structure to all lanes)
 346 //   FIXME: Not yet implemented.
 347 } // mayLoad = 1, hasExtraDefRegAllocReq = 1
 348
 349 //   VST1     : Vector Store (multiple single elements)
 350 class VST1D<bits<4> op7_4, string OpcodeStr, string Dt,
 351             ValueType Ty, Intrinsic IntOp>
 352   : NLdSt<0,0b00,0b0111,op7_4, (outs), (ins addrmode6:$addr, DPR:$src), IIC_VST,
 353           OpcodeStr, Dt, "\\{$src\\}, $addr", "",
 354           [(IntOp addrmode6:$addr, (Ty DPR:$src))]>;
 355 class VST1Q<bits<4> op7_4, string OpcodeStr, string Dt,
 356             ValueType Ty, Intrinsic IntOp>
 357   : NLdSt<0,0b00,0b1010,op7_4, (outs), (ins addrmode6:$addr, QPR:$src), IIC_VST,
 358           OpcodeStr, Dt, "${src:dregpair}, $addr", "",
 359           [(IntOp addrmode6:$addr, (Ty QPR:$src))]>;
 360
 361 let hasExtraSrcRegAllocReq = 1 in {
 362 def  VST1d8   : VST1D<0b0000, "vst1", "8",  v8i8,  int_arm_neon_vst1>;
 363 def  VST1d16  : VST1D<0b0100, "vst1", "16", v4i16, int_arm_neon_vst1>;
 364 def  VST1d32  : VST1D<0b1000, "vst1", "32", v2i32, int_arm_neon_vst1>;
 365 def  VST1df   : VST1D<0b1000, "vst1", "32", v2f32, int_arm_neon_vst1>;
 366 def  VST1d64  : VST1D<0b1100, "vst1", "64", v1i64, int_arm_neon_vst1>;
 367
 368 def  VST1q8   : VST1Q<0b0000, "vst1", "8",  v16i8, int_arm_neon_vst1>;
 369 def  VST1q16  : VST1Q<0b0100, "vst1", "16", v8i16, int_arm_neon_vst1>;
 370 def  VST1q32  : VST1Q<0b1000, "vst1", "32", v4i32, int_arm_neon_vst1>;
 371 def  VST1qf   : VST1Q<0b1000, "vst1", "32", v4f32, int_arm_neon_vst1>;
 372 def  VST1q64  : VST1Q<0b1100, "vst1", "64", v2i64, int_arm_neon_vst1>;
 373 } // hasExtraSrcRegAllocReq
 374
 375 let mayStore = 1, hasExtraSrcRegAllocReq = 1 in {
 376
 377 //   VST2     : Vector Store (multiple 2-element structures)
 378 class VST2D<bits<4> op7_4, string OpcodeStr, string Dt>
 379   : NLdSt<0,0b00,0b1000,op7_4, (outs),
 380           (ins addrmode6:$addr, DPR:$src1, DPR:$src2), IIC_VST,
 381           OpcodeStr, Dt, "\\{$src1, $src2\\}, $addr", "", []>;
 382 class VST2Q<bits<4> op7_4, string OpcodeStr, string Dt>
 383   : NLdSt<0,0b00,0b0011,op7_4, (outs),
 384           (ins addrmode6:$addr, DPR:$src1, DPR:$src2, DPR:$src3, DPR:$src4),
 385           IIC_VST, OpcodeStr, Dt, "\\{$src1, $src2, $src3, $src4\\}, $addr",
 386           "", []>;
 387
 388 def  VST2d8   : VST2D<0b0000, "vst2", "8">;
 389 def  VST2d16  : VST2D<0b0100, "vst2", "16">;
 390 def  VST2d32  : VST2D<0b1000, "vst2", "32">;
 391 def  VST2d64  : NLdSt<0,0b00,0b1010,0b1100, (outs),
 392                       (ins addrmode6:$addr, DPR:$src1, DPR:$src2), IIC_VST,
 393                       "vst1", "64", "\\{$src1, $src2\\}, $addr", "", []>;
 394
 395 def  VST2q8   : VST2Q<0b0000, "vst2", "8">;
 396 def  VST2q16  : VST2Q<0b0100, "vst2", "16">;
 397 def  VST2q32  : VST2Q<0b1000, "vst2", "32">;
 398
 399 //   VST3     : Vector Store (multiple 3-element structures)
 400 class VST3D<bits<4> op7_4, string OpcodeStr, string Dt>
 401   : NLdSt<0,0b00,0b0100,op7_4, (outs),
 402           (ins addrmode6:$addr, DPR:$src1, DPR:$src2, DPR:$src3), IIC_VST,
 403           OpcodeStr, Dt, "\\{$src1, $src2, $src3\\}, $addr", "", []>;
 404 class VST3WB<bits<4> op7_4, string OpcodeStr, string Dt>
 405   : NLdSt<0,0b00,0b0101,op7_4, (outs GPR:$wb),
 406           (ins addrmode6:$addr, DPR:$src1, DPR:$src2, DPR:$src3), IIC_VST,
 407           OpcodeStr, Dt, "\\{$src1, $src2, $src3\\}, $addr",
 408           "$addr.addr = $wb", []>;
 409
 410 def  VST3d8   : VST3D<0b0000, "vst3", "8">;
 411 def  VST3d16  : VST3D<0b0100, "vst3", "16">;
 412 def  VST3d32  : VST3D<0b1000, "vst3", "32">;
 413 def  VST3d64  : NLdSt<0,0b00,0b0110,0b1100, (outs),
 414                       (ins addrmode6:$addr, DPR:$src1, DPR:$src2, DPR:$src3),
 415                       IIC_VST,
 416                       "vst1", "64", "\\{$src1, $src2, $src3\\}, $addr", "", []>;
 417
 418 // vst3 to double-spaced even registers.
 419 def  VST3q8a  : VST3WB<0b0000, "vst3", "8">;
 420 def  VST3q16a : VST3WB<0b0100, "vst3", "16">;
 421 def  VST3q32a : VST3WB<0b1000, "vst3", "32">;
 422
 423 // vst3 to double-spaced odd registers.
 424 def  VST3q8b  : VST3WB<0b0000, "vst3", "8">;
 425 def  VST3q16b : VST3WB<0b0100, "vst3", "16">;
 426 def  VST3q32b : VST3WB<0b1000, "vst3", "32">;
 427
 428 //   VST4     : Vector Store (multiple 4-element structures)
 429 class VST4D<bits<4> op7_4, string OpcodeStr, string Dt>
 430   : NLdSt<0,0b00,0b0000,op7_4, (outs),
 431           (ins addrmode6:$addr, DPR:$src1, DPR:$src2, DPR:$src3, DPR:$src4),
 432           IIC_VST, OpcodeStr, Dt, "\\{$src1, $src2, $src3, $src4\\}, $addr",
 433           "", []>;
 434 class VST4WB<bits<4> op7_4, string OpcodeStr, string Dt>
 435   : NLdSt<0,0b00,0b0001,op7_4, (outs GPR:$wb),
 436           (ins addrmode6:$addr, DPR:$src1, DPR:$src2, DPR:$src3, DPR:$src4),
 437           IIC_VST, OpcodeStr, Dt, "\\{$src1, $src2, $src3, $src4\\}, $addr",
 438           "$addr.addr = $wb", []>;
 439
 440 def  VST4d8   : VST4D<0b0000, "vst4", "8">;
 441 def  VST4d16  : VST4D<0b0100, "vst4", "16">;
 442 def  VST4d32  : VST4D<0b1000, "vst4", "32">;
 443 def  VST4d64  : NLdSt<0,0b00,0b0010,0b1100, (outs),
 444                       (ins addrmode6:$addr, DPR:$src1, DPR:$src2, DPR:$src3,
 445                        DPR:$src4), IIC_VST,
 446                       "vst1", "64", "\\{$src1, $src2, $src3, $src4\\}, $addr",
 447                       "", []>;
 448
 449 // vst4 to double-spaced even registers.
 450 def  VST4q8a  : VST4WB<0b0000, "vst4", "8">;
 451 def  VST4q16a : VST4WB<0b0100, "vst4", "16">;
 452 def  VST4q32a : VST4WB<0b1000, "vst4", "32">;
 453
 454 // vst4 to double-spaced odd registers.
 455 def  VST4q8b  : VST4WB<0b0000, "vst4", "8">;
 456 def  VST4q16b : VST4WB<0b0100, "vst4", "16">;
 457 def  VST4q32b : VST4WB<0b1000, "vst4", "32">;
 458
 459 //   VST1LN   : Vector Store (single element from one lane)
 460 //   FIXME: Not yet implemented.
 461
 462 //   VST2LN   : Vector Store (single 2-element structure from one lane)
 463 class VST2LN<bits<4> op11_8, string OpcodeStr, string Dt>
 464   : NLdSt<1,0b00,op11_8,{?,?,?,?}, (outs),
 465           (ins addrmode6:$addr, DPR:$src1, DPR:$src2, nohash_imm:$lane),
 466           IIC_VST, OpcodeStr, Dt, "\\{$src1[$lane], $src2[$lane]\\}, $addr",
 467           "", []>;
 468
 469 // vst2 to single-spaced registers.
 470 def VST2LNd8  : VST2LN<0b0001, "vst2", "8">;
 471 def VST2LNd16 : VST2LN<0b0101, "vst2", "16"> { let Inst{5} = 0; }
 472 def VST2LNd32 : VST2LN<0b1001, "vst2", "32"> { let Inst{6} = 0; }
 473
 474 // vst2 to double-spaced even registers.
 475 def VST2LNq16a: VST2LN<0b0101, "vst2", "16"> { let Inst{5} = 1; }
 476 def VST2LNq32a: VST2LN<0b1001, "vst2", "32"> { let Inst{6} = 1; }
 477
 478 // vst2 to double-spaced odd registers.
 479 def VST2LNq16b: VST2LN<0b0101, "vst2", "16"> { let Inst{5} = 1; }
 480 def VST2LNq32b: VST2LN<0b1001, "vst2", "32"> { let Inst{6} = 1; }
 481
 482 //   VST3LN   : Vector Store (single 3-element structure from one lane)
 483 class VST3LN<bits<4> op11_8, string OpcodeStr, string Dt>
 484   : NLdSt<1,0b00,op11_8,{?,?,?,?}, (outs),
 485           (ins addrmode6:$addr, DPR:$src1, DPR:$src2, DPR:$src3,
 486            nohash_imm:$lane), IIC_VST, OpcodeStr, Dt,
 487           "\\{$src1[$lane], $src2[$lane], $src3[$lane]\\}, $addr", "", []>;
 488
 489 // vst3 to single-spaced registers.
 490 def VST3LNd8  : VST3LN<0b0010, "vst3", "8"> { let Inst{4} = 0; }
 491 def VST3LNd16 : VST3LN<0b0110, "vst3", "16"> { let Inst{5-4} = 0b00; }
 492 def VST3LNd32 : VST3LN<0b1010, "vst3", "32"> { let Inst{6-4} = 0b000; }
 493
 494 // vst3 to double-spaced even registers.
 495 def VST3LNq16a: VST3LN<0b0110, "vst3", "16"> { let Inst{5-4} = 0b10; }
 496 def VST3LNq32a: VST3LN<0b1010, "vst3", "32"> { let Inst{6-4} = 0b100; }
 497
 498 // vst3 to double-spaced odd registers.
 499 def VST3LNq16b: VST3LN<0b0110, "vst3", "16"> { let Inst{5-4} = 0b10; }
 500 def VST3LNq32b: VST3LN<0b1010, "vst3", "32"> { let Inst{6-4} = 0b100; }
 501
 502 //   VST4LN   : Vector Store (single 4-element structure from one lane)
 503 class VST4LN<bits<4> op11_8, string OpcodeStr, string Dt>
 504   : NLdSt<1,0b00,op11_8,{?,?,?,?}, (outs),
 505           (ins addrmode6:$addr, DPR:$src1, DPR:$src2, DPR:$src3, DPR:$src4,
 506            nohash_imm:$lane), IIC_VST, OpcodeStr, Dt,
 507           "\\{$src1[$lane], $src2[$lane], $src3[$lane], $src4[$lane]\\}, $addr",
 508           "", []>;
 509
 510 // vst4 to single-spaced registers.
 511 def VST4LNd8  : VST4LN<0b0011, "vst4", "8">;
 512 def VST4LNd16 : VST4LN<0b0111, "vst4", "16"> { let Inst{5} = 0; }
 513 def VST4LNd32 : VST4LN<0b1011, "vst4", "32"> { let Inst{6} = 0; }
 514
 515 // vst4 to double-spaced even registers.
 516 def VST4LNq16a: VST4LN<0b0111, "vst4", "16"> { let Inst{5} = 1; }
 517 def VST4LNq32a: VST4LN<0b1011, "vst4", "32"> { let Inst{6} = 1; }
 518
 519 // vst4 to double-spaced odd registers.
 520 def VST4LNq16b: VST4LN<0b0111, "vst4", "16"> { let Inst{5} = 1; }
 521 def VST4LNq32b: VST4LN<0b1011, "vst4", "32"> { let Inst{6} = 1; }
 522
 523 } // mayStore = 1, hasExtraSrcRegAllocReq = 1
 524
 525
 526 //===----------------------------------------------------------------------===//
 527 // NEON pattern fragments
 528 //===----------------------------------------------------------------------===//
 529
 530 // Extract D sub-registers of Q registers.
 531 // (arm_dsubreg_0 is 5; arm_dsubreg_1 is 6)
 532 def DSubReg_i8_reg  : SDNodeXForm<imm, [{
 533   return CurDAG->getTargetConstant(5 + N->getZExtValue() / 8, MVT::i32);
 534 }]>;
 535 def DSubReg_i16_reg : SDNodeXForm<imm, [{
 536   return CurDAG->getTargetConstant(5 + N->getZExtValue() / 4, MVT::i32);
 537 }]>;
 538 def DSubReg_i32_reg : SDNodeXForm<imm, [{
 539   return CurDAG->getTargetConstant(5 + N->getZExtValue() / 2, MVT::i32);
 540 }]>;
 541 def DSubReg_f64_reg : SDNodeXForm<imm, [{
 542   return CurDAG->getTargetConstant(5 + N->getZExtValue(), MVT::i32);
 543 }]>;
 544 def DSubReg_f64_other_reg : SDNodeXForm<imm, [{
 545   return CurDAG->getTargetConstant(5 + (1 - N->getZExtValue()), MVT::i32);
 546 }]>;
 547
 548 // Extract S sub-registers of Q/D registers.
 549 // (arm_ssubreg_0 is 1; arm_ssubreg_1 is 2; etc.)
 550 def SSubReg_f32_reg : SDNodeXForm<imm, [{
 551   return CurDAG->getTargetConstant(1 + N->getZExtValue(), MVT::i32);
 552 }]>;
 553
 554 // Translate lane numbers from Q registers to D subregs.
 555 def SubReg_i8_lane  : SDNodeXForm<imm, [{
 556   return CurDAG->getTargetConstant(N->getZExtValue() & 7, MVT::i32);
 557 }]>;
 558 def SubReg_i16_lane : SDNodeXForm<imm, [{
 559   return CurDAG->getTargetConstant(N->getZExtValue() & 3, MVT::i32);
 560 }]>;
 561 def SubReg_i32_lane : SDNodeXForm<imm, [{
 562   return CurDAG->getTargetConstant(N->getZExtValue() & 1, MVT::i32);
 563 }]>;
 564
 565 //===----------------------------------------------------------------------===//
 566 // Instruction Classes
 567 //===----------------------------------------------------------------------===//
 568
 569 // Basic 2-register operations: single-, double- and quad-register.
 570 class N2VS<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,
 571            bits<2> op17_16, bits<5> op11_7, bit op4, string OpcodeStr,
 572            string Dt, ValueType ResTy, ValueType OpTy, SDNode OpNode>
 573   : N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 0, op4,
 574         (outs DPR_VFP2:$dst), (ins DPR_VFP2:$src),
 575         IIC_VUNAD, OpcodeStr, Dt, "$dst, $src", "", []>;
 576 class N2VD<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,
 577            bits<2> op17_16, bits<5> op11_7, bit op4, string OpcodeStr,
 578            string Dt, ValueType ResTy, ValueType OpTy, SDNode OpNode>
 579   : N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 0, op4, (outs DPR:$dst),
 580         (ins DPR:$src), IIC_VUNAD, OpcodeStr, Dt, "$dst, $src", "",
 581         [(set DPR:$dst, (ResTy (OpNode (OpTy DPR:$src))))]>;
 582 class N2VQ<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,
 583            bits<2> op17_16, bits<5> op11_7, bit op4, string OpcodeStr,
 584            string Dt, ValueType ResTy, ValueType OpTy, SDNode OpNode>
 585   : N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 1, op4, (outs QPR:$dst),
 586         (ins QPR:$src), IIC_VUNAQ, OpcodeStr, Dt, "$dst, $src", "",
 587         [(set QPR:$dst, (ResTy (OpNode (OpTy QPR:$src))))]>;
 588
 589 // Basic 2-register intrinsics: single-, double- and quad-register.
 590 class N2VSInt<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,
 591               bits<2> op17_16, bits<5> op11_7, bit op4,
 592               InstrItinClass itin, string OpcodeStr, string Dt,
 593               ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
 594   : N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 0, op4,
 595         (outs DPR_VFP2:$dst), (ins DPR_VFP2:$src), itin,
 596         OpcodeStr, Dt, "$dst, $src", "", []>;
 597 class N2VDInt<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,
 598               bits<2> op17_16, bits<5> op11_7, bit op4,
 599               InstrItinClass itin, string OpcodeStr, string Dt,
 600               ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
 601   : N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 0, op4, (outs DPR:$dst),
 602         (ins DPR:$src), itin, OpcodeStr, Dt, "$dst, $src", "",
 603         [(set DPR:$dst, (ResTy (IntOp (OpTy DPR:$src))))]>;
 604 class N2VQInt<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,
 605               bits<2> op17_16, bits<5> op11_7, bit op4,
 606               InstrItinClass itin, string OpcodeStr, string Dt,
 607               ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
 608   : N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 1, op4, (outs QPR:$dst),
 609         (ins QPR:$src), itin, OpcodeStr, Dt, "$dst, $src", "",
 610         [(set QPR:$dst, (ResTy (IntOp (OpTy QPR:$src))))]>;
 611
 612 // Narrow 2-register intrinsics.
 613 class N2VNInt<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,
 614               bits<2> op17_16, bits<5> op11_7, bit op6, bit op4,
 615               InstrItinClass itin, string OpcodeStr, string Dt,
 616               ValueType TyD, ValueType TyQ, Intrinsic IntOp>
 617   : N2V<op24_23, op21_20, op19_18, op17_16, op11_7, op6, op4, (outs DPR:$dst),
 618         (ins QPR:$src), itin, OpcodeStr, Dt, "$dst, $src", "",
 619         [(set DPR:$dst, (TyD (IntOp (TyQ QPR:$src))))]>;
 620
 621 // Long 2-register intrinsics (currently only used for VMOVL).
 622 class N2VLInt<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,
 623               bits<2> op17_16, bits<5> op11_7, bit op6, bit op4,
 624               InstrItinClass itin, string OpcodeStr, string Dt,
 625               ValueType TyQ, ValueType TyD, Intrinsic IntOp>
 626   : N2V<op24_23, op21_20, op19_18, op17_16, op11_7, op6, op4, (outs QPR:$dst),
 627         (ins DPR:$src), itin, OpcodeStr, Dt, "$dst, $src", "",
 628         [(set QPR:$dst, (TyQ (IntOp (TyD DPR:$src))))]>;
 629
 630 // 2-register shuffles (VTRN/VZIP/VUZP), both double- and quad-register.
 631 class N2VDShuffle<bits<2> op19_18, bits<5> op11_7, string OpcodeStr, string Dt>
 632   : N2V<0b11, 0b11, op19_18, 0b10, op11_7, 0, 0, (outs DPR:$dst1, DPR:$dst2),
 633         (ins DPR:$src1, DPR:$src2), IIC_VPERMD,
 634         OpcodeStr, Dt, "$dst1, $dst2",
 635         "$src1 = $dst1, $src2 = $dst2", []>;
 636 class N2VQShuffle<bits<2> op19_18, bits<5> op11_7,
 637                   InstrItinClass itin, string OpcodeStr, string Dt>
 638   : N2V<0b11, 0b11, op19_18, 0b10, op11_7, 1, 0, (outs QPR:$dst1, QPR:$dst2),
 639         (ins QPR:$src1, QPR:$src2), itin, OpcodeStr, Dt, "$dst1, $dst2",
 640         "$src1 = $dst1, $src2 = $dst2", []>;
 641
 642 // Basic 3-register operations: single-, double- and quad-register.
 643 class N3VS<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
 644            string OpcodeStr, string Dt, ValueType ResTy, ValueType OpTy,
 645            SDNode OpNode, bit Commutable>
 646   : N3V<op24, op23, op21_20, op11_8, 0, op4,
 647         (outs DPR_VFP2:$dst), (ins DPR_VFP2:$src1, DPR_VFP2:$src2), IIC_VBIND,
 648         OpcodeStr, Dt, "$dst, $src1, $src2", "", []> {
 649   let isCommutable = Commutable;
 650 }
 651
 652 class N3VD<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
 653            InstrItinClass itin, string OpcodeStr, string Dt,
 654            ValueType ResTy, ValueType OpTy, SDNode OpNode, bit Commutable>
 655   : N3V<op24, op23, op21_20, op11_8, 0, op4,
 656         (outs DPR:$dst), (ins DPR:$src1, DPR:$src2), itin,
 657         OpcodeStr, Dt, "$dst, $src1, $src2", "",
 658         [(set DPR:$dst, (ResTy (OpNode (OpTy DPR:$src1), (OpTy DPR:$src2))))]> {
 659   let isCommutable = Commutable;
 660 }
 661 // Same as N3VD but no data type.
 662 class N3VDX<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
 663            InstrItinClass itin, string OpcodeStr,
 664            ValueType ResTy, ValueType OpTy,
 665            SDNode OpNode, bit Commutable>
 666   : N3VX<op24, op23, op21_20, op11_8, 0, op4,
 667          (outs DPR:$dst), (ins DPR:$src1, DPR:$src2), itin,
 668          OpcodeStr, "$dst, $src1, $src2", "",
 669          [(set DPR:$dst, (ResTy (OpNode (OpTy DPR:$src1), (OpTy DPR:$src2))))]>{
 670   let isCommutable = Commutable;
 671 }
 672 class N3VDSL<bits<2> op21_20, bits<4> op11_8,
 673              InstrItinClass itin, string OpcodeStr, string Dt,
 674              ValueType Ty, SDNode ShOp>
 675   : N3V<0, 1, op21_20, op11_8, 1, 0,
 676         (outs DPR:$dst), (ins DPR:$src1, DPR_VFP2:$src2, nohash_imm:$lane),
 677         itin, OpcodeStr, Dt, "$dst, $src1, $src2[$lane]", "",
 678         [(set (Ty DPR:$dst),
 679               (Ty (ShOp (Ty DPR:$src1),
 680                         (Ty (NEONvduplane (Ty DPR_VFP2:$src2), imm:$lane)))))]>{
 681   let isCommutable = 0;
 682 }
 683 class N3VDSL16<bits<2> op21_20, bits<4> op11_8,
 684                string OpcodeStr, string Dt, ValueType Ty, SDNode ShOp>
 685   : N3V<0, 1, op21_20, op11_8, 1, 0,
 686         (outs DPR:$dst), (ins DPR:$src1, DPR_8:$src2, nohash_imm:$lane),
 687         IIC_VMULi16D, OpcodeStr, Dt, "$dst, $src1, $src2[$lane]", "",
 688         [(set (Ty DPR:$dst),
 689               (Ty (ShOp (Ty DPR:$src1),
 690                         (Ty (NEONvduplane (Ty DPR_8:$src2), imm:$lane)))))]> {
 691   let isCommutable = 0;
 692 }
 693
 694 class N3VQ<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
 695            InstrItinClass itin, string OpcodeStr, string Dt,
 696            ValueType ResTy, ValueType OpTy, SDNode OpNode, bit Commutable>
 697   : N3V<op24, op23, op21_20, op11_8, 1, op4,
 698         (outs QPR:$dst), (ins QPR:$src1, QPR:$src2), itin,
 699         OpcodeStr, Dt, "$dst, $src1, $src2", "",
 700         [(set QPR:$dst, (ResTy (OpNode (OpTy QPR:$src1), (OpTy QPR:$src2))))]> {
 701   let isCommutable = Commutable;
 702 }
 703 class N3VQX<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
 704            InstrItinClass itin, string OpcodeStr,
 705            ValueType ResTy, ValueType OpTy, SDNode OpNode, bit Commutable>
 706   : N3VX<op24, op23, op21_20, op11_8, 1, op4,
 707          (outs QPR:$dst), (ins QPR:$src1, QPR:$src2), itin,
 708          OpcodeStr, "$dst, $src1, $src2", "",
 709          [(set QPR:$dst, (ResTy (OpNode (OpTy QPR:$src1), (OpTy QPR:$src2))))]>{
 710   let isCommutable = Commutable;
 711 }
 712 class N3VQSL<bits<2> op21_20, bits<4> op11_8,
 713              InstrItinClass itin, string OpcodeStr, string Dt,
 714              ValueType ResTy, ValueType OpTy, SDNode ShOp>
 715   : N3V<1, 1, op21_20, op11_8, 1, 0,
 716         (outs QPR:$dst), (ins QPR:$src1, DPR_VFP2:$src2, nohash_imm:$lane),
 717         itin, OpcodeStr, Dt, "$dst, $src1, $src2[$lane]", "",
 718         [(set (ResTy QPR:$dst),
 719               (ResTy (ShOp (ResTy QPR:$src1),
 720                            (ResTy (NEONvduplane (OpTy DPR_VFP2:$src2),
 721                                                 imm:$lane)))))]> {
 722   let isCommutable = 0;
 723 }
 724 class N3VQSL16<bits<2> op21_20, bits<4> op11_8, string OpcodeStr, string Dt,
 725                ValueType ResTy, ValueType OpTy, SDNode ShOp>
 726   : N3V<1, 1, op21_20, op11_8, 1, 0,
 727         (outs QPR:$dst), (ins QPR:$src1, DPR_8:$src2, nohash_imm:$lane),
 728         IIC_VMULi16Q, OpcodeStr, Dt, "$dst, $src1, $src2[$lane]", "",
 729         [(set (ResTy QPR:$dst),
 730               (ResTy (ShOp (ResTy QPR:$src1),
 731                            (ResTy (NEONvduplane (OpTy DPR_8:$src2),
 732                                                 imm:$lane)))))]> {
 733   let isCommutable = 0;
 734 }
 735
 736 // Basic 3-register intrinsics, both double- and quad-register.
 737 class N3VDInt<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
 738               InstrItinClass itin, string OpcodeStr, string Dt,
 739               ValueType ResTy, ValueType OpTy, Intrinsic IntOp, bit Commutable>
 740   : N3V<op24, op23, op21_20, op11_8, 0, op4,
 741         (outs DPR:$dst), (ins DPR:$src1, DPR:$src2), itin,
 742         OpcodeStr, Dt, "$dst, $src1, $src2", "",
 743         [(set DPR:$dst, (ResTy (IntOp (OpTy DPR:$src1), (OpTy DPR:$src2))))]> {
 744   let isCommutable = Commutable;
 745 }
 746 class N3VDIntSL<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
 747                 string OpcodeStr, string Dt, ValueType Ty, Intrinsic IntOp>
 748   : N3V<0, 1, op21_20, op11_8, 1, 0,
 749         (outs DPR:$dst), (ins DPR:$src1, DPR_VFP2:$src2, nohash_imm:$lane),
 750         itin, OpcodeStr, Dt, "$dst, $src1, $src2[$lane]", "",
 751         [(set (Ty DPR:$dst),
 752               (Ty (IntOp (Ty DPR:$src1),
 753                          (Ty (NEONvduplane (Ty DPR_VFP2:$src2),
 754                                            imm:$lane)))))]> {
 755   let isCommutable = 0;
 756 }
 757 class N3VDIntSL16<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
 758                   string OpcodeStr, string Dt, ValueType Ty, Intrinsic IntOp>
 759   : N3V<0, 1, op21_20, op11_8, 1, 0,
 760         (outs DPR:$dst), (ins DPR:$src1, DPR_8:$src2, nohash_imm:$lane),
 761         itin, OpcodeStr, Dt, "$dst, $src1, $src2[$lane]", "",
 762         [(set (Ty DPR:$dst),
 763               (Ty (IntOp (Ty DPR:$src1),
 764                          (Ty (NEONvduplane (Ty DPR_8:$src2),
 765                                            imm:$lane)))))]> {
 766   let isCommutable = 0;
 767 }
 768
 769 class N3VQInt<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
 770               InstrItinClass itin, string OpcodeStr, string Dt,
 771               ValueType ResTy, ValueType OpTy, Intrinsic IntOp, bit Commutable>
 772   : N3V<op24, op23, op21_20, op11_8, 1, op4,
 773         (outs QPR:$dst), (ins QPR:$src1, QPR:$src2), itin,
 774         OpcodeStr, Dt, "$dst, $src1, $src2", "",
 775         [(set QPR:$dst, (ResTy (IntOp (OpTy QPR:$src1), (OpTy QPR:$src2))))]> {
 776   let isCommutable = Commutable;
 777 }
 778 class N3VQIntSL<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
 779                 string OpcodeStr, string Dt,
 780                 ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
 781   : N3V<1, 1, op21_20, op11_8, 1, 0,
 782         (outs QPR:$dst), (ins QPR:$src1, DPR_VFP2:$src2, nohash_imm:$lane),
 783         itin, OpcodeStr, Dt, "$dst, $src1, $src2[$lane]", "",
 784         [(set (ResTy QPR:$dst),
 785               (ResTy (IntOp (ResTy QPR:$src1),
 786                             (ResTy (NEONvduplane (OpTy DPR_VFP2:$src2),
 787                                                  imm:$lane)))))]> {
 788   let isCommutable = 0;
 789 }
 790 class N3VQIntSL16<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
 791                   string OpcodeStr, string Dt,
 792                   ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
 793   : N3V<1, 1, op21_20, op11_8, 1, 0,
 794         (outs QPR:$dst), (ins QPR:$src1, DPR_8:$src2, nohash_imm:$lane),
 795         itin, OpcodeStr, Dt, "$dst, $src1, $src2[$lane]", "",
 796         [(set (ResTy QPR:$dst),
 797               (ResTy (IntOp (ResTy QPR:$src1),
 798                             (ResTy (NEONvduplane (OpTy DPR_8:$src2),
 799                                                  imm:$lane)))))]> {
 800   let isCommutable = 0;
 801 }
 802
 803 // Multiply-Add/Sub operations: single-, double- and quad-register.
 804 class N3VSMulOp<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
 805                 InstrItinClass itin, string OpcodeStr, string Dt,
 806                 ValueType Ty, SDNode MulOp, SDNode OpNode>
 807   : N3V<op24, op23, op21_20, op11_8, 0, op4,
 808         (outs DPR_VFP2:$dst),
 809         (ins DPR_VFP2:$src1, DPR_VFP2:$src2, DPR_VFP2:$src3), itin,
 810         OpcodeStr, Dt, "$dst, $src2, $src3", "$src1 = $dst", []>;
 811
 812 class N3VDMulOp<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
 813                 InstrItinClass itin, string OpcodeStr, string Dt,
 814                 ValueType Ty, SDNode MulOp, SDNode OpNode>
 815   : N3V<op24, op23, op21_20, op11_8, 0, op4,
 816         (outs DPR:$dst), (ins DPR:$src1, DPR:$src2, DPR:$src3), itin,
 817         OpcodeStr, Dt, "$dst, $src2, $src3", "$src1 = $dst",
 818         [(set DPR:$dst, (Ty (OpNode DPR:$src1,
 819                              (Ty (MulOp DPR:$src2, DPR:$src3)))))]>;
 820 class N3VDMulOpSL<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
 821                   string OpcodeStr, string Dt,
 822                   ValueType Ty, SDNode MulOp, SDNode ShOp>
 823   : N3V<0, 1, op21_20, op11_8, 1, 0,
 824         (outs DPR:$dst),
 825         (ins DPR:$src1, DPR:$src2, DPR_VFP2:$src3, nohash_imm:$lane), itin,
 826         OpcodeStr, Dt, "$dst, $src2, $src3[$lane]", "$src1 = $dst",
 827         [(set (Ty DPR:$dst),
 828               (Ty (ShOp (Ty DPR:$src1),
 829                         (Ty (MulOp DPR:$src2,
 830                                    (Ty (NEONvduplane (Ty DPR_VFP2:$src3),
 831                                                      imm:$lane)))))))]>;
 832 class N3VDMulOpSL16<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
 833                     string OpcodeStr, string Dt,
 834                     ValueType Ty, SDNode MulOp, SDNode ShOp>
 835   : N3V<0, 1, op21_20, op11_8, 1, 0,
 836         (outs DPR:$dst),
 837         (ins DPR:$src1, DPR:$src2, DPR_8:$src3, nohash_imm:$lane), itin,
 838         OpcodeStr, Dt, "$dst, $src2, $src3[$lane]", "$src1 = $dst",
 839         [(set (Ty DPR:$dst),
 840               (Ty (ShOp (Ty DPR:$src1),
 841                         (Ty (MulOp DPR:$src2,
 842                                    (Ty (NEONvduplane (Ty DPR_8:$src3),
 843                                                      imm:$lane)))))))]>;
 844
 845 class N3VQMulOp<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
 846                 InstrItinClass itin, string OpcodeStr, string Dt, ValueType Ty,
 847                 SDNode MulOp, SDNode OpNode>
 848   : N3V<op24, op23, op21_20, op11_8, 1, op4,
 849         (outs QPR:$dst), (ins QPR:$src1, QPR:$src2, QPR:$src3), itin,
 850         OpcodeStr, Dt, "$dst, $src2, $src3", "$src1 = $dst",
 851         [(set QPR:$dst, (Ty (OpNode QPR:$src1,
 852                              (Ty (MulOp QPR:$src2, QPR:$src3)))))]>;
 853 class N3VQMulOpSL<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
 854                   string OpcodeStr, string Dt, ValueType ResTy, ValueType OpTy,
 855                   SDNode MulOp, SDNode ShOp>
 856   : N3V<1, 1, op21_20, op11_8, 1, 0,
 857         (outs QPR:$dst),
 858         (ins QPR:$src1, QPR:$src2, DPR_VFP2:$src3, nohash_imm:$lane), itin,
 859         OpcodeStr, Dt, "$dst, $src2, $src3[$lane]", "$src1 = $dst",
 860         [(set (ResTy QPR:$dst),
 861               (ResTy (ShOp (ResTy QPR:$src1),
 862                            (ResTy (MulOp QPR:$src2,
 863                                    (ResTy (NEONvduplane (OpTy DPR_VFP2:$src3),
 864                                                         imm:$lane)))))))]>;
 865 class N3VQMulOpSL16<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
 866                     string OpcodeStr, string Dt,
 867                     ValueType ResTy, ValueType OpTy,
 868                     SDNode MulOp, SDNode ShOp>
 869   : N3V<1, 1, op21_20, op11_8, 1, 0,
 870         (outs QPR:$dst),
 871         (ins QPR:$src1, QPR:$src2, DPR_8:$src3, nohash_imm:$lane), itin,
 872         OpcodeStr, Dt, "$dst, $src2, $src3[$lane]", "$src1 = $dst",
 873         [(set (ResTy QPR:$dst),
 874               (ResTy (ShOp (ResTy QPR:$src1),
 875                            (ResTy (MulOp QPR:$src2,
 876                                    (ResTy (NEONvduplane (OpTy DPR_8:$src3),
 877                                                         imm:$lane)))))))]>;
 878
 879 // Neon 3-argument intrinsics, both double- and quad-register.
 880 // The destination register is also used as the first source operand register.
 881 class N3VDInt3<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
 882                InstrItinClass itin, string OpcodeStr, string Dt,
 883                ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
 884   : N3V<op24, op23, op21_20, op11_8, 0, op4,
 885         (outs DPR:$dst), (ins DPR:$src1, DPR:$src2, DPR:$src3), itin,
 886         OpcodeStr, Dt, "$dst, $src2, $src3", "$src1 = $dst",
 887         [(set DPR:$dst, (ResTy (IntOp (OpTy DPR:$src1),
 888                                       (OpTy DPR:$src2), (OpTy DPR:$src3))))]>;
 889 class N3VQInt3<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
 890                InstrItinClass itin, string OpcodeStr, string Dt,
 891                ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
 892   : N3V<op24, op23, op21_20, op11_8, 1, op4,
 893         (outs QPR:$dst), (ins QPR:$src1, QPR:$src2, QPR:$src3), itin,
 894         OpcodeStr, Dt, "$dst, $src2, $src3", "$src1 = $dst",
 895         [(set QPR:$dst, (ResTy (IntOp (OpTy QPR:$src1),
 896                                       (OpTy QPR:$src2), (OpTy QPR:$src3))))]>;
 897
 898 // Neon Long 3-argument intrinsic.  The destination register is
 899 // a quad-register and is also used as the first source operand register.
 900 class N3VLInt3<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
 901                InstrItinClass itin, string OpcodeStr, string Dt,
 902                ValueType TyQ, ValueType TyD, Intrinsic IntOp>
 903   : N3V<op24, op23, op21_20, op11_8, 0, op4,
 904         (outs QPR:$dst), (ins QPR:$src1, DPR:$src2, DPR:$src3), itin,
 905         OpcodeStr, Dt, "$dst, $src2, $src3", "$src1 = $dst",
 906         [(set QPR:$dst,
 907           (TyQ (IntOp (TyQ QPR:$src1), (TyD DPR:$src2), (TyD DPR:$src3))))]>;
 908 class N3VLInt3SL<bit op24, bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
 909                  string OpcodeStr, string Dt,
 910                  ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
 911   : N3V<op24, 1, op21_20, op11_8, 1, 0,
 912         (outs QPR:$dst),
 913         (ins QPR:$src1, DPR:$src2, DPR_VFP2:$src3, nohash_imm:$lane), itin,
 914         OpcodeStr, Dt, "$dst, $src2, $src3[$lane]", "$src1 = $dst",
 915         [(set (ResTy QPR:$dst),
 916               (ResTy (IntOp (ResTy QPR:$src1),
 917                             (OpTy DPR:$src2),
 918                             (OpTy (NEONvduplane (OpTy DPR_VFP2:$src3),
 919                                                 imm:$lane)))))]>;
 920 class N3VLInt3SL16<bit op24, bits<2> op21_20, bits<4> op11_8,
 921                    InstrItinClass itin, string OpcodeStr, string Dt,
 922                    ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
 923   : N3V<op24, 1, op21_20, op11_8, 1, 0,
 924         (outs QPR:$dst),
 925         (ins QPR:$src1, DPR:$src2, DPR_8:$src3, nohash_imm:$lane), itin,
 926         OpcodeStr, Dt, "$dst, $src2, $src3[$lane]", "$src1 = $dst",
 927         [(set (ResTy QPR:$dst),
 928               (ResTy (IntOp (ResTy QPR:$src1),
 929                             (OpTy DPR:$src2),
 930                             (OpTy (NEONvduplane (OpTy DPR_8:$src3),
 931                                                 imm:$lane)))))]>;
 932
 933 // Narrowing 3-register intrinsics.
 934 class N3VNInt<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
 935               string OpcodeStr, string Dt, ValueType TyD, ValueType TyQ,
 936               Intrinsic IntOp, bit Commutable>
 937   : N3V<op24, op23, op21_20, op11_8, 0, op4,
 938         (outs DPR:$dst), (ins QPR:$src1, QPR:$src2), IIC_VBINi4D,
 939         OpcodeStr, Dt, "$dst, $src1, $src2", "",
 940         [(set DPR:$dst, (TyD (IntOp (TyQ QPR:$src1), (TyQ QPR:$src2))))]> {
 941   let isCommutable = Commutable;
 942 }
 943
 944 // Long 3-register intrinsics.
 945 class N3VLInt<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
 946               InstrItinClass itin, string OpcodeStr, string Dt,
 947               ValueType TyQ, ValueType TyD, Intrinsic IntOp, bit Commutable>
 948   : N3V<op24, op23, op21_20, op11_8, 0, op4,
 949         (outs QPR:$dst), (ins DPR:$src1, DPR:$src2), itin,
 950         OpcodeStr, Dt, "$dst, $src1, $src2", "",
 951         [(set QPR:$dst, (TyQ (IntOp (TyD DPR:$src1), (TyD DPR:$src2))))]> {
 952   let isCommutable = Commutable;
 953 }
 954 class N3VLIntSL<bit op24, bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
 955                 string OpcodeStr, string Dt,
 956                 ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
 957   : N3V<op24, 1, op21_20, op11_8, 1, 0,
 958         (outs QPR:$dst), (ins DPR:$src1, DPR_VFP2:$src2, nohash_imm:$lane),
 959         itin, OpcodeStr, Dt, "$dst, $src1, $src2[$lane]", "",
 960         [(set (ResTy QPR:$dst),
 961               (ResTy (IntOp (OpTy DPR:$src1),
 962                             (OpTy (NEONvduplane (OpTy DPR_VFP2:$src2),
 963                                                 imm:$lane)))))]>;
 964 class N3VLIntSL16<bit op24, bits<2> op21_20, bits<4> op11_8,
 965                   InstrItinClass itin, string OpcodeStr, string Dt,
 966                   ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
 967   : N3V<op24, 1, op21_20, op11_8, 1, 0,
 968         (outs QPR:$dst), (ins DPR:$src1, DPR_8:$src2, nohash_imm:$lane),
 969         itin, OpcodeStr, Dt, "$dst, $src1, $src2[$lane]", "",
 970         [(set (ResTy QPR:$dst),
 971               (ResTy (IntOp (OpTy DPR:$src1),
 972                             (OpTy (NEONvduplane (OpTy DPR_8:$src2),
 973                                                 imm:$lane)))))]>;
 974
 975 // Wide 3-register intrinsics.
 976 class N3VWInt<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
 977               string OpcodeStr, string Dt, ValueType TyQ, ValueType TyD,
 978               Intrinsic IntOp, bit Commutable>
 979   : N3V<op24, op23, op21_20, op11_8, 0, op4,
 980         (outs QPR:$dst), (ins QPR:$src1, DPR:$src2), IIC_VSUBiD,
 981         OpcodeStr, Dt, "$dst, $src1, $src2", "",
 982         [(set QPR:$dst, (TyQ (IntOp (TyQ QPR:$src1), (TyD DPR:$src2))))]> {
 983   let isCommutable = Commutable;
 984 }
 985
 986 // Pairwise long 2-register intrinsics, both double- and quad-register.
 987 class N2VDPLInt<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,
 988                 bits<2> op17_16, bits<5> op11_7, bit op4,
 989                 string OpcodeStr, string Dt,
 990                 ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
 991   : N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 0, op4, (outs DPR:$dst),
 992         (ins DPR:$src), IIC_VSHLiD, OpcodeStr, Dt, "$dst, $src", "",
 993         [(set DPR:$dst, (ResTy (IntOp (OpTy DPR:$src))))]>;
 994 class N2VQPLInt<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,
 995                 bits<2> op17_16, bits<5> op11_7, bit op4,
 996                 string OpcodeStr, string Dt,
 997                 ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
 998   : N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 1, op4, (outs QPR:$dst),
 999         (ins QPR:$src), IIC_VSHLiD, OpcodeStr, Dt, "$dst, $src", "",
1000         [(set QPR:$dst, (ResTy (IntOp (OpTy QPR:$src))))]>;
1001
1002 // Pairwise long 2-register accumulate intrinsics,
1003 // both double- and quad-register.
1004 // The destination register is also used as the first source operand register.
1005 class N2VDPLInt2<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,
1006                  bits<2> op17_16, bits<5> op11_7, bit op4,
1007                  string OpcodeStr, string Dt,
1008                  ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
1009   : N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 0, op4,
1010         (outs DPR:$dst), (ins DPR:$src1, DPR:$src2), IIC_VPALiD,
1011         OpcodeStr, Dt, "$dst, $src2", "$src1 = $dst",
1012         [(set DPR:$dst, (ResTy (IntOp (ResTy DPR:$src1), (OpTy DPR:$src2))))]>;
1013 class N2VQPLInt2<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,
1014                  bits<2> op17_16, bits<5> op11_7, bit op4,
1015                  string OpcodeStr, string Dt,
1016                  ValueType ResTy, ValueType OpTy, Intrinsic IntOp>
1017   : N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 1, op4,
1018         (outs QPR:$dst), (ins QPR:$src1, QPR:$src2), IIC_VPALiQ,
1019         OpcodeStr, Dt, "$dst, $src2", "$src1 = $dst",
1020         [(set QPR:$dst, (ResTy (IntOp (ResTy QPR:$src1), (OpTy QPR:$src2))))]>;
1021
1022 // Shift by immediate,
1023 // both double- and quad-register.
1024 class N2VDSh<bit op24, bit op23, bits<4> op11_8, bit op7, bit op4,
1025              InstrItinClass itin, string OpcodeStr, string Dt,
1026              ValueType Ty, SDNode OpNode>
1027   : N2VImm<op24, op23, op11_8, op7, 0, op4,
1028            (outs DPR:$dst), (ins DPR:$src, i32imm:$SIMM), itin,
1029            OpcodeStr, Dt, "$dst, $src, $SIMM", "",
1030            [(set DPR:$dst, (Ty (OpNode (Ty DPR:$src), (i32 imm:$SIMM))))]>;
1031 class N2VQSh<bit op24, bit op23, bits<4> op11_8, bit op7, bit op4,
1032              InstrItinClass itin, string OpcodeStr, string Dt,
1033              ValueType Ty, SDNode OpNode>
1034   : N2VImm<op24, op23, op11_8, op7, 1, op4,
1035            (outs QPR:$dst), (ins QPR:$src, i32imm:$SIMM), itin,
1036            OpcodeStr, Dt, "$dst, $src, $SIMM", "",
1037            [(set QPR:$dst, (Ty (OpNode (Ty QPR:$src), (i32 imm:$SIMM))))]>;
1038
1039 // Long shift by immediate.
1040 class N2VLSh<bit op24, bit op23, bits<4> op11_8, bit op7, bit op6, bit op4,
1041              string OpcodeStr, string Dt,
1042              ValueType ResTy, ValueType OpTy, SDNode OpNode>
1043   : N2VImm<op24, op23, op11_8, op7, op6, op4,
1044            (outs QPR:$dst), (ins DPR:$src, i32imm:$SIMM), IIC_VSHLiD,
1045            OpcodeStr, Dt, "$dst, $src, $SIMM", "",
1046            [(set QPR:$dst, (ResTy (OpNode (OpTy DPR:$src),
1047                                           (i32 imm:$SIMM))))]>;
1048
1049 // Narrow shift by immediate.
1050 class N2VNSh<bit op24, bit op23, bits<4> op11_8, bit op7, bit op6, bit op4,
1051              InstrItinClass itin, string OpcodeStr, string Dt,
1052              ValueType ResTy, ValueType OpTy, SDNode OpNode>
1053   : N2VImm<op24, op23, op11_8, op7, op6, op4,
1054            (outs DPR:$dst), (ins QPR:$src, i32imm:$SIMM), itin,
1055            OpcodeStr, Dt, "$dst, $src, $SIMM", "",
1056            [(set DPR:$dst, (ResTy (OpNode (OpTy QPR:$src),
1057                                           (i32 imm:$SIMM))))]>;
1058
1059 // Shift right by immediate and accumulate,
1060 // both double- and quad-register.
1061 class N2VDShAdd<bit op24, bit op23, bits<4> op11_8, bit op7, bit op4,
1062                 string OpcodeStr, string Dt, ValueType Ty, SDNode ShOp>
1063   : N2VImm<op24, op23, op11_8, op7, 0, op4, (outs DPR:$dst),
1064            (ins DPR:$src1, DPR:$src2, i32imm:$SIMM), IIC_VPALiD,
1065            OpcodeStr, Dt, "$dst, $src2, $SIMM", "$src1 = $dst",
1066            [(set DPR:$dst, (Ty (add DPR:$src1,
1067                                 (Ty (ShOp DPR:$src2, (i32 imm:$SIMM))))))]>;
1068 class N2VQShAdd<bit op24, bit op23, bits<4> op11_8, bit op7, bit op4,
1069                 string OpcodeStr, string Dt, ValueType Ty, SDNode ShOp>
1070   : N2VImm<op24, op23, op11_8, op7, 1, op4, (outs QPR:$dst),
1071            (ins QPR:$src1, QPR:$src2, i32imm:$SIMM), IIC_VPALiD,
1072            OpcodeStr, Dt, "$dst, $src2, $SIMM", "$src1 = $dst",
1073            [(set QPR:$dst, (Ty (add QPR:$src1,
1074                                 (Ty (ShOp QPR:$src2, (i32 imm:$SIMM))))))]>;
1075
1076 // Shift by immediate and insert,
1077 // both double- and quad-register.
1078 class N2VDShIns<bit op24, bit op23, bits<4> op11_8, bit op7, bit op4,
1079                 string OpcodeStr, string Dt, ValueType Ty, SDNode ShOp>
1080   : N2VImm<op24, op23, op11_8, op7, 0, op4, (outs DPR:$dst),
1081            (ins DPR:$src1, DPR:$src2, i32imm:$SIMM), IIC_VSHLiD,
1082            OpcodeStr, Dt, "$dst, $src2, $SIMM", "$src1 = $dst",
1083            [(set DPR:$dst, (Ty (ShOp DPR:$src1, DPR:$src2, (i32 imm:$SIMM))))]>;
1084 class N2VQShIns<bit op24, bit op23, bits<4> op11_8, bit op7, bit op4,
1085                 string OpcodeStr, string Dt, ValueType Ty, SDNode ShOp>
1086   : N2VImm<op24, op23, op11_8, op7, 1, op4, (outs QPR:$dst),
1087            (ins QPR:$src1, QPR:$src2, i32imm:$SIMM), IIC_VSHLiQ,
1088            OpcodeStr, Dt, "$dst, $src2, $SIMM", "$src1 = $dst",
1089            [(set QPR:$dst, (Ty (ShOp QPR:$src1, QPR:$src2, (i32 imm:$SIMM))))]>;
1090
1091 // Convert, with fractional bits immediate,
1092 // both double- and quad-register.
1093 class N2VCvtD<bit op24, bit op23, bits<4> op11_8, bit op7, bit op4,
1094               string OpcodeStr, string Dt, ValueType ResTy, ValueType OpTy,
1095               Intrinsic IntOp>
1096   : N2VImm<op24, op23, op11_8, op7, 0, op4,
1097            (outs DPR:$dst), (ins DPR:$src, i32imm:$SIMM), IIC_VUNAD,
1098            OpcodeStr, Dt, "$dst, $src, $SIMM", "",
1099            [(set DPR:$dst, (ResTy (IntOp (OpTy DPR:$src), (i32 imm:$SIMM))))]>;
1100 class N2VCvtQ<bit op24, bit op23, bits<4> op11_8, bit op7, bit op4,
1101               string OpcodeStr, string Dt, ValueType ResTy, ValueType OpTy,
1102               Intrinsic IntOp>
1103   : N2VImm<op24, op23, op11_8, op7, 1, op4,
1104            (outs QPR:$dst), (ins QPR:$src, i32imm:$SIMM), IIC_VUNAQ,
1105            OpcodeStr, Dt, "$dst, $src, $SIMM", "",
1106            [(set QPR:$dst, (ResTy (IntOp (OpTy QPR:$src), (i32 imm:$SIMM))))]>;
1107
1108 //===----------------------------------------------------------------------===//
1109 // Multiclasses
1110 //===----------------------------------------------------------------------===//
1111
1112 // Abbreviations used in multiclass suffixes:
1113 //   Q = quarter int (8 bit) elements
1114 //   H = half int (16 bit) elements
1115 //   S = single int (32 bit) elements
1116 //   D = double int (64 bit) elements
1117
1118 // Neon 3-register vector operations.
1119
1120 // First with only element sizes of 8, 16 and 32 bits:
1121 multiclass N3V_QHS<bit op24, bit op23, bits<4> op11_8, bit op4,
1122                    InstrItinClass itinD16, InstrItinClass itinD32,
1123                    InstrItinClass itinQ16, InstrItinClass itinQ32,
1124                    string OpcodeStr, string Dt,
1125                    SDNode OpNode, bit Commutable = 0> {
1126   // 64-bit vector types.
1127   def v8i8  : N3VD<op24, op23, 0b00, op11_8, op4, itinD16,
1128                    OpcodeStr, !strconcat(Dt, "8"),
1129                    v8i8, v8i8, OpNode, Commutable>;
1130   def v4i16 : N3VD<op24, op23, 0b01, op11_8, op4, itinD16,
1131                    OpcodeStr, !strconcat(Dt, "16"),
1132                    v4i16, v4i16, OpNode, Commutable>;
1133   def v2i32 : N3VD<op24, op23, 0b10, op11_8, op4, itinD32,
1134                    OpcodeStr, !strconcat(Dt, "32"),
1135                    v2i32, v2i32, OpNode, Commutable>;
1136
1137   // 128-bit vector types.
1138   def v16i8 : N3VQ<op24, op23, 0b00, op11_8, op4, itinQ16,
1139                    OpcodeStr, !strconcat(Dt, "8"),
1140                    v16i8, v16i8, OpNode, Commutable>;
1141   def v8i16 : N3VQ<op24, op23, 0b01, op11_8, op4, itinQ16,
1142                    OpcodeStr, !strconcat(Dt, "16"),
1143                    v8i16, v8i16, OpNode, Commutable>;
1144   def v4i32 : N3VQ<op24, op23, 0b10, op11_8, op4, itinQ32,
1145                    OpcodeStr, !strconcat(Dt, "32"),
1146                    v4i32, v4i32, OpNode, Commutable>;
1147 }
1148
1149 multiclass N3VSL_HS<bits<4> op11_8, string OpcodeStr, string Dt, SDNode ShOp> {
1150   def v4i16 : N3VDSL16<0b01, op11_8, OpcodeStr, !strconcat(Dt, "16"),
1151                        v4i16, ShOp>;
1152   def v2i32 : N3VDSL<0b10, op11_8, IIC_VMULi32D, OpcodeStr, !strconcat(Dt,"32"),
1153                      v2i32, ShOp>;
1154   def v8i16 : N3VQSL16<0b01, op11_8, OpcodeStr, !strconcat(Dt, "16"),
1155                        v8i16, v4i16, ShOp>;
1156   def v4i32 : N3VQSL<0b10, op11_8, IIC_VMULi32Q, OpcodeStr, !strconcat(Dt,"32"),
1157                      v4i32, v2i32, ShOp>;
1158 }
1159
1160 // ....then also with element size 64 bits:
1161 multiclass N3V_QHSD<bit op24, bit op23, bits<4> op11_8, bit op4,
1162                     InstrItinClass itinD, InstrItinClass itinQ,
1163                     string OpcodeStr, string Dt,
1164                     SDNode OpNode, bit Commutable = 0>
1165   : N3V_QHS<op24, op23, op11_8, op4, itinD, itinD, itinQ, itinQ,
1166             OpcodeStr, Dt, OpNode, Commutable> {
1167   def v1i64 : N3VD<op24, op23, 0b11, op11_8, op4, itinD,
1168                    OpcodeStr, !strconcat(Dt, "64"),
1169                    v1i64, v1i64, OpNode, Commutable>;
1170   def v2i64 : N3VQ<op24, op23, 0b11, op11_8, op4, itinQ,
1171                    OpcodeStr, !strconcat(Dt, "64"),
1172                    v2i64, v2i64, OpNode, Commutable>;
1173 }
1174
1175
1176 // Neon Narrowing 2-register vector intrinsics,
1177 //   source operand element sizes of 16, 32 and 64 bits:
1178 multiclass N2VNInt_HSD<bits<2> op24_23, bits<2> op21_20, bits<2> op17_16,
1179                        bits<5> op11_7, bit op6, bit op4,
1180                        InstrItinClass itin, string OpcodeStr, string Dt,
1181                        Intrinsic IntOp> {
1182   def v8i8  : N2VNInt<op24_23, op21_20, 0b00, op17_16, op11_7, op6, op4,
1183                       itin, OpcodeStr, !strconcat(Dt, "16"),
1184                       v8i8, v8i16, IntOp>;
1185   def v4i16 : N2VNInt<op24_23, op21_20, 0b01, op17_16, op11_7, op6, op4,
1186                       itin, OpcodeStr, !strconcat(Dt, "32"),
1187                       v4i16, v4i32, IntOp>;
1188   def v2i32 : N2VNInt<op24_23, op21_20, 0b10, op17_16, op11_7, op6, op4,
1189                       itin, OpcodeStr, !strconcat(Dt, "64"),
1190                       v2i32, v2i64, IntOp>;
1191 }
1192
1193
1194 // Neon Lengthening 2-register vector intrinsic (currently specific to VMOVL).
1195 //   source operand element sizes of 16, 32 and 64 bits:
1196 multiclass N2VLInt_QHS<bits<2> op24_23, bits<5> op11_7, bit op6, bit op4,
1197                        string OpcodeStr, string Dt, Intrinsic IntOp> {
1198   def v8i16 : N2VLInt<op24_23, 0b00, 0b10, 0b00, op11_7, op6, op4, IIC_VQUNAiD,
1199                       OpcodeStr, !strconcat(Dt, "8"), v8i16, v8i8, IntOp>;
1200   def v4i32 : N2VLInt<op24_23, 0b01, 0b00, 0b00, op11_7, op6, op4, IIC_VQUNAiD,
1201                       OpcodeStr, !strconcat(Dt, "16"), v4i32, v4i16, IntOp>;
1202   def v2i64 : N2VLInt<op24_23, 0b10, 0b00, 0b00, op11_7, op6, op4, IIC_VQUNAiD,
1203                       OpcodeStr, !strconcat(Dt, "32"), v2i64, v2i32, IntOp>;
1204 }
1205
1206
1207 // Neon 3-register vector intrinsics.
1208
1209 // First with only element sizes of 16 and 32 bits:
1210 multiclass N3VInt_HS<bit op24, bit op23, bits<4> op11_8, bit op4,
1211                      InstrItinClass itinD16, InstrItinClass itinD32,
1212                      InstrItinClass itinQ16, InstrItinClass itinQ32,
1213                      string OpcodeStr, string Dt,
1214                      Intrinsic IntOp, bit Commutable = 0> {
1215   // 64-bit vector types.
1216   def v4i16 : N3VDInt<op24, op23, 0b01, op11_8, op4, itinD16,
1217                       OpcodeStr, !strconcat(Dt, "16"),
1218                       v4i16, v4i16, IntOp, Commutable>;
1219   def v2i32 : N3VDInt<op24, op23, 0b10, op11_8, op4, itinD32,
1220                       OpcodeStr, !strconcat(Dt, "32"),
1221                       v2i32, v2i32, IntOp, Commutable>;
1222
1223   // 128-bit vector types.
1224   def v8i16 : N3VQInt<op24, op23, 0b01, op11_8, op4, itinQ16,
1225                       OpcodeStr, !strconcat(Dt, "16"),
1226                       v8i16, v8i16, IntOp, Commutable>;
1227   def v4i32 : N3VQInt<op24, op23, 0b10, op11_8, op4, itinQ32,
1228                       OpcodeStr, !strconcat(Dt, "32"),
1229                       v4i32, v4i32, IntOp, Commutable>;
1230 }
1231
1232 multiclass N3VIntSL_HS<bits<4> op11_8,
1233                        InstrItinClass itinD16, InstrItinClass itinD32,
1234                        InstrItinClass itinQ16, InstrItinClass itinQ32,
1235                        string OpcodeStr, string Dt, Intrinsic IntOp> {
1236   def v4i16 : N3VDIntSL16<0b01, op11_8, itinD16,
1237                           OpcodeStr, !strconcat(Dt, "16"), v4i16, IntOp>;
1238   def v2i32 : N3VDIntSL<0b10, op11_8, itinD32,
1239                         OpcodeStr, !strconcat(Dt, "32"), v2i32, IntOp>;
1240   def v8i16 : N3VQIntSL16<0b01, op11_8, itinQ16,
1241                           OpcodeStr, !strconcat(Dt, "16"), v8i16, v4i16, IntOp>;
1242   def v4i32 : N3VQIntSL<0b10, op11_8, itinQ32,
1243                         OpcodeStr, !strconcat(Dt, "32"), v4i32, v2i32, IntOp>;
1244 }
1245
1246 // ....then also with element size of 8 bits:
1247 multiclass N3VInt_QHS<bit op24, bit op23, bits<4> op11_8, bit op4,
1248                       InstrItinClass itinD16, InstrItinClass itinD32,
1249                       InstrItinClass itinQ16, InstrItinClass itinQ32,
1250                       string OpcodeStr, string Dt,
1251                       Intrinsic IntOp, bit Commutable = 0>
1252   : N3VInt_HS<op24, op23, op11_8, op4, itinD16, itinD32, itinQ16, itinQ32,
1253               OpcodeStr, Dt, IntOp, Commutable> {
1254   def v8i8  : N3VDInt<op24, op23, 0b00, op11_8, op4, itinD16,
1255                       OpcodeStr, !strconcat(Dt, "8"),
1256                       v8i8, v8i8, IntOp, Commutable>;
1257   def v16i8 : N3VQInt<op24, op23, 0b00, op11_8, op4, itinQ16,
1258                       OpcodeStr, !strconcat(Dt, "8"),
1259                       v16i8, v16i8, IntOp, Commutable>;
1260 }
1261
1262 // ....then also with element size of 64 bits:
1263 multiclass N3VInt_QHSD<bit op24, bit op23, bits<4> op11_8, bit op4,
1264                        InstrItinClass itinD16, InstrItinClass itinD32,
1265                        InstrItinClass itinQ16, InstrItinClass itinQ32,
1266                        string OpcodeStr, string Dt,
1267                        Intrinsic IntOp, bit Commutable = 0>
1268   : N3VInt_QHS<op24, op23, op11_8, op4, itinD16, itinD32, itinQ16, itinQ32,
1269                OpcodeStr, Dt, IntOp, Commutable> {
1270   def v1i64 : N3VDInt<op24, op23, 0b11, op11_8, op4, itinD32,
1271                       OpcodeStr, !strconcat(Dt, "64"),
1272                       v1i64, v1i64, IntOp, Commutable>;
1273   def v2i64 : N3VQInt<op24, op23, 0b11, op11_8, op4, itinQ32,
1274                       OpcodeStr, !strconcat(Dt, "64"),
1275                       v2i64, v2i64, IntOp, Commutable>;
1276 }
1277
1278
1279 // Neon Narrowing 3-register vector intrinsics,
1280 //   source operand element sizes of 16, 32 and 64 bits:
1281 multiclass N3VNInt_HSD<bit op24, bit op23, bits<4> op11_8, bit op4,
1282                        string OpcodeStr, string Dt,
1283                        Intrinsic IntOp, bit Commutable = 0> {
1284   def v8i8  : N3VNInt<op24, op23, 0b00, op11_8, op4,
1285                       OpcodeStr, !strconcat(Dt, "16"),
1286                       v8i8, v8i16, IntOp, Commutable>;
1287   def v4i16 : N3VNInt<op24, op23, 0b01, op11_8, op4,
1288                       OpcodeStr, !strconcat(Dt, "32"),
1289                       v4i16, v4i32, IntOp, Commutable>;
1290   def v2i32 : N3VNInt<op24, op23, 0b10, op11_8, op4,
1291                       OpcodeStr, !strconcat(Dt, "64"),
1292                       v2i32, v2i64, IntOp, Commutable>;
1293 }
1294
1295
1296 // Neon Long 3-register vector intrinsics.
1297
1298 // First with only element sizes of 16 and 32 bits:
1299 multiclass N3VLInt_HS<bit op24, bit op23, bits<4> op11_8, bit op4,
1300                       InstrItinClass itin, string OpcodeStr, string Dt,
1301                       Intrinsic IntOp, bit Commutable = 0> {
1302   def v4i32 : N3VLInt<op24, op23, 0b01, op11_8, op4, itin,
1303                       OpcodeStr, !strconcat(Dt, "16"),
1304                       v4i32, v4i16, IntOp, Commutable>;
1305   def v2i64 : N3VLInt<op24, op23, 0b10, op11_8, op4, itin,
1306                       OpcodeStr, !strconcat(Dt, "32"),
1307                       v2i64, v2i32, IntOp, Commutable>;
1308 }
1309
1310 multiclass N3VLIntSL_HS<bit op24, bits<4> op11_8,
1311                         InstrItinClass itin, string OpcodeStr, string Dt,
1312                         Intrinsic IntOp> {
1313   def v4i16 : N3VLIntSL16<op24, 0b01, op11_8, itin,
1314                           OpcodeStr, !strconcat(Dt, "16"), v4i32, v4i16, IntOp>;
1315   def v2i32 : N3VLIntSL<op24, 0b10, op11_8, itin,
1316                         OpcodeStr, !strconcat(Dt, "32"), v2i64, v2i32, IntOp>;
1317 }
1318
1319 // ....then also with element size of 8 bits:
1320 multiclass N3VLInt_QHS<bit op24, bit op23, bits<4> op11_8, bit op4,
1321                        InstrItinClass itin, string OpcodeStr, string Dt,
1322                        Intrinsic IntOp, bit Commutable = 0>
1323   : N3VLInt_HS<op24, op23, op11_8, op4, itin, OpcodeStr, Dt,
1324                IntOp, Commutable> {
1325   def v8i16 : N3VLInt<op24, op23, 0b00, op11_8, op4, itin,
1326                       OpcodeStr, !strconcat(Dt, "8"),
1327                       v8i16, v8i8, IntOp, Commutable>;
1328 }
1329
1330
1331 // Neon Wide 3-register vector intrinsics,
1332 //   source operand element sizes of 8, 16 and 32 bits:
1333 multiclass N3VWInt_QHS<bit op24, bit op23, bits<4> op11_8, bit op4,
1334                        string OpcodeStr, string Dt,
1335                        Intrinsic IntOp, bit Commutable = 0> {
1336   def v8i16 : N3VWInt<op24, op23, 0b00, op11_8, op4,
1337                       OpcodeStr, !strconcat(Dt, "8"),
1338                       v8i16, v8i8, IntOp, Commutable>;
1339   def v4i32 : N3VWInt<op24, op23, 0b01, op11_8, op4,
1340                       OpcodeStr, !strconcat(Dt, "16"),
1341                       v4i32, v4i16, IntOp, Commutable>;
1342   def v2i64 : N3VWInt<op24, op23, 0b10, op11_8, op4,
1343                       OpcodeStr, !strconcat(Dt, "32"),
1344                       v2i64, v2i32, IntOp, Commutable>;
1345 }
1346
1347
1348 // Neon Multiply-Op vector operations,
1349 //   element sizes of 8, 16 and 32 bits:
1350 multiclass N3VMulOp_QHS<bit op24, bit op23, bits<4> op11_8, bit op4,
1351                         InstrItinClass itinD16, InstrItinClass itinD32,
1352                         InstrItinClass itinQ16, InstrItinClass itinQ32,
1353                         string OpcodeStr, string Dt, SDNode OpNode> {
1354   // 64-bit vector types.
1355   def v8i8  : N3VDMulOp<op24, op23, 0b00, op11_8, op4, itinD16,
1356                         OpcodeStr, !strconcat(Dt, "8"), v8i8, mul, OpNode>;
1357   def v4i16 : N3VDMulOp<op24, op23, 0b01, op11_8, op4, itinD16,
1358                         OpcodeStr, !strconcat(Dt, "16"), v4i16, mul, OpNode>;
1359   def v2i32 : N3VDMulOp<op24, op23, 0b10, op11_8, op4, itinD32,
1360                         OpcodeStr, !strconcat(Dt, "32"), v2i32, mul, OpNode>;
1361
1362   // 128-bit vector types.
1363   def v16i8 : N3VQMulOp<op24, op23, 0b00, op11_8, op4, itinQ16,
1364                         OpcodeStr, !strconcat(Dt, "8"), v16i8, mul, OpNode>;
1365   def v8i16 : N3VQMulOp<op24, op23, 0b01, op11_8, op4, itinQ16,
1366                         OpcodeStr, !strconcat(Dt, "16"), v8i16, mul, OpNode>;
1367   def v4i32 : N3VQMulOp<op24, op23, 0b10, op11_8, op4, itinQ32,
1368                         OpcodeStr, !strconcat(Dt, "32"), v4i32, mul, OpNode>;
1369 }
1370
1371 multiclass N3VMulOpSL_HS<bits<4> op11_8,
1372                          InstrItinClass itinD16, InstrItinClass itinD32,
1373                          InstrItinClass itinQ16, InstrItinClass itinQ32,
1374                          string OpcodeStr, string Dt, SDNode ShOp> {
1375   def v4i16 : N3VDMulOpSL16<0b01, op11_8, itinD16,
1376                             OpcodeStr, !strconcat(Dt, "16"), v4i16, mul, ShOp>;
1377   def v2i32 : N3VDMulOpSL<0b10, op11_8, itinD32,
1378                           OpcodeStr, !strconcat(Dt, "32"), v2i32, mul, ShOp>;
1379   def v8i16 : N3VQMulOpSL16<0b01, op11_8, itinQ16,
1380                             OpcodeStr, !strconcat(Dt, "16"), v8i16, v4i16,
1381                             mul, ShOp>;
1382   def v4i32 : N3VQMulOpSL<0b10, op11_8, itinQ32,
1383                           OpcodeStr, !strconcat(Dt, "32"), v4i32, v2i32,
1384                           mul, ShOp>;
1385 }
1386
1387 // Neon 3-argument intrinsics,
1388 //   element sizes of 8, 16 and 32 bits:
1389 multiclass N3VInt3_QHS<bit op24, bit op23, bits<4> op11_8, bit op4,
1390                        string OpcodeStr, string Dt, Intrinsic IntOp> {
1391   // 64-bit vector types.
1392   def v8i8  : N3VDInt3<op24, op23, 0b00, op11_8, op4, IIC_VMACi16D,
1393                        OpcodeStr, !strconcat(Dt, "8"), v8i8, v8i8, IntOp>;
1394   def v4i16 : N3VDInt3<op24, op23, 0b01, op11_8, op4, IIC_VMACi16D,
1395                        OpcodeStr, !strconcat(Dt, "16"), v4i16, v4i16, IntOp>;
1396   def v2i32 : N3VDInt3<op24, op23, 0b10, op11_8, op4, IIC_VMACi32D,
1397                        OpcodeStr, !strconcat(Dt, "32"), v2i32, v2i32, IntOp>;
1398
1399   // 128-bit vector types.
1400   def v16i8 : N3VQInt3<op24, op23, 0b00, op11_8, op4, IIC_VMACi16Q,
1401                        OpcodeStr, !strconcat(Dt, "8"), v16i8, v16i8, IntOp>;
1402   def v8i16 : N3VQInt3<op24, op23, 0b01, op11_8, op4, IIC_VMACi16Q,
1403                        OpcodeStr, !strconcat(Dt, "16"), v8i16, v8i16, IntOp>;
1404   def v4i32 : N3VQInt3<op24, op23, 0b10, op11_8, op4, IIC_VMACi32Q,
1405                        OpcodeStr, !strconcat(Dt, "32"), v4i32, v4i32, IntOp>;
1406 }
1407
1408
1409 // Neon Long 3-argument intrinsics.
1410
1411 // First with only element sizes of 16 and 32 bits:
1412 multiclass N3VLInt3_HS<bit op24, bit op23, bits<4> op11_8, bit op4,
1413                        string OpcodeStr, string Dt, Intrinsic IntOp> {
1414   def v4i32 : N3VLInt3<op24, op23, 0b01, op11_8, op4, IIC_VMACi16D,
1415                        OpcodeStr, !strconcat(Dt, "16"), v4i32, v4i16, IntOp>;
1416   def v2i64 : N3VLInt3<op24, op23, 0b10, op11_8, op4, IIC_VMACi16D,
1417                        OpcodeStr, !strconcat(Dt, "32"), v2i64, v2i32, IntOp>;
1418 }
1419
1420 multiclass N3VLInt3SL_HS<bit op24, bits<4> op11_8,
1421                          string OpcodeStr, string Dt, Intrinsic IntOp> {
1422   def v4i16 : N3VLInt3SL16<op24, 0b01, op11_8, IIC_VMACi16D,
1423                            OpcodeStr, !strconcat(Dt,"16"), v4i32, v4i16, IntOp>;
1424   def v2i32 : N3VLInt3SL<op24, 0b10, op11_8, IIC_VMACi32D,
1425                          OpcodeStr, !strconcat(Dt, "32"), v2i64, v2i32, IntOp>;
1426 }
1427
1428 // ....then also with element size of 8 bits:
1429 multiclass N3VLInt3_QHS<bit op24, bit op23, bits<4> op11_8, bit op4,
1430                         string OpcodeStr, string Dt, Intrinsic IntOp>
1431   : N3VLInt3_HS<op24, op23, op11_8, op4, OpcodeStr, Dt, IntOp> {
1432   def v8i16 : N3VLInt3<op24, op23, 0b00, op11_8, op4, IIC_VMACi16D,
1433                        OpcodeStr, !strconcat(Dt, "8"), v8i16, v8i8, IntOp>;
1434 }
1435
1436
1437 // Neon 2-register vector intrinsics,
1438 //   element sizes of 8, 16 and 32 bits:
1439 multiclass N2VInt_QHS<bits<2> op24_23, bits<2> op21_20, bits<2> op17_16,
1440                       bits<5> op11_7, bit op4,
1441                       InstrItinClass itinD, InstrItinClass itinQ,
1442                       string OpcodeStr, string Dt, Intrinsic IntOp> {
1443   // 64-bit vector types.
1444   def v8i8  : N2VDInt<op24_23, op21_20, 0b00, op17_16, op11_7, op4,
1445                       itinD, OpcodeStr, !strconcat(Dt, "8"), v8i8, v8i8, IntOp>;
1446   def v4i16 : N2VDInt<op24_23, op21_20, 0b01, op17_16, op11_7, op4,
1447                       itinD, OpcodeStr, !strconcat(Dt, "16"),v4i16,v4i16,IntOp>;
1448   def v2i32 : N2VDInt<op24_23, op21_20, 0b10, op17_16, op11_7, op4,
1449                       itinD, OpcodeStr, !strconcat(Dt, "32"),v2i32,v2i32,IntOp>;
1450
1451   // 128-bit vector types.
1452   def v16i8 : N2VQInt<op24_23, op21_20, 0b00, op17_16, op11_7, op4,
1453                       itinQ, OpcodeStr, !strconcat(Dt, "8"), v16i8,v16i8,IntOp>;
1454   def v8i16 : N2VQInt<op24_23, op21_20, 0b01, op17_16, op11_7, op4,
1455                       itinQ, OpcodeStr, !strconcat(Dt, "16"),v8i16,v8i16,IntOp>;
1456   def v4i32 : N2VQInt<op24_23, op21_20, 0b10, op17_16, op11_7, op4,
1457                       itinQ, OpcodeStr, !strconcat(Dt, "32"),v4i32,v4i32,IntOp>;
1458 }
1459
1460
1461 // Neon Pairwise long 2-register intrinsics,
1462 //   element sizes of 8, 16 and 32 bits:
1463 multiclass N2VPLInt_QHS<bits<2> op24_23, bits<2> op21_20, bits<2> op17_16,
1464                         bits<5> op11_7, bit op4,
1465                         string OpcodeStr, string Dt, Intrinsic IntOp> {
1466   // 64-bit vector types.
1467   def v8i8  : N2VDPLInt<op24_23, op21_20, 0b00, op17_16, op11_7, op4,
1468                         OpcodeStr, !strconcat(Dt, "8"), v4i16, v8i8, IntOp>;
1469   def v4i16 : N2VDPLInt<op24_23, op21_20, 0b01, op17_16, op11_7, op4,
1470                         OpcodeStr, !strconcat(Dt, "16"), v2i32, v4i16, IntOp>;
1471   def v2i32 : N2VDPLInt<op24_23, op21_20, 0b10, op17_16, op11_7, op4,
1472                         OpcodeStr, !strconcat(Dt, "32"), v1i64, v2i32, IntOp>;
1473
1474   // 128-bit vector types.
1475   def v16i8 : N2VQPLInt<op24_23, op21_20, 0b00, op17_16, op11_7, op4,
1476                         OpcodeStr, !strconcat(Dt, "8"), v8i16, v16i8, IntOp>;
1477   def v8i16 : N2VQPLInt<op24_23, op21_20, 0b01, op17_16, op11_7, op4,
1478                         OpcodeStr, !strconcat(Dt, "16"), v4i32, v8i16, IntOp>;
1479   def v4i32 : N2VQPLInt<op24_23, op21_20, 0b10, op17_16, op11_7, op4,
1480                         OpcodeStr, !strconcat(Dt, "32"), v2i64, v4i32, IntOp>;
1481 }
1482
1483
1484 // Neon Pairwise long 2-register accumulate intrinsics,
1485 //   element sizes of 8, 16 and 32 bits:
1486 multiclass N2VPLInt2_QHS<bits<2> op24_23, bits<2> op21_20, bits<2> op17_16,
1487                          bits<5> op11_7, bit op4,
1488                          string OpcodeStr, string Dt, Intrinsic IntOp> {
1489   // 64-bit vector types.
1490   def v8i8  : N2VDPLInt2<op24_23, op21_20, 0b00, op17_16, op11_7, op4,
1491                          OpcodeStr, !strconcat(Dt, "8"), v4i16, v8i8, IntOp>;
1492   def v4i16 : N2VDPLInt2<op24_23, op21_20, 0b01, op17_16, op11_7, op4,
1493                          OpcodeStr, !strconcat(Dt, "16"), v2i32, v4i16, IntOp>;
1494   def v2i32 : N2VDPLInt2<op24_23, op21_20, 0b10, op17_16, op11_7, op4,
1495                          OpcodeStr, !strconcat(Dt, "32"), v1i64, v2i32, IntOp>;
1496
1497   // 128-bit vector types.
1498   def v16i8 : N2VQPLInt2<op24_23, op21_20, 0b00, op17_16, op11_7, op4,
1499                          OpcodeStr, !strconcat(Dt, "8"), v8i16, v16i8, IntOp>;
1500   def v8i16 : N2VQPLInt2<op24_23, op21_20, 0b01, op17_16, op11_7, op4,
1501                          OpcodeStr, !strconcat(Dt, "16"), v4i32, v8i16, IntOp>;
1502   def v4i32 : N2VQPLInt2<op24_23, op21_20, 0b10, op17_16, op11_7, op4,
1503                          OpcodeStr, !strconcat(Dt, "32"), v2i64, v4i32, IntOp>;
1504 }
1505
1506
1507 // Neon 2-register vector shift by immediate,
1508 //   element sizes of 8, 16, 32 and 64 bits:
1509 multiclass N2VSh_QHSD<bit op24, bit op23, bits<4> op11_8, bit op4,
1510                       InstrItinClass itin, string OpcodeStr, string Dt,
1511                       SDNode OpNode> {
1512   // 64-bit vector types.
1513   def v8i8  : N2VDSh<op24, op23, op11_8, 0, op4, itin,
1514                      OpcodeStr, !strconcat(Dt, "8"), v8i8, OpNode> {
1515     let Inst{21-19} = 0b001; // imm6 = 001xxx
1516   }
1517   def v4i16 : N2VDSh<op24, op23, op11_8, 0, op4, itin,
1518                      OpcodeStr, !strconcat(Dt, "16"), v4i16, OpNode> {
1519     let Inst{21-20} = 0b01;  // imm6 = 01xxxx
1520   }
1521   def v2i32 : N2VDSh<op24, op23, op11_8, 0, op4, itin,
1522                      OpcodeStr, !strconcat(Dt, "32"), v2i32, OpNode> {
1523     let Inst{21} = 0b1;      // imm6 = 1xxxxx
1524   }
1525   def v1i64 : N2VDSh<op24, op23, op11_8, 1, op4, itin,
1526                      OpcodeStr, !strconcat(Dt, "64"), v1i64, OpNode>;
1527                              // imm6 = xxxxxx
1528
1529   // 128-bit vector types.
1530   def v16i8 : N2VQSh<op24, op23, op11_8, 0, op4, itin,
1531                      OpcodeStr, !strconcat(Dt, "8"), v16i8, OpNode> {
1532     let Inst{21-19} = 0b001; // imm6 = 001xxx
1533   }
1534   def v8i16 : N2VQSh<op24, op23, op11_8, 0, op4, itin,
1535                      OpcodeStr, !strconcat(Dt, "16"), v8i16, OpNode> {
1536     let Inst{21-20} = 0b01;  // imm6 = 01xxxx
1537   }
1538   def v4i32 : N2VQSh<op24, op23, op11_8, 0, op4, itin,
1539                      OpcodeStr, !strconcat(Dt, "32"), v4i32, OpNode> {
1540     let Inst{21} = 0b1;      // imm6 = 1xxxxx
1541   }
1542   def v2i64 : N2VQSh<op24, op23, op11_8, 1, op4, itin,
1543                      OpcodeStr, !strconcat(Dt, "64"), v2i64, OpNode>;
1544                              // imm6 = xxxxxx
1545 }
1546
1547
1548 // Neon Shift-Accumulate vector operations,
1549 //   element sizes of 8, 16, 32 and 64 bits:
1550 multiclass N2VShAdd_QHSD<bit op24, bit op23, bits<4> op11_8, bit op4,
1551                          string OpcodeStr, string Dt, SDNode ShOp> {
1552   // 64-bit vector types.
1553   def v8i8  : N2VDShAdd<op24, op23, op11_8, 0, op4,
1554                         OpcodeStr, !strconcat(Dt, "8"), v8i8, ShOp> {
1555     let Inst{21-19} = 0b001; // imm6 = 001xxx
1556   }
1557   def v4i16 : N2VDShAdd<op24, op23, op11_8, 0, op4,
1558                         OpcodeStr, !strconcat(Dt, "16"), v4i16, ShOp> {
1559     let Inst{21-20} = 0b01;  // imm6 = 01xxxx
1560   }
1561   def v2i32 : N2VDShAdd<op24, op23, op11_8, 0, op4,
1562                         OpcodeStr, !strconcat(Dt, "32"), v2i32, ShOp> {
1563     let Inst{21} = 0b1;      // imm6 = 1xxxxx
1564   }
1565   def v1i64 : N2VDShAdd<op24, op23, op11_8, 1, op4,
1566                         OpcodeStr, !strconcat(Dt, "64"), v1i64, ShOp>;
1567                              // imm6 = xxxxxx
1568
1569   // 128-bit vector types.
1570   def v16i8 : N2VQShAdd<op24, op23, op11_8, 0, op4,
1571                         OpcodeStr, !strconcat(Dt, "8"), v16i8, ShOp> {
1572     let Inst{21-19} = 0b001; // imm6 = 001xxx
1573   }
1574   def v8i16 : N2VQShAdd<op24, op23, op11_8, 0, op4,
1575                         OpcodeStr, !strconcat(Dt, "16"), v8i16, ShOp> {
1576     let Inst{21-20} = 0b01;  // imm6 = 01xxxx
1577   }
1578   def v4i32 : N2VQShAdd<op24, op23, op11_8, 0, op4,
1579                         OpcodeStr, !strconcat(Dt, "32"), v4i32, ShOp> {
1580     let Inst{21} = 0b1;      // imm6 = 1xxxxx
1581   }
1582   def v2i64 : N2VQShAdd<op24, op23, op11_8, 1, op4,
1583                         OpcodeStr, !strconcat(Dt, "64"), v2i64, ShOp>;
1584                              // imm6 = xxxxxx
1585 }
1586
1587
1588 // Neon Shift-Insert vector operations,
1589 //   element sizes of 8, 16, 32 and 64 bits:
1590 multiclass N2VShIns_QHSD<bit op24, bit op23, bits<4> op11_8, bit op4,
1591                          string OpcodeStr, SDNode ShOp> {
1592   // 64-bit vector types.
1593   def v8i8  : N2VDShIns<op24, op23, op11_8, 0, op4,
1594                         OpcodeStr, "8", v8i8, ShOp> {
1595     let Inst{21-19} = 0b001; // imm6 = 001xxx
1596   }
1597   def v4i16 : N2VDShIns<op24, op23, op11_8, 0, op4,
1598                         OpcodeStr, "16", v4i16, ShOp> {
1599     let Inst{21-20} = 0b01;  // imm6 = 01xxxx
1600   }
1601   def v2i32 : N2VDShIns<op24, op23, op11_8, 0, op4,
1602                         OpcodeStr, "32", v2i32, ShOp> {
1603     let Inst{21} = 0b1;      // imm6 = 1xxxxx
1604   }
1605   def v1i64 : N2VDShIns<op24, op23, op11_8, 1, op4,
1606                         OpcodeStr, "64", v1i64, ShOp>;
1607                              // imm6 = xxxxxx
1608
1609   // 128-bit vector types.
1610   def v16i8 : N2VQShIns<op24, op23, op11_8, 0, op4,
1611                         OpcodeStr, "8", v16i8, ShOp> {
1612     let Inst{21-19} = 0b001; // imm6 = 001xxx
1613   }
1614   def v8i16 : N2VQShIns<op24, op23, op11_8, 0, op4,
1615                         OpcodeStr, "16", v8i16, ShOp> {
1616     let Inst{21-20} = 0b01;  // imm6 = 01xxxx
1617   }
1618   def v4i32 : N2VQShIns<op24, op23, op11_8, 0, op4,
1619                         OpcodeStr, "32", v4i32, ShOp> {
1620     let Inst{21} = 0b1;      // imm6 = 1xxxxx
1621   }
1622   def v2i64 : N2VQShIns<op24, op23, op11_8, 1, op4,
1623                         OpcodeStr, "64", v2i64, ShOp>;
1624                              // imm6 = xxxxxx
1625 }
1626
1627 // Neon Shift Long operations,
1628 //   element sizes of 8, 16, 32 bits:
1629 multiclass N2VLSh_QHS<bit op24, bit op23, bits<4> op11_8, bit op7, bit op6,
1630                       bit op4, string OpcodeStr, string Dt, SDNode OpNode> {
1631   def v8i16 : N2VLSh<op24, op23, op11_8, op7, op6, op4,
1632                  OpcodeStr, !strconcat(Dt, "8"), v8i16, v8i8, OpNode> {
1633     let Inst{21-19} = 0b001; // imm6 = 001xxx
1634   }
1635   def v4i32 : N2VLSh<op24, op23, op11_8, op7, op6, op4,
1636                   OpcodeStr, !strconcat(Dt, "16"), v4i32, v4i16, OpNode> {
1637     let Inst{21-20} = 0b01;  // imm6 = 01xxxx
1638   }
1639   def v2i64 : N2VLSh<op24, op23, op11_8, op7, op6, op4,
1640                   OpcodeStr, !strconcat(Dt, "32"), v2i64, v2i32, OpNode> {
1641     let Inst{21} = 0b1;      // imm6 = 1xxxxx
1642   }
1643 }
1644
1645 // Neon Shift Narrow operations,
1646 //   element sizes of 16, 32, 64 bits:
1647 multiclass N2VNSh_HSD<bit op24, bit op23, bits<4> op11_8, bit op7, bit op6,
1648                       bit op4, InstrItinClass itin, string OpcodeStr, string Dt,
1649                       SDNode OpNode> {
1650   def v8i8 : N2VNSh<op24, op23, op11_8, op7, op6, op4, itin,
1651                     OpcodeStr, !strconcat(Dt, "16"), v8i8, v8i16, OpNode> {
1652     let Inst{21-19} = 0b001; // imm6 = 001xxx
1653   }
1654   def v4i16 : N2VNSh<op24, op23, op11_8, op7, op6, op4, itin,
1655                      OpcodeStr, !strconcat(Dt, "32"), v4i16, v4i32, OpNode> {
1656     let Inst{21-20} = 0b01;  // imm6 = 01xxxx
1657   }
1658   def v2i32 : N2VNSh<op24, op23, op11_8, op7, op6, op4, itin,
1659                      OpcodeStr, !strconcat(Dt, "64"), v2i32, v2i64, OpNode> {
1660     let Inst{21} = 0b1;      // imm6 = 1xxxxx
1661   }
1662 }
1663
1664 //===----------------------------------------------------------------------===//
1665 // Instruction Definitions.
1666 //===----------------------------------------------------------------------===//
1667
1668 // Vector Add Operations.
1669
1670 //   VADD     : Vector Add (integer and floating-point)
1671 defm VADD     : N3V_QHSD<0, 0, 0b1000, 0, IIC_VBINiD, IIC_VBINiQ, "vadd", "i",
1672                          add, 1>;
1673 def  VADDfd   : N3VD<0, 0, 0b00, 0b1101, 0, IIC_VBIND, "vadd", "f32",
1674                      v2f32, v2f32, fadd, 1>;
1675 def  VADDfq   : N3VQ<0, 0, 0b00, 0b1101, 0, IIC_VBINQ, "vadd", "f32",
1676                      v4f32, v4f32, fadd, 1>;
1677 //   VADDL    : Vector Add Long (Q = D + D)
1678 defm VADDLs   : N3VLInt_QHS<0,1,0b0000,0, IIC_VSHLiD, "vaddl", "s",
1679                             int_arm_neon_vaddls, 1>;
1680 defm VADDLu   : N3VLInt_QHS<1,1,0b0000,0, IIC_VSHLiD, "vaddl", "u",
1681                             int_arm_neon_vaddlu, 1>;
1682 //   VADDW    : Vector Add Wide (Q = Q + D)
1683 defm VADDWs   : N3VWInt_QHS<0,1,0b0001,0, "vaddw", "s", int_arm_neon_vaddws, 0>;
1684 defm VADDWu   : N3VWInt_QHS<1,1,0b0001,0, "vaddw", "u", int_arm_neon_vaddwu, 0>;
1685 //   VHADD    : Vector Halving Add
1686 defm VHADDs   : N3VInt_QHS<0,0,0b0000,0, IIC_VBINi4D, IIC_VBINi4D, IIC_VBINi4Q,
1687                            IIC_VBINi4Q, "vhadd", "s", int_arm_neon_vhadds, 1>;
1688 defm VHADDu   : N3VInt_QHS<1,0,0b0000,0, IIC_VBINi4D, IIC_VBINi4D, IIC_VBINi4Q,
1689                            IIC_VBINi4Q, "vhadd", "u", int_arm_neon_vhaddu, 1>;
1690 //   VRHADD   : Vector Rounding Halving Add
1691 defm VRHADDs  : N3VInt_QHS<0,0,0b0001,0, IIC_VBINi4D, IIC_VBINi4D, IIC_VBINi4Q,
1692                            IIC_VBINi4Q, "vrhadd", "s", int_arm_neon_vrhadds, 1>;
1693 defm VRHADDu  : N3VInt_QHS<1,0,0b0001,0, IIC_VBINi4D, IIC_VBINi4D, IIC_VBINi4Q,
1694                            IIC_VBINi4Q, "vrhadd", "u", int_arm_neon_vrhaddu, 1>;
1695 //   VQADD    : Vector Saturating Add
1696 defm VQADDs   : N3VInt_QHSD<0,0,0b0000,1, IIC_VBINi4D, IIC_VBINi4D, IIC_VBINi4Q,
1697                             IIC_VBINi4Q, "vqadd", "s", int_arm_neon_vqadds, 1>;
1698 defm VQADDu   : N3VInt_QHSD<1,0,0b0000,1, IIC_VBINi4D, IIC_VBINi4D, IIC_VBINi4Q,
1699                             IIC_VBINi4Q, "vqadd", "u", int_arm_neon_vqaddu, 1>;
1700 //   VADDHN   : Vector Add and Narrow Returning High Half (D = Q + Q)
1701 defm VADDHN   : N3VNInt_HSD<0,1,0b0100,0, "vaddhn", "i",
1702                             int_arm_neon_vaddhn, 1>;
1703 //   VRADDHN  : Vector Rounding Add and Narrow Returning High Half (D = Q + Q)
1704 defm VRADDHN  : N3VNInt_HSD<1,1,0b0100,0, "vraddhn", "i",
1705                             int_arm_neon_vraddhn, 1>;
1706
1707 // Vector Multiply Operations.
1708
1709 //   VMUL     : Vector Multiply (integer, polynomial and floating-point)
1710 defm VMUL     : N3V_QHS<0, 0, 0b1001, 1, IIC_VMULi16D, IIC_VMULi32D,
1711                         IIC_VMULi16Q, IIC_VMULi32Q, "vmul", "i", mul, 1>;
1712 def  VMULpd   : N3VDInt<1, 0, 0b00, 0b1001, 1, IIC_VMULi16D, "vmul", "p8",
1713                         v8i8, v8i8, int_arm_neon_vmulp, 1>;
1714 def  VMULpq   : N3VQInt<1, 0, 0b00, 0b1001, 1, IIC_VMULi16Q, "vmul", "p8",
1715                         v16i8, v16i8, int_arm_neon_vmulp, 1>;
1716 def  VMULfd   : N3VD<1, 0, 0b00, 0b1101, 1, IIC_VBIND, "vmul", "f32",
1717                      v2f32, v2f32, fmul, 1>;
1718 def  VMULfq   : N3VQ<1, 0, 0b00, 0b1101, 1, IIC_VBINQ, "vmul", "f32",
1719                      v4f32, v4f32, fmul, 1>;
1720 defm VMULsl   : N3VSL_HS<0b1000, "vmul", "i", mul>;
1721 def  VMULslfd : N3VDSL<0b10, 0b1001, IIC_VBIND, "vmul", "f32", v2f32, fmul>;
1722 def  VMULslfq : N3VQSL<0b10, 0b1001, IIC_VBINQ, "vmul", "f32", v4f32,
1723                        v2f32, fmul>;
1724
1725 def : Pat<(v8i16 (mul (v8i16 QPR:$src1),
1726                       (v8i16 (NEONvduplane (v8i16 QPR:$src2), imm:$lane)))),
1727           (v8i16 (VMULslv8i16 (v8i16 QPR:$src1),
1728                               (v4i16 (EXTRACT_SUBREG QPR:$src2,
1729                                       (DSubReg_i16_reg imm:$lane))),
1730                               (SubReg_i16_lane imm:$lane)))>;
1731 def : Pat<(v4i32 (mul (v4i32 QPR:$src1),
1732                       (v4i32 (NEONvduplane (v4i32 QPR:$src2), imm:$lane)))),
1733           (v4i32 (VMULslv4i32 (v4i32 QPR:$src1),
1734                               (v2i32 (EXTRACT_SUBREG QPR:$src2,
1735                                       (DSubReg_i32_reg imm:$lane))),
1736                               (SubReg_i32_lane imm:$lane)))>;
1737 def : Pat<(v4f32 (fmul (v4f32 QPR:$src1),
1738                        (v4f32 (NEONvduplane (v4f32 QPR:$src2), imm:$lane)))),
1739           (v4f32 (VMULslfq (v4f32 QPR:$src1),
1740                            (v2f32 (EXTRACT_SUBREG QPR:$src2,
1741                                    (DSubReg_i32_reg imm:$lane))),
1742                            (SubReg_i32_lane imm:$lane)))>;
1743
1744 //   VQDMULH  : Vector Saturating Doubling Multiply Returning High Half
1745 defm VQDMULH  : N3VInt_HS<0, 0, 0b1011, 0, IIC_VMULi16D, IIC_VMULi32D,
1746                           IIC_VMULi16Q, IIC_VMULi32Q,
1747                           "vqdmulh", "s", int_arm_neon_vqdmulh, 1>;
1748 defm VQDMULHsl: N3VIntSL_HS<0b1100, IIC_VMULi16D, IIC_VMULi32D,
1749                             IIC_VMULi16Q, IIC_VMULi32Q,
1750                             "vqdmulh", "s",  int_arm_neon_vqdmulh>;
1751 def : Pat<(v8i16 (int_arm_neon_vqdmulh (v8i16 QPR:$src1),
1752                                        (v8i16 (NEONvduplane (v8i16 QPR:$src2),
1753                                                             imm:$lane)))),
1754           (v8i16 (VQDMULHslv8i16 (v8i16 QPR:$src1),
1755                                  (v4i16 (EXTRACT_SUBREG QPR:$src2,
1756                                          (DSubReg_i16_reg imm:$lane))),
1757                                  (SubReg_i16_lane imm:$lane)))>;
1758 def : Pat<(v4i32 (int_arm_neon_vqdmulh (v4i32 QPR:$src1),
1759                                        (v4i32 (NEONvduplane (v4i32 QPR:$src2),
1760                                                             imm:$lane)))),
1761           (v4i32 (VQDMULHslv4i32 (v4i32 QPR:$src1),
1762                                  (v2i32 (EXTRACT_SUBREG QPR:$src2,
1763                                          (DSubReg_i32_reg imm:$lane))),
1764                                  (SubReg_i32_lane imm:$lane)))>;
1765
1766 //   VQRDMULH : Vector Rounding Saturating Doubling Multiply Returning High Half
1767 defm VQRDMULH   : N3VInt_HS<1, 0, 0b1011, 0, IIC_VMULi16D, IIC_VMULi32D,
1768                             IIC_VMULi16Q, IIC_VMULi32Q,
1769                             "vqrdmulh", "s", int_arm_neon_vqrdmulh, 1>;
1770 defm VQRDMULHsl : N3VIntSL_HS<0b1101, IIC_VMULi16D, IIC_VMULi32D,
1771                               IIC_VMULi16Q, IIC_VMULi32Q,
1772                               "vqrdmulh", "s",  int_arm_neon_vqrdmulh>;
1773 def : Pat<(v8i16 (int_arm_neon_vqrdmulh (v8i16 QPR:$src1),
1774                                         (v8i16 (NEONvduplane (v8i16 QPR:$src2),
1775                                                              imm:$lane)))),
1776           (v8i16 (VQRDMULHslv8i16 (v8i16 QPR:$src1),
1777                                   (v4i16 (EXTRACT_SUBREG QPR:$src2,
1778                                           (DSubReg_i16_reg imm:$lane))),
1779                                   (SubReg_i16_lane imm:$lane)))>;
1780 def : Pat<(v4i32 (int_arm_neon_vqrdmulh (v4i32 QPR:$src1),
1781                                         (v4i32 (NEONvduplane (v4i32 QPR:$src2),
1782                                                              imm:$lane)))),
1783           (v4i32 (VQRDMULHslv4i32 (v4i32 QPR:$src1),
1784                                   (v2i32 (EXTRACT_SUBREG QPR:$src2,
1785                                           (DSubReg_i32_reg imm:$lane))),
1786                                   (SubReg_i32_lane imm:$lane)))>;
1787
1788 //   VMULL    : Vector Multiply Long (integer and polynomial) (Q = D * D)
1789 defm VMULLs   : N3VLInt_QHS<0,1,0b1100,0, IIC_VMULi16D, "vmull", "s",
1790                             int_arm_neon_vmulls, 1>;
1791 defm VMULLu   : N3VLInt_QHS<1,1,0b1100,0, IIC_VMULi16D, "vmull", "u",
1792                             int_arm_neon_vmullu, 1>;
1793 def  VMULLp   : N3VLInt<0, 1, 0b00, 0b1110, 0, IIC_VMULi16D, "vmull", "p8",
1794                         v8i16, v8i8, int_arm_neon_vmullp, 1>;
1795 defm VMULLsls : N3VLIntSL_HS<0, 0b1010, IIC_VMULi16D, "vmull", "s",
1796                              int_arm_neon_vmulls>;
1797 defm VMULLslu : N3VLIntSL_HS<1, 0b1010, IIC_VMULi16D, "vmull", "u",
1798                              int_arm_neon_vmullu>;
1799
1800 //   VQDMULL  : Vector Saturating Doubling Multiply Long (Q = D * D)
1801 defm VQDMULL  : N3VLInt_HS<0,1,0b1101,0, IIC_VMULi16D, "vqdmull", "s",
1802                            int_arm_neon_vqdmull, 1>;
1803 defm VQDMULLsl: N3VLIntSL_HS<0, 0b1011, IIC_VMULi16D, "vqdmull", "s",
1804                              int_arm_neon_vqdmull>;
1805
1806 // Vector Multiply-Accumulate and Multiply-Subtract Operations.
1807
1808 //   VMLA     : Vector Multiply Accumulate (integer and floating-point)
1809 defm VMLA     : N3VMulOp_QHS<0, 0, 0b1001, 0, IIC_VMACi16D, IIC_VMACi32D,
1810                              IIC_VMACi16Q, IIC_VMACi32Q, "vmla", "i", add>;
1811 def  VMLAfd   : N3VDMulOp<0, 0, 0b00, 0b1101, 1, IIC_VMACD, "vmla", "f32",
1812                           v2f32, fmul, fadd>;
1813 def  VMLAfq   : N3VQMulOp<0, 0, 0b00, 0b1101, 1, IIC_VMACQ, "vmla", "f32",
1814                           v4f32, fmul, fadd>;
1815 defm VMLAsl   : N3VMulOpSL_HS<0b0000, IIC_VMACi16D, IIC_VMACi32D,
1816                               IIC_VMACi16Q, IIC_VMACi32Q, "vmla", "i", add>;
1817 def  VMLAslfd : N3VDMulOpSL<0b10, 0b0001, IIC_VMACD, "vmla", "f32",
1818                             v2f32, fmul, fadd>;
1819 def  VMLAslfq : N3VQMulOpSL<0b10, 0b0001, IIC_VMACQ, "vmla", "f32",
1820                             v4f32, v2f32, fmul, fadd>;
1821
1822 def : Pat<(v8i16 (add (v8i16 QPR:$src1),
1823                   (mul (v8i16 QPR:$src2),
1824                        (v8i16 (NEONvduplane (v8i16 QPR:$src3), imm:$lane))))),
1825           (v8i16 (VMLAslv8i16 (v8i16 QPR:$src1), (v8i16 QPR:$src2),
1826                               (v4i16 (EXTRACT_SUBREG QPR:$src3,
1827                                       (DSubReg_i16_reg imm:$lane))),
1828                               (SubReg_i16_lane imm:$lane)))>;
1829
1830 def : Pat<(v4i32 (add (v4i32 QPR:$src1),
1831                   (mul (v4i32 QPR:$src2),
1832                        (v4i32 (NEONvduplane (v4i32 QPR:$src3), imm:$lane))))),
1833           (v4i32 (VMLAslv4i32 (v4i32 QPR:$src1), (v4i32 QPR:$src2),
1834                               (v2i32 (EXTRACT_SUBREG QPR:$src3,
1835                                       (DSubReg_i32_reg imm:$lane))),
1836                               (SubReg_i32_lane imm:$lane)))>;
1837
1838 def : Pat<(v4f32 (fadd (v4f32 QPR:$src1),
1839                   (fmul (v4f32 QPR:$src2),
1840                         (v4f32 (NEONvduplane (v4f32 QPR:$src3), imm:$lane))))),
1841           (v4f32 (VMLAslfq (v4f32 QPR:$src1),
1842                            (v4f32 QPR:$src2),
1843                            (v2f32 (EXTRACT_SUBREG QPR:$src3,
1844                                    (DSubReg_i32_reg imm:$lane))),
1845                            (SubReg_i32_lane imm:$lane)))>;
1846
1847 //   VMLAL    : Vector Multiply Accumulate Long (Q += D * D)
1848 defm VMLALs   : N3VLInt3_QHS<0,1,0b1000,0, "vmlal", "s", int_arm_neon_vmlals>;
1849 defm VMLALu   : N3VLInt3_QHS<1,1,0b1000,0, "vmlal", "u", int_arm_neon_vmlalu>;
1850
1851 defm VMLALsls : N3VLInt3SL_HS<0, 0b0010, "vmlal", "s", int_arm_neon_vmlals>;
1852 defm VMLALslu : N3VLInt3SL_HS<1, 0b0010, "vmlal", "u", int_arm_neon_vmlalu>;
1853
1854 //   VQDMLAL  : Vector Saturating Doubling Multiply Accumulate Long (Q += D * D)
1855 defm VQDMLAL  : N3VLInt3_HS<0, 1, 0b1001, 0, "vqdmlal", "s",
1856                             int_arm_neon_vqdmlal>;
1857 defm VQDMLALsl: N3VLInt3SL_HS<0, 0b0011, "vqdmlal", "s", int_arm_neon_vqdmlal>;
1858
1859 //   VMLS     : Vector Multiply Subtract (integer and floating-point)
1860 defm VMLS     : N3VMulOp_QHS<1, 0, 0b1001, 0, IIC_VMACi16D, IIC_VMACi32D,
1861                              IIC_VMACi16Q, IIC_VMACi32Q, "vmls", "i", sub>;
1862 def  VMLSfd   : N3VDMulOp<0, 0, 0b10, 0b1101, 1, IIC_VMACD, "vmls", "f32",
1863                           v2f32, fmul, fsub>;
1864 def  VMLSfq   : N3VQMulOp<0, 0, 0b10, 0b1101, 1, IIC_VMACQ, "vmls", "f32",
1865                           v4f32, fmul, fsub>;
1866 defm VMLSsl   : N3VMulOpSL_HS<0b0100, IIC_VMACi16D, IIC_VMACi32D,
1867                               IIC_VMACi16Q, IIC_VMACi32Q, "vmls", "i", sub>;
1868 def  VMLSslfd : N3VDMulOpSL<0b10, 0b0101, IIC_VMACD, "vmls", "f32",
1869                             v2f32, fmul, fsub>;
1870 def  VMLSslfq : N3VQMulOpSL<0b10, 0b0101, IIC_VMACQ, "vmls", "f32",
1871                             v4f32, v2f32, fmul, fsub>;
1872
1873 def : Pat<(v8i16 (sub (v8i16 QPR:$src1),
1874                   (mul (v8i16 QPR:$src2),
1875                        (v8i16 (NEONvduplane (v8i16 QPR:$src3), imm:$lane))))),
1876           (v8i16 (VMLSslv8i16 (v8i16 QPR:$src1), (v8i16 QPR:$src2),
1877                               (v4i16 (EXTRACT_SUBREG QPR:$src3,
1878                                       (DSubReg_i16_reg imm:$lane))),
1879                               (SubReg_i16_lane imm:$lane)))>;
1880
1881 def : Pat<(v4i32 (sub (v4i32 QPR:$src1),
1882                   (mul (v4i32 QPR:$src2),
1883                      (v4i32 (NEONvduplane (v4i32 QPR:$src3), imm:$lane))))),
1884           (v4i32 (VMLSslv4i32 (v4i32 QPR:$src1), (v4i32 QPR:$src2),
1885                               (v2i32 (EXTRACT_SUBREG QPR:$src3,
1886                                       (DSubReg_i32_reg imm:$lane))),
1887                               (SubReg_i32_lane imm:$lane)))>;
1888
1889 def : Pat<(v4f32 (fsub (v4f32 QPR:$src1),
1890                   (fmul (v4f32 QPR:$src2),
1891                         (v4f32 (NEONvduplane (v4f32 QPR:$src3), imm:$lane))))),
1892           (v4f32 (VMLSslfq (v4f32 QPR:$src1), (v4f32 QPR:$src2),
1893                            (v2f32 (EXTRACT_SUBREG QPR:$src3,
1894                                    (DSubReg_i32_reg imm:$lane))),
1895                            (SubReg_i32_lane imm:$lane)))>;
1896
1897 //   VMLSL    : Vector Multiply Subtract Long (Q -= D * D)
1898 defm VMLSLs   : N3VLInt3_QHS<0,1,0b1010,0, "vmlsl", "s", int_arm_neon_vmlsls>;
1899 defm VMLSLu   : N3VLInt3_QHS<1,1,0b1010,0, "vmlsl", "u", int_arm_neon_vmlslu>;
1900
1901 defm VMLSLsls : N3VLInt3SL_HS<0, 0b0110, "vmlsl", "s", int_arm_neon_vmlsls>;
1902 defm VMLSLslu : N3VLInt3SL_HS<1, 0b0110, "vmlsl", "u", int_arm_neon_vmlslu>;
1903
1904 //   VQDMLSL  : Vector Saturating Doubling Multiply Subtract Long (Q -= D * D)
1905 defm VQDMLSL  : N3VLInt3_HS<0, 1, 0b1011, 0, "vqdmlsl", "s",
1906                             int_arm_neon_vqdmlsl>;
1907 defm VQDMLSLsl: N3VLInt3SL_HS<0, 0b111, "vqdmlsl", "s", int_arm_neon_vqdmlsl>;
1908
1909 // Vector Subtract Operations.
1910
1911 //   VSUB     : Vector Subtract (integer and floating-point)
1912 defm VSUB     : N3V_QHSD<1, 0, 0b1000, 0, IIC_VSUBiD, IIC_VSUBiQ,
1913                          "vsub", "i", sub, 0>;
1914 def  VSUBfd   : N3VD<0, 0, 0b10, 0b1101, 0, IIC_VBIND, "vsub", "f32",
1915                      v2f32, v2f32, fsub, 0>;
1916 def  VSUBfq   : N3VQ<0, 0, 0b10, 0b1101, 0, IIC_VBINQ, "vsub", "f32",
1917                      v4f32, v4f32, fsub, 0>;
1918 //   VSUBL    : Vector Subtract Long (Q = D - D)
1919 defm VSUBLs   : N3VLInt_QHS<0,1,0b0010,0, IIC_VSHLiD, "vsubl", "s",
1920                             int_arm_neon_vsubls, 1>;
1921 defm VSUBLu   : N3VLInt_QHS<1,1,0b0010,0, IIC_VSHLiD, "vsubl", "u",
1922                             int_arm_neon_vsublu, 1>;
1923 //   VSUBW    : Vector Subtract Wide (Q = Q - D)
1924 defm VSUBWs   : N3VWInt_QHS<0,1,0b0011,0, "vsubw", "s", int_arm_neon_vsubws, 0>;
1925 defm VSUBWu   : N3VWInt_QHS<1,1,0b0011,0, "vsubw", "u", int_arm_neon_vsubwu, 0>;
1926 //   VHSUB    : Vector Halving Subtract
1927 defm VHSUBs   : N3VInt_QHS<0, 0, 0b0010, 0, IIC_VBINi4D, IIC_VBINi4D,
1928                            IIC_VBINi4Q, IIC_VBINi4Q,
1929                            "vhsub", "s", int_arm_neon_vhsubs, 0>;
1930 defm VHSUBu   : N3VInt_QHS<1, 0, 0b0010, 0, IIC_VBINi4D, IIC_VBINi4D,
1931                            IIC_VBINi4Q, IIC_VBINi4Q,
1932                            "vhsub", "u", int_arm_neon_vhsubu, 0>;
1933 //   VQSUB    : Vector Saturing Subtract
1934 defm VQSUBs   : N3VInt_QHSD<0, 0, 0b0010, 1, IIC_VBINi4D, IIC_VBINi4D,
1935                             IIC_VBINi4Q, IIC_VBINi4Q,
1936                             "vqsub", "s", int_arm_neon_vqsubs, 0>;
1937 defm VQSUBu   : N3VInt_QHSD<1, 0, 0b0010, 1, IIC_VBINi4D, IIC_VBINi4D,
1938                             IIC_VBINi4Q, IIC_VBINi4Q,
1939                             "vqsub", "u", int_arm_neon_vqsubu, 0>;
1940 //   VSUBHN   : Vector Subtract and Narrow Returning High Half (D = Q - Q)
1941 defm VSUBHN   : N3VNInt_HSD<0,1,0b0110,0, "vsubhn", "i",
1942                             int_arm_neon_vsubhn, 0>;
1943 //   VRSUBHN  : Vector Rounding Subtract and Narrow Returning High Half (D=Q-Q)
1944 defm VRSUBHN  : N3VNInt_HSD<1,1,0b0110,0, "vrsubhn", "i",
1945                             int_arm_neon_vrsubhn, 0>;
1946
1947 // Vector Comparisons.
1948
1949 //   VCEQ     : Vector Compare Equal
1950 defm VCEQ     : N3V_QHS<1, 0, 0b1000, 1, IIC_VBINi4D, IIC_VBINi4D, IIC_VBINi4Q,
1951                         IIC_VBINi4Q, "vceq", "i", NEONvceq, 1>;
1952 def  VCEQfd   : N3VD<0,0,0b00,0b1110,0, IIC_VBIND, "vceq", "f32", v2i32, v2f32,
1953                      NEONvceq, 1>;
1954 def  VCEQfq   : N3VQ<0,0,0b00,0b1110,0, IIC_VBINQ, "vceq", "f32", v4i32, v4f32,
1955                      NEONvceq, 1>;
1956 //   VCGE     : Vector Compare Greater Than or Equal
1957 defm VCGEs    : N3V_QHS<0, 0, 0b0011, 1, IIC_VBINi4D, IIC_VBINi4D, IIC_VBINi4Q,
1958                         IIC_VBINi4Q, "vcge", "s", NEONvcge, 0>;
1959 defm VCGEu    : N3V_QHS<1, 0, 0b0011, 1, IIC_VBINi4D, IIC_VBINi4D, IIC_VBINi4Q,
1960                         IIC_VBINi4Q, "vcge", "u", NEONvcgeu, 0>;
1961 def  VCGEfd   : N3VD<1,0,0b00,0b1110,0, IIC_VBIND, "vcge", "f32",
1962                      v2i32, v2f32, NEONvcge, 0>;
1963 def  VCGEfq   : N3VQ<1,0,0b00,0b1110,0, IIC_VBINQ, "vcge", "f32", v4i32, v4f32,
1964                      NEONvcge, 0>;
1965 //   VCGT     : Vector Compare Greater Than
1966 defm VCGTs    : N3V_QHS<0, 0, 0b0011, 0, IIC_VBINi4D, IIC_VBINi4D, IIC_VBINi4Q,
1967                         IIC_VBINi4Q, "vcgt", "s", NEONvcgt, 0>;
1968 defm VCGTu    : N3V_QHS<1, 0, 0b0011, 0, IIC_VBINi4D, IIC_VBINi4D, IIC_VBINi4Q,
1969                         IIC_VBINi4Q, "vcgt", "u", NEONvcgtu, 0>;
1970 def  VCGTfd   : N3VD<1,0,0b10,0b1110,0, IIC_VBIND, "vcgt", "f32", v2i32, v2f32,
1971                      NEONvcgt, 0>;
1972 def  VCGTfq   : N3VQ<1,0,0b10,0b1110,0, IIC_VBINQ, "vcgt", "f32", v4i32, v4f32,
1973                      NEONvcgt, 0>;
1974 //   VACGE    : Vector Absolute Compare Greater Than or Equal (aka VCAGE)
1975 def  VACGEd   : N3VDInt<1, 0, 0b00, 0b1110, 1, IIC_VBIND, "vacge", "f32",
1976                         v2i32, v2f32, int_arm_neon_vacged, 0>;
1977 def  VACGEq   : N3VQInt<1, 0, 0b00, 0b1110, 1, IIC_VBINQ, "vacge", "f32",
1978                         v4i32, v4f32, int_arm_neon_vacgeq, 0>;
1979 //   VACGT    : Vector Absolute Compare Greater Than (aka VCAGT)
1980 def  VACGTd   : N3VDInt<1, 0, 0b10, 0b1110, 1, IIC_VBIND, "vacgt", "f32",
1981                         v2i32, v2f32, int_arm_neon_vacgtd, 0>;
1982 def  VACGTq   : N3VQInt<1, 0, 0b10, 0b1110, 1, IIC_VBINQ, "vacgt", "f32",
1983                         v4i32, v4f32, int_arm_neon_vacgtq, 0>;
1984 //   VTST     : Vector Test Bits
1985 defm VTST     : N3V_QHS<0, 0, 0b1000, 1, IIC_VBINi4D, IIC_VBINi4D, IIC_VBINi4Q,
1986                         IIC_VBINi4Q, "vtst", "", NEONvtst, 1>;
1987
1988 // Vector Bitwise Operations.
1989
1990 //   VAND     : Vector Bitwise AND
1991 def  VANDd    : N3VDX<0, 0, 0b00, 0b0001, 1, IIC_VBINiD, "vand",
1992                       v2i32, v2i32, and, 1>;
1993 def  VANDq    : N3VQX<0, 0, 0b00, 0b0001, 1, IIC_VBINiQ, "vand",
1994                       v4i32, v4i32, and, 1>;
1995
1996 //   VEOR     : Vector Bitwise Exclusive OR
1997 def  VEORd    : N3VDX<1, 0, 0b00, 0b0001, 1, IIC_VBINiD, "veor",
1998                       v2i32, v2i32, xor, 1>;
1999 def  VEORq    : N3VQX<1, 0, 0b00, 0b0001, 1, IIC_VBINiQ, "veor",
2000                       v4i32, v4i32, xor, 1>;
2001
2002 //   VORR     : Vector Bitwise OR
2003 def  VORRd    : N3VDX<0, 0, 0b10, 0b0001, 1, IIC_VBINiD, "vorr",
2004                       v2i32, v2i32, or, 1>;
2005 def  VORRq    : N3VQX<0, 0, 0b10, 0b0001, 1, IIC_VBINiQ, "vorr",
2006                       v4i32, v4i32, or, 1>;
2007
2008 //   VBIC     : Vector Bitwise Bit Clear (AND NOT)
2009 def  VBICd    : N3VX<0, 0, 0b01, 0b0001, 0, 1, (outs DPR:$dst),
2010                     (ins DPR:$src1, DPR:$src2), IIC_VBINiD,
2011                     "vbic", "$dst, $src1, $src2", "",
2012                     [(set DPR:$dst, (v2i32 (and DPR:$src1,
2013                                                 (vnot_conv DPR:$src2))))]>;
2014 def  VBICq    : N3VX<0, 0, 0b01, 0b0001, 1, 1, (outs QPR:$dst),
2015                     (ins QPR:$src1, QPR:$src2), IIC_VBINiQ,
2016                     "vbic", "$dst, $src1, $src2", "",
2017                     [(set QPR:$dst, (v4i32 (and QPR:$src1,
2018                                                 (vnot_conv QPR:$src2))))]>;
2019
2020 //   VORN     : Vector Bitwise OR NOT
2021 def  VORNd    : N3VX<0, 0, 0b11, 0b0001, 0, 1, (outs DPR:$dst),
2022                     (ins DPR:$src1, DPR:$src2), IIC_VBINiD,
2023                     "vorn", "$dst, $src1, $src2", "",
2024                     [(set DPR:$dst, (v2i32 (or DPR:$src1,
2025                                                (vnot_conv DPR:$src2))))]>;
2026 def  VORNq    : N3VX<0, 0, 0b11, 0b0001, 1, 1, (outs QPR:$dst),
2027                     (ins QPR:$src1, QPR:$src2), IIC_VBINiQ,
2028                     "vorn", "$dst, $src1, $src2", "",
2029                     [(set QPR:$dst, (v4i32 (or QPR:$src1,
2030                                                (vnot_conv QPR:$src2))))]>;
2031
2032 //   VMVN     : Vector Bitwise NOT
2033 def  VMVNd    : N2VX<0b11, 0b11, 0b00, 0b00, 0b01011, 0, 0,
2034                     (outs DPR:$dst), (ins DPR:$src), IIC_VSHLiD,
2035                     "vmvn", "$dst, $src", "",
2036                     [(set DPR:$dst, (v2i32 (vnot DPR:$src)))]>;
2037 def  VMVNq    : N2VX<0b11, 0b11, 0b00, 0b00, 0b01011, 1, 0,
2038                     (outs QPR:$dst), (ins QPR:$src), IIC_VSHLiD,
2039                     "vmvn", "$dst, $src", "",
2040                     [(set QPR:$dst, (v4i32 (vnot QPR:$src)))]>;
2041 def : Pat<(v2i32 (vnot_conv DPR:$src)), (VMVNd DPR:$src)>;
2042 def : Pat<(v4i32 (vnot_conv QPR:$src)), (VMVNq QPR:$src)>;
2043
2044 //   VBSL     : Vector Bitwise Select
2045 def  VBSLd    : N3VX<1, 0, 0b01, 0b0001, 0, 1, (outs DPR:$dst),
2046                     (ins DPR:$src1, DPR:$src2, DPR:$src3), IIC_VCNTiD,
2047                     "vbsl", "$dst, $src2, $src3", "$src1 = $dst",
2048                     [(set DPR:$dst,
2049                       (v2i32 (or (and DPR:$src2, DPR:$src1),
2050                                  (and DPR:$src3, (vnot_conv DPR:$src1)))))]>;
2051 def  VBSLq    : N3VX<1, 0, 0b01, 0b0001, 1, 1, (outs QPR:$dst),
2052                     (ins QPR:$src1, QPR:$src2, QPR:$src3), IIC_VCNTiQ,
2053                     "vbsl", "$dst, $src2, $src3", "$src1 = $dst",
2054                     [(set QPR:$dst,
2055                       (v4i32 (or (and QPR:$src2, QPR:$src1),
2056                                  (and QPR:$src3, (vnot_conv QPR:$src1)))))]>;
2057
2058 //   VBIF     : Vector Bitwise Insert if False
2059 //              like VBSL but with: "vbif $dst, $src3, $src1", "$src2 = $dst",
2060 def  VBIFd    : N3VX<1, 0, 0b11, 0b0001, 0, 1,
2061                      (outs DPR:$dst), (ins DPR:$src1, DPR:$src2, DPR:$src3),
2062                      IIC_VBINiD, "vbif", "$dst, $src2, $src3", "$src1 = $dst",
2063                      [/* For disassembly only; pattern left blank */]>;
2064 def  VBIFq    : N3VX<1, 0, 0b11, 0b0001, 1, 1,
2065                      (outs QPR:$dst), (ins QPR:$src1, QPR:$src2, QPR:$src3),
2066                      IIC_VBINiQ, "vbif", "$dst, $src2, $src3", "$src1 = $dst",
2067                      [/* For disassembly only; pattern left blank */]>;
2068
2069 //   VBIT     : Vector Bitwise Insert if True
2070 //              like VBSL but with: "vbit $dst, $src2, $src1", "$src3 = $dst",
2071 def  VBITd    : N3VX<1, 0, 0b10, 0b0001, 0, 1,
2072                      (outs DPR:$dst), (ins DPR:$src1, DPR:$src2, DPR:$src3),
2073                      IIC_VBINiD, "vbit", "$dst, $src2, $src3", "$src1 = $dst",
2074                      [/* For disassembly only; pattern left blank */]>;
2075 def  VBITq    : N3VX<1, 0, 0b10, 0b0001, 1, 1,
2076                      (outs QPR:$dst), (ins QPR:$src1, QPR:$src2, QPR:$src3),
2077                      IIC_VBINiQ, "vbit", "$dst, $src2, $src3", "$src1 = $dst",
2078                      [/* For disassembly only; pattern left blank */]>;
2079
2080 // VBIT/VBIF are not yet implemented.  The TwoAddress pass will not go looking
2081 // for equivalent operations with different register constraints; it just
2082 // inserts copies.
2083
2084 // Vector Absolute Differences.
2085
2086 //   VABD     : Vector Absolute Difference
2087 defm VABDs    : N3VInt_QHS<0, 0, 0b0111, 0, IIC_VBINi4D, IIC_VBINi4D,
2088                            IIC_VBINi4Q, IIC_VBINi4Q,
2089                            "vabd", "s", int_arm_neon_vabds, 0>;
2090 defm VABDu    : N3VInt_QHS<1, 0, 0b0111, 0, IIC_VBINi4D, IIC_VBINi4D,
2091                            IIC_VBINi4Q, IIC_VBINi4Q,
2092                            "vabd", "u", int_arm_neon_vabdu, 0>;
2093 def  VABDfd   : N3VDInt<1, 0, 0b10, 0b1101, 0, IIC_VBIND,
2094                         "vabd", "f32", v2f32, v2f32, int_arm_neon_vabds, 0>;
2095 def  VABDfq   : N3VQInt<1, 0, 0b10, 0b1101, 0, IIC_VBINQ,
2096                         "vabd", "f32", v4f32, v4f32, int_arm_neon_vabds, 0>;
2097
2098 //   VABDL    : Vector Absolute Difference Long (Q = | D - D |)
2099 defm VABDLs   : N3VLInt_QHS<0,1,0b0111,0, IIC_VBINi4Q,
2100                             "vabdl", "s", int_arm_neon_vabdls, 0>;
2101 defm VABDLu   : N3VLInt_QHS<1,1,0b0111,0, IIC_VBINi4Q,
2102                              "vabdl", "u", int_arm_neon_vabdlu, 0>;
2103
2104 //   VABA     : Vector Absolute Difference and Accumulate
2105 defm VABAs    : N3VInt3_QHS<0,0,0b0111,1, "vaba", "s", int_arm_neon_vabas>;
2106 defm VABAu    : N3VInt3_QHS<1,0,0b0111,1, "vaba", "u", int_arm_neon_vabau>;
2107
2108 //   VABAL    : Vector Absolute Difference and Accumulate Long (Q += | D - D |)
2109 defm VABALs   : N3VLInt3_QHS<0,1,0b0101,0, "vabal", "s", int_arm_neon_vabals>;
2110 defm VABALu   : N3VLInt3_QHS<1,1,0b0101,0, "vabal", "u", int_arm_neon_vabalu>;
2111
2112 // Vector Maximum and Minimum.
2113
2114 //   VMAX     : Vector Maximum
2115 defm VMAXs    : N3VInt_QHS<0,0,0b0110,0, IIC_VBINi4D, IIC_VBINi4D, IIC_VBINi4Q,
2116                            IIC_VBINi4Q, "vmax", "s", int_arm_neon_vmaxs, 1>;
2117 defm VMAXu    : N3VInt_QHS<1,0,0b0110,0, IIC_VBINi4D, IIC_VBINi4D, IIC_VBINi4Q,
2118                            IIC_VBINi4Q, "vmax", "u", int_arm_neon_vmaxu, 1>;
2119 def  VMAXfd   : N3VDInt<0, 0, 0b00, 0b1111, 0, IIC_VBIND, "vmax", "f32",
2120                         v2f32, v2f32, int_arm_neon_vmaxs, 1>;
2121 def  VMAXfq   : N3VQInt<0, 0, 0b00, 0b1111, 0, IIC_VBINQ, "vmax", "f32",
2122                         v4f32, v4f32, int_arm_neon_vmaxs, 1>;
2123
2124 //   VMIN     : Vector Minimum
2125 defm VMINs    : N3VInt_QHS<0,0,0b0110,1, IIC_VBINi4D, IIC_VBINi4D, IIC_VBINi4Q,
2126                            IIC_VBINi4Q, "vmin", "s", int_arm_neon_vmins, 1>;
2127 defm VMINu    : N3VInt_QHS<1,0,0b0110,1, IIC_VBINi4D, IIC_VBINi4D, IIC_VBINi4Q,
2128                            IIC_VBINi4Q, "vmin", "u", int_arm_neon_vminu, 1>;
2129 def  VMINfd   : N3VDInt<0, 0, 0b10, 0b1111, 0, IIC_VBIND, "vmin", "f32",
2130                         v2f32, v2f32, int_arm_neon_vmins, 1>;
2131 def  VMINfq   : N3VQInt<0, 0, 0b10, 0b1111, 0, IIC_VBINQ, "vmin", "f32",
2132                         v4f32, v4f32, int_arm_neon_vmins, 1>;
2133
2134 // Vector Pairwise Operations.
2135
2136 //   VPADD    : Vector Pairwise Add
2137 def  VPADDi8  : N3VDInt<0, 0, 0b00, 0b1011, 1, IIC_VBINiD, "vpadd", "i8",
2138                         v8i8, v8i8, int_arm_neon_vpadd, 0>;
2139 def  VPADDi16 : N3VDInt<0, 0, 0b01, 0b1011, 1, IIC_VBINiD, "vpadd", "i16",
2140                         v4i16, v4i16, int_arm_neon_vpadd, 0>;
2141 def  VPADDi32 : N3VDInt<0, 0, 0b10, 0b1011, 1, IIC_VBINiD, "vpadd", "i32",
2142                         v2i32, v2i32, int_arm_neon_vpadd, 0>;
2143 def  VPADDf   : N3VDInt<1, 0, 0b00, 0b1101, 0, IIC_VBIND, "vpadd", "f32",
2144                         v2f32, v2f32, int_arm_neon_vpadd, 0>;
2145
2146 //   VPADDL   : Vector Pairwise Add Long
2147 defm VPADDLs  : N2VPLInt_QHS<0b11, 0b11, 0b00, 0b00100, 0, "vpaddl", "s",
2148                              int_arm_neon_vpaddls>;
2149 defm VPADDLu  : N2VPLInt_QHS<0b11, 0b11, 0b00, 0b00101, 0, "vpaddl", "u",
2150                              int_arm_neon_vpaddlu>;
2151
2152 //   VPADAL   : Vector Pairwise Add and Accumulate Long
2153 defm VPADALs  : N2VPLInt2_QHS<0b11, 0b11, 0b00, 0b01100, 0, "vpadal", "s",
2154                               int_arm_neon_vpadals>;
2155 defm VPADALu  : N2VPLInt2_QHS<0b11, 0b11, 0b00, 0b01101, 0, "vpadal", "u",
2156                               int_arm_neon_vpadalu>;
2157
2158 //   VPMAX    : Vector Pairwise Maximum
2159 def  VPMAXs8  : N3VDInt<0, 0, 0b00, 0b1010, 0, IIC_VBINi4D, "vpmax", "s8",
2160                         v8i8, v8i8, int_arm_neon_vpmaxs, 0>;
2161 def  VPMAXs16 : N3VDInt<0, 0, 0b01, 0b1010, 0, IIC_VBINi4D, "vpmax", "s16",
2162                         v4i16, v4i16, int_arm_neon_vpmaxs, 0>;
2163 def  VPMAXs32 : N3VDInt<0, 0, 0b10, 0b1010, 0, IIC_VBINi4D, "vpmax", "s32",
2164                         v2i32, v2i32, int_arm_neon_vpmaxs, 0>;
2165 def  VPMAXu8  : N3VDInt<1, 0, 0b00, 0b1010, 0, IIC_VBINi4D, "vpmax", "u8",
2166                         v8i8, v8i8, int_arm_neon_vpmaxu, 0>;
2167 def  VPMAXu16 : N3VDInt<1, 0, 0b01, 0b1010, 0, IIC_VBINi4D, "vpmax", "u16",
2168                         v4i16, v4i16, int_arm_neon_vpmaxu, 0>;
2169 def  VPMAXu32 : N3VDInt<1, 0, 0b10, 0b1010, 0, IIC_VBINi4D, "vpmax", "u32",
2170                         v2i32, v2i32, int_arm_neon_vpmaxu, 0>;
2171 def  VPMAXf   : N3VDInt<1, 0, 0b00, 0b1111, 0, IIC_VBINi4D, "vpmax", "f32",
2172                         v2f32, v2f32, int_arm_neon_vpmaxs, 0>;
2173
2174 //   VPMIN    : Vector Pairwise Minimum
2175 def  VPMINs8  : N3VDInt<0, 0, 0b00, 0b1010, 1, IIC_VBINi4D, "vpmin", "s8",
2176                         v8i8, v8i8, int_arm_neon_vpmins, 0>;
2177 def  VPMINs16 : N3VDInt<0, 0, 0b01, 0b1010, 1, IIC_VBINi4D, "vpmin", "s16",
2178                         v4i16, v4i16, int_arm_neon_vpmins, 0>;
2179 def  VPMINs32 : N3VDInt<0, 0, 0b10, 0b1010, 1, IIC_VBINi4D, "vpmin", "s32",
2180                         v2i32, v2i32, int_arm_neon_vpmins, 0>;
2181 def  VPMINu8  : N3VDInt<1, 0, 0b00, 0b1010, 1, IIC_VBINi4D, "vpmin", "u8",
2182                         v8i8, v8i8, int_arm_neon_vpminu, 0>;
2183 def  VPMINu16 : N3VDInt<1, 0, 0b01, 0b1010, 1, IIC_VBINi4D, "vpmin", "u16",
2184                         v4i16, v4i16, int_arm_neon_vpminu, 0>;
2185 def  VPMINu32 : N3VDInt<1, 0, 0b10, 0b1010, 1, IIC_VBINi4D, "vpmin", "u32",
2186                         v2i32, v2i32, int_arm_neon_vpminu, 0>;
2187 def  VPMINf   : N3VDInt<1, 0, 0b10, 0b1111, 0, IIC_VBINi4D, "vpmin", "f32",
2188                         v2f32, v2f32, int_arm_neon_vpmins, 0>;
2189
2190 // Vector Reciprocal and Reciprocal Square Root Estimate and Step.
2191
2192 //   VRECPE   : Vector Reciprocal Estimate
2193 def  VRECPEd  : N2VDInt<0b11, 0b11, 0b10, 0b11, 0b01000, 0,
2194                         IIC_VUNAD, "vrecpe", "u32",
2195                         v2i32, v2i32, int_arm_neon_vrecpe>;
2196 def  VRECPEq  : N2VQInt<0b11, 0b11, 0b10, 0b11, 0b01000, 0,
2197                         IIC_VUNAQ, "vrecpe", "u32",
2198                         v4i32, v4i32, int_arm_neon_vrecpe>;
2199 def  VRECPEfd : N2VDInt<0b11, 0b11, 0b10, 0b11, 0b01010, 0,
2200                         IIC_VUNAD, "vrecpe", "f32",
2201                         v2f32, v2f32, int_arm_neon_vrecpe>;
2202 def  VRECPEfq : N2VQInt<0b11, 0b11, 0b10, 0b11, 0b01010, 0,
2203                         IIC_VUNAQ, "vrecpe", "f32",
2204                         v4f32, v4f32, int_arm_neon_vrecpe>;
2205
2206 //   VRECPS   : Vector Reciprocal Step
2207 def  VRECPSfd : N3VDInt<0, 0, 0b00, 0b1111, 1,
2208                         IIC_VRECSD, "vrecps", "f32",
2209                         v2f32, v2f32, int_arm_neon_vrecps, 1>;
2210 def  VRECPSfq : N3VQInt<0, 0, 0b00, 0b1111, 1,
2211                         IIC_VRECSQ, "vrecps", "f32",
2212                         v4f32, v4f32, int_arm_neon_vrecps, 1>;
2213
2214 //   VRSQRTE  : Vector Reciprocal Square Root Estimate
2215 def  VRSQRTEd  : N2VDInt<0b11, 0b11, 0b10, 0b11, 0b01001, 0,
2216                          IIC_VUNAD, "vrsqrte", "u32",
2217                          v2i32, v2i32, int_arm_neon_vrsqrte>;
2218 def  VRSQRTEq  : N2VQInt<0b11, 0b11, 0b10, 0b11, 0b01001, 0,
2219                          IIC_VUNAQ, "vrsqrte", "u32",
2220                          v4i32, v4i32, int_arm_neon_vrsqrte>;
2221 def  VRSQRTEfd : N2VDInt<0b11, 0b11, 0b10, 0b11, 0b01011, 0,
2222                          IIC_VUNAD, "vrsqrte", "f32",
2223                          v2f32, v2f32, int_arm_neon_vrsqrte>;
2224 def  VRSQRTEfq : N2VQInt<0b11, 0b11, 0b10, 0b11, 0b01011, 0,
2225                          IIC_VUNAQ, "vrsqrte", "f32",
2226                          v4f32, v4f32, int_arm_neon_vrsqrte>;
2227
2228 //   VRSQRTS  : Vector Reciprocal Square Root Step
2229 def VRSQRTSfd : N3VDInt<0, 0, 0b10, 0b1111, 1,
2230                         IIC_VRECSD, "vrsqrts", "f32",
2231                         v2f32, v2f32, int_arm_neon_vrsqrts, 1>;
2232 def VRSQRTSfq : N3VQInt<0, 0, 0b10, 0b1111, 1,
2233                         IIC_VRECSQ, "vrsqrts", "f32",
2234                         v4f32, v4f32, int_arm_neon_vrsqrts, 1>;
2235
2236 // Vector Shifts.
2237
2238 //   VSHL     : Vector Shift
2239 defm VSHLs    : N3VInt_QHSD<0, 0, 0b0100, 0, IIC_VSHLiD, IIC_VSHLiD, IIC_VSHLiQ,
2240                             IIC_VSHLiQ, "vshl", "s", int_arm_neon_vshifts, 0>;
2241 defm VSHLu    : N3VInt_QHSD<1, 0, 0b0100, 0, IIC_VSHLiD, IIC_VSHLiD, IIC_VSHLiQ,
2242                             IIC_VSHLiQ, "vshl", "u", int_arm_neon_vshiftu, 0>;
2243 //   VSHL     : Vector Shift Left (Immediate)
2244 defm VSHLi    : N2VSh_QHSD<0, 1, 0b0101, 1, IIC_VSHLiD, "vshl", "i", NEONvshl>;
2245 //   VSHR     : Vector Shift Right (Immediate)
2246 defm VSHRs    : N2VSh_QHSD<0, 1, 0b0000, 1, IIC_VSHLiD, "vshr", "s", NEONvshrs>;
2247 defm VSHRu    : N2VSh_QHSD<1, 1, 0b0000, 1, IIC_VSHLiD, "vshr", "u", NEONvshru>;
2248
2249 //   VSHLL    : Vector Shift Left Long
2250 defm VSHLLs   : N2VLSh_QHS<0, 1, 0b1010, 0, 0, 1, "vshll", "s", NEONvshlls>;
2251 defm VSHLLu   : N2VLSh_QHS<1, 1, 0b1010, 0, 0, 1, "vshll", "u", NEONvshllu>;
2252
2253 //   VSHLL    : Vector Shift Left Long (with maximum shift count)
2254 class N2VLShMax<bit op24, bit op23, bits<6> op21_16, bits<4> op11_8, bit op7,
2255                 bit op6, bit op4, string OpcodeStr, string Dt, ValueType ResTy,
2256                 ValueType OpTy, SDNode OpNode>
2257   : N2VLSh<op24, op23, op11_8, op7, op6, op4, OpcodeStr, Dt,
2258            ResTy, OpTy, OpNode> {
2259   let Inst{21-16} = op21_16;
2260 }
2261 def  VSHLLi8  : N2VLShMax<1, 1, 0b110010, 0b0011, 0, 0, 0, "vshll", "i8",
2262                           v8i16, v8i8, NEONvshlli>;
2263 def  VSHLLi16 : N2VLShMax<1, 1, 0b110110, 0b0011, 0, 0, 0, "vshll", "i16",
2264                           v4i32, v4i16, NEONvshlli>;
2265 def  VSHLLi32 : N2VLShMax<1, 1, 0b111010, 0b0011, 0, 0, 0, "vshll", "i32",
2266                           v2i64, v2i32, NEONvshlli>;
2267
2268 //   VSHRN    : Vector Shift Right and Narrow
2269 defm VSHRN    : N2VNSh_HSD<0,1,0b1000,0,0,1, IIC_VSHLiD, "vshrn", "i",
2270                            NEONvshrn>;
2271
2272 //   VRSHL    : Vector Rounding Shift
2273 defm VRSHLs   : N3VInt_QHSD<0,0,0b0101,0, IIC_VSHLi4D, IIC_VSHLi4D, IIC_VSHLi4Q,
2274                             IIC_VSHLi4Q, "vrshl", "s", int_arm_neon_vrshifts,0>;
2275 defm VRSHLu   : N3VInt_QHSD<1,0,0b0101,0, IIC_VSHLi4D, IIC_VSHLi4D, IIC_VSHLi4Q,
2276                             IIC_VSHLi4Q, "vrshl", "u", int_arm_neon_vrshiftu,0>;
2277 //   VRSHR    : Vector Rounding Shift Right
2278 defm VRSHRs   : N2VSh_QHSD<0,1,0b0010,1, IIC_VSHLi4D, "vrshr", "s", NEONvrshrs>;
2279 defm VRSHRu   : N2VSh_QHSD<1,1,0b0010,1, IIC_VSHLi4D, "vrshr", "u", NEONvrshru>;
2280
2281 //   VRSHRN   : Vector Rounding Shift Right and Narrow
2282 defm VRSHRN   : N2VNSh_HSD<0, 1, 0b1000, 0, 1, 1, IIC_VSHLi4D, "vrshrn", "i",
2283                            NEONvrshrn>;
2284
2285 //   VQSHL    : Vector Saturating Shift
2286 defm VQSHLs   : N3VInt_QHSD<0,0,0b0100,1, IIC_VSHLi4D, IIC_VSHLi4D, IIC_VSHLi4Q,
2287                             IIC_VSHLi4Q, "vqshl", "s", int_arm_neon_vqshifts,0>;
2288 defm VQSHLu   : N3VInt_QHSD<1,0,0b0100,1, IIC_VSHLi4D, IIC_VSHLi4D, IIC_VSHLi4Q,
2289                             IIC_VSHLi4Q, "vqshl", "u", int_arm_neon_vqshiftu,0>;
2290 //   VQSHL    : Vector Saturating Shift Left (Immediate)
2291 defm VQSHLsi  : N2VSh_QHSD<0,1,0b0111,1, IIC_VSHLi4D, "vqshl", "s", NEONvqshls>;
2292 defm VQSHLui  : N2VSh_QHSD<1,1,0b0111,1, IIC_VSHLi4D, "vqshl", "u", NEONvqshlu>;
2293 //   VQSHLU   : Vector Saturating Shift Left (Immediate, Unsigned)
2294 defm VQSHLsu  : N2VSh_QHSD<1,1,0b0110,1, IIC_VSHLi4D, "vqshlu","s",NEONvqshlsu>;
2295
2296 //   VQSHRN   : Vector Saturating Shift Right and Narrow
2297 defm VQSHRNs  : N2VNSh_HSD<0, 1, 0b1001, 0, 0, 1, IIC_VSHLi4D, "vqshrn", "s",
2298                            NEONvqshrns>;
2299 defm VQSHRNu  : N2VNSh_HSD<1, 1, 0b1001, 0, 0, 1, IIC_VSHLi4D, "vqshrn", "u",
2300                            NEONvqshrnu>;
2301
2302 //   VQSHRUN  : Vector Saturating Shift Right and Narrow (Unsigned)
2303 defm VQSHRUN  : N2VNSh_HSD<1, 1, 0b1000, 0, 0, 1, IIC_VSHLi4D, "vqshrun", "s",
2304                            NEONvqshrnsu>;
2305
2306 //   VQRSHL   : Vector Saturating Rounding Shift
2307 defm VQRSHLs  : N3VInt_QHSD<0,0,0b0101,1, IIC_VSHLi4D, IIC_VSHLi4D, IIC_VSHLi4Q,
2308                             IIC_VSHLi4Q, "vqrshl", "s",
2309                             int_arm_neon_vqrshifts, 0>;
2310 defm VQRSHLu  : N3VInt_QHSD<1,0,0b0101,1, IIC_VSHLi4D, IIC_VSHLi4D, IIC_VSHLi4Q,
2311                             IIC_VSHLi4Q, "vqrshl", "u",
2312                             int_arm_neon_vqrshiftu, 0>;
2313
2314 //   VQRSHRN  : Vector Saturating Rounding Shift Right and Narrow
2315 defm VQRSHRNs : N2VNSh_HSD<0, 1, 0b1001, 0, 1, 1, IIC_VSHLi4D, "vqrshrn", "s",
2316                            NEONvqrshrns>;
2317 defm VQRSHRNu : N2VNSh_HSD<1, 1, 0b1001, 0, 1, 1, IIC_VSHLi4D, "vqrshrn", "u",
2318                            NEONvqrshrnu>;
2319
2320 //   VQRSHRUN : Vector Saturating Rounding Shift Right and Narrow (Unsigned)
2321 defm VQRSHRUN : N2VNSh_HSD<1, 1, 0b1000, 0, 1, 1, IIC_VSHLi4D, "vqrshrun", "s",
2322                            NEONvqrshrnsu>;
2323
2324 //   VSRA     : Vector Shift Right and Accumulate
2325 defm VSRAs    : N2VShAdd_QHSD<0, 1, 0b0001, 1, "vsra", "s", NEONvshrs>;
2326 defm VSRAu    : N2VShAdd_QHSD<1, 1, 0b0001, 1, "vsra", "u", NEONvshru>;
2327 //   VRSRA    : Vector Rounding Shift Right and Accumulate
2328 defm VRSRAs   : N2VShAdd_QHSD<0, 1, 0b0011, 1, "vrsra", "s", NEONvrshrs>;
2329 defm VRSRAu   : N2VShAdd_QHSD<1, 1, 0b0011, 1, "vrsra", "u", NEONvrshru>;
2330
2331 //   VSLI     : Vector Shift Left and Insert
2332 defm VSLI     : N2VShIns_QHSD<1, 1, 0b0101, 1, "vsli", NEONvsli>;
2333 //   VSRI     : Vector Shift Right and Insert
2334 defm VSRI     : N2VShIns_QHSD<1, 1, 0b0100, 1, "vsri", NEONvsri>;
2335
2336 // Vector Absolute and Saturating Absolute.
2337
2338 //   VABS     : Vector Absolute Value
2339 defm VABS     : N2VInt_QHS<0b11, 0b11, 0b01, 0b00110, 0,
2340                            IIC_VUNAiD, IIC_VUNAiQ, "vabs", "s",
2341                            int_arm_neon_vabs>;
2342 def  VABSfd   : N2VDInt<0b11, 0b11, 0b10, 0b01, 0b01110, 0,
2343                         IIC_VUNAD, "vabs", "f32",
2344                         v2f32, v2f32, int_arm_neon_vabs>;
2345 def  VABSfq   : N2VQInt<0b11, 0b11, 0b10, 0b01, 0b01110, 0,
2346                         IIC_VUNAQ, "vabs", "f32",
2347                         v4f32, v4f32, int_arm_neon_vabs>;
2348
2349 //   VQABS    : Vector Saturating Absolute Value
2350 defm VQABS    : N2VInt_QHS<0b11, 0b11, 0b00, 0b01110, 0,
2351                            IIC_VQUNAiD, IIC_VQUNAiQ, "vqabs", "s",
2352                            int_arm_neon_vqabs>;
2353
2354 // Vector Negate.
2355
2356 def vneg      : PatFrag<(ops node:$in), (sub immAllZerosV, node:$in)>;
2357 def vneg_conv : PatFrag<(ops node:$in), (sub immAllZerosV_bc, node:$in)>;
2358
2359 class VNEGD<bits<2> size, string OpcodeStr, string Dt, ValueType Ty>
2360   : N2V<0b11, 0b11, size, 0b01, 0b00111, 0, 0, (outs DPR:$dst), (ins DPR:$src),
2361         IIC_VSHLiD, OpcodeStr, Dt, "$dst, $src", "",
2362         [(set DPR:$dst, (Ty (vneg DPR:$src)))]>;
2363 class VNEGQ<bits<2> size, string OpcodeStr, string Dt, ValueType Ty>
2364   : N2V<0b11, 0b11, size, 0b01, 0b00111, 1, 0, (outs QPR:$dst), (ins QPR:$src),
2365         IIC_VSHLiD, OpcodeStr, Dt, "$dst, $src", "",
2366         [(set QPR:$dst, (Ty (vneg QPR:$src)))]>;
2367
2368 //   VNEG     : Vector Negate
2369 def  VNEGs8d  : VNEGD<0b00, "vneg", "s8", v8i8>;
2370 def  VNEGs16d : VNEGD<0b01, "vneg", "s16", v4i16>;
2371 def  VNEGs32d : VNEGD<0b10, "vneg", "s32", v2i32>;
2372 def  VNEGs8q  : VNEGQ<0b00, "vneg", "s8", v16i8>;
2373 def  VNEGs16q : VNEGQ<0b01, "vneg", "s16", v8i16>;
2374 def  VNEGs32q : VNEGQ<0b10, "vneg", "s32", v4i32>;
2375
2376 //   VNEG     : Vector Negate (floating-point)
2377 def  VNEGfd   : N2V<0b11, 0b11, 0b10, 0b01, 0b01111, 0, 0,
2378                     (outs DPR:$dst), (ins DPR:$src), IIC_VUNAD,
2379                     "vneg", "f32", "$dst, $src", "",
2380                     [(set DPR:$dst, (v2f32 (fneg DPR:$src)))]>;
2381 def  VNEGf32q : N2V<0b11, 0b11, 0b10, 0b01, 0b01111, 1, 0,
2382                     (outs QPR:$dst), (ins QPR:$src), IIC_VUNAQ,
2383                     "vneg", "f32", "$dst, $src", "",
2384                     [(set QPR:$dst, (v4f32 (fneg QPR:$src)))]>;
2385
2386 def : Pat<(v8i8 (vneg_conv DPR:$src)), (VNEGs8d DPR:$src)>;
2387 def : Pat<(v4i16 (vneg_conv DPR:$src)), (VNEGs16d DPR:$src)>;
2388 def : Pat<(v2i32 (vneg_conv DPR:$src)), (VNEGs32d DPR:$src)>;
2389 def : Pat<(v16i8 (vneg_conv QPR:$src)), (VNEGs8q QPR:$src)>;
2390 def : Pat<(v8i16 (vneg_conv QPR:$src)), (VNEGs16q QPR:$src)>;
2391 def : Pat<(v4i32 (vneg_conv QPR:$src)), (VNEGs32q QPR:$src)>;
2392
2393 //   VQNEG    : Vector Saturating Negate
2394 defm VQNEG    : N2VInt_QHS<0b11, 0b11, 0b00, 0b01111, 0,
2395                            IIC_VQUNAiD, IIC_VQUNAiQ, "vqneg", "s",
2396                            int_arm_neon_vqneg>;
2397
2398 // Vector Bit Counting Operations.
2399
2400 //   VCLS     : Vector Count Leading Sign Bits
2401 defm VCLS     : N2VInt_QHS<0b11, 0b11, 0b00, 0b01000, 0,
2402                            IIC_VCNTiD, IIC_VCNTiQ, "vcls", "s",
2403                            int_arm_neon_vcls>;
2404 //   VCLZ     : Vector Count Leading Zeros
2405 defm VCLZ     : N2VInt_QHS<0b11, 0b11, 0b00, 0b01001, 0,
2406                            IIC_VCNTiD, IIC_VCNTiQ, "vclz", "i",
2407                            int_arm_neon_vclz>;
2408 //   VCNT     : Vector Count One Bits
2409 def  VCNTd    : N2VDInt<0b11, 0b11, 0b00, 0b00, 0b01010, 0,
2410                         IIC_VCNTiD, "vcnt", "8",
2411                         v8i8, v8i8, int_arm_neon_vcnt>;
2412 def  VCNTq    : N2VQInt<0b11, 0b11, 0b00, 0b00, 0b01010, 0,
2413                         IIC_VCNTiQ, "vcnt", "8",
2414                         v16i8, v16i8, int_arm_neon_vcnt>;
2415
2416 // Vector Move Operations.
2417
2418 //   VMOV     : Vector Move (Register)
2419
2420 def  VMOVDneon: N3VX<0, 0, 0b10, 0b0001, 0, 1, (outs DPR:$dst), (ins DPR:$src),
2421                     IIC_VMOVD, "vmov", "$dst, $src", "", []>;
2422 def  VMOVQ    : N3VX<0, 0, 0b10, 0b0001, 1, 1, (outs QPR:$dst), (ins QPR:$src),
2423                     IIC_VMOVD, "vmov", "$dst, $src", "", []>;
2424
2425 //   VMOV     : Vector Move (Immediate)
2426
2427 // VMOV_get_imm8 xform function: convert build_vector to VMOV.i8 imm.
2428 def VMOV_get_imm8 : SDNodeXForm<build_vector, [{
2429   return ARM::getVMOVImm(N, 1, *CurDAG);
2430 }]>;
2431 def vmovImm8 : PatLeaf<(build_vector), [{
2432   return ARM::getVMOVImm(N, 1, *CurDAG).getNode() != 0;
2433 }], VMOV_get_imm8>;
2434
2435 // VMOV_get_imm16 xform function: convert build_vector to VMOV.i16 imm.
2436 def VMOV_get_imm16 : SDNodeXForm<build_vector, [{
2437   return ARM::getVMOVImm(N, 2, *CurDAG);
2438 }]>;
2439 def vmovImm16 : PatLeaf<(build_vector), [{
2440   return ARM::getVMOVImm(N, 2, *CurDAG).getNode() != 0;
2441 }], VMOV_get_imm16>;
2442
2443 // VMOV_get_imm32 xform function: convert build_vector to VMOV.i32 imm.
2444 def VMOV_get_imm32 : SDNodeXForm<build_vector, [{
2445   return ARM::getVMOVImm(N, 4, *CurDAG);
2446 }]>;
2447 def vmovImm32 : PatLeaf<(build_vector), [{
2448   return ARM::getVMOVImm(N, 4, *CurDAG).getNode() != 0;
2449 }], VMOV_get_imm32>;
2450
2451 // VMOV_get_imm64 xform function: convert build_vector to VMOV.i64 imm.
2452 def VMOV_get_imm64 : SDNodeXForm<build_vector, [{
2453   return ARM::getVMOVImm(N, 8, *CurDAG);
2454 }]>;
2455 def vmovImm64 : PatLeaf<(build_vector), [{
2456   return ARM::getVMOVImm(N, 8, *CurDAG).getNode() != 0;
2457 }], VMOV_get_imm64>;
2458
2459 // Note: Some of the cmode bits in the following VMOV instructions need to
2460 // be encoded based on the immed values.
2461
2462 def VMOVv8i8  : N1ModImm<1, 0b000, 0b1110, 0, 0, 0, 1, (outs DPR:$dst),
2463                          (ins h8imm:$SIMM), IIC_VMOVImm,
2464                          "vmov", "i8", "$dst, $SIMM", "",
2465                          [(set DPR:$dst, (v8i8 vmovImm8:$SIMM))]>;
2466 def VMOVv16i8 : N1ModImm<1, 0b000, 0b1110, 0, 1, 0, 1, (outs QPR:$dst),
2467                          (ins h8imm:$SIMM), IIC_VMOVImm,
2468                          "vmov", "i8", "$dst, $SIMM", "",
2469                          [(set QPR:$dst, (v16i8 vmovImm8:$SIMM))]>;
2470
2471 def VMOVv4i16 : N1ModImm<1, 0b000, {1,0,?,?}, 0, 0, {?}, 1, (outs DPR:$dst),
2472                          (ins h16imm:$SIMM), IIC_VMOVImm,
2473                          "vmov", "i16", "$dst, $SIMM", "",
2474                          [(set DPR:$dst, (v4i16 vmovImm16:$SIMM))]>;
2475 def VMOVv8i16 : N1ModImm<1, 0b000, {1,0,?,?}, 0, 1, {?}, 1, (outs QPR:$dst),
2476                          (ins h16imm:$SIMM), IIC_VMOVImm,
2477                          "vmov", "i16", "$dst, $SIMM", "",
2478                          [(set QPR:$dst, (v8i16 vmovImm16:$SIMM))]>;
2479
2480 def VMOVv2i32 : N1ModImm<1, 0b000, {?,?,?,?}, 0, 0, {?}, 1, (outs DPR:$dst),
2481                          (ins h32imm:$SIMM), IIC_VMOVImm,
2482                          "vmov", "i32", "$dst, $SIMM", "",
2483                          [(set DPR:$dst, (v2i32 vmovImm32:$SIMM))]>;
2484 def VMOVv4i32 : N1ModImm<1, 0b000, {?,?,?,?}, 0, 1, {?}, 1, (outs QPR:$dst),
2485                          (ins h32imm:$SIMM), IIC_VMOVImm,
2486                          "vmov", "i32", "$dst, $SIMM", "",
2487                          [(set QPR:$dst, (v4i32 vmovImm32:$SIMM))]>;
2488
2489 def VMOVv1i64 : N1ModImm<1, 0b000, 0b1110, 0, 0, 1, 1, (outs DPR:$dst),
2490                          (ins h64imm:$SIMM), IIC_VMOVImm,
2491                          "vmov", "i64", "$dst, $SIMM", "",
2492                          [(set DPR:$dst, (v1i64 vmovImm64:$SIMM))]>;
2493 def VMOVv2i64 : N1ModImm<1, 0b000, 0b1110, 0, 1, 1, 1, (outs QPR:$dst),
2494                          (ins h64imm:$SIMM), IIC_VMOVImm,
2495                          "vmov", "i64", "$dst, $SIMM", "",
2496                          [(set QPR:$dst, (v2i64 vmovImm64:$SIMM))]>;
2497
2498 //   VMOV     : Vector Get Lane (move scalar to ARM core register)
2499
2500 def VGETLNs8  : NVGetLane<{1,1,1,0,0,1,?,1}, 0b1011, {?,?},
2501                           (outs GPR:$dst), (ins DPR:$src, nohash_imm:$lane),
2502                           IIC_VMOVSI, "vmov", "s8", "$dst, $src[$lane]",
2503                           [(set GPR:$dst, (NEONvgetlanes (v8i8 DPR:$src),
2504                                            imm:$lane))]>;
2505 def VGETLNs16 : NVGetLane<{1,1,1,0,0,0,?,1}, 0b1011, {?,1},
2506                           (outs GPR:$dst), (ins DPR:$src, nohash_imm:$lane),
2507                           IIC_VMOVSI, "vmov", "s16", "$dst, $src[$lane]",
2508                           [(set GPR:$dst, (NEONvgetlanes (v4i16 DPR:$src),
2509                                            imm:$lane))]>;
2510 def VGETLNu8  : NVGetLane<{1,1,1,0,1,1,?,1}, 0b1011, {?,?},
2511                           (outs GPR:$dst), (ins DPR:$src, nohash_imm:$lane),
2512                           IIC_VMOVSI, "vmov", "u8", "$dst, $src[$lane]",
2513                           [(set GPR:$dst, (NEONvgetlaneu (v8i8 DPR:$src),
2514                                            imm:$lane))]>;
2515 def VGETLNu16 : NVGetLane<{1,1,1,0,1,0,?,1}, 0b1011, {?,1},
2516                           (outs GPR:$dst), (ins DPR:$src, nohash_imm:$lane),
2517                           IIC_VMOVSI, "vmov", "u16", "$dst, $src[$lane]",
2518                           [(set GPR:$dst, (NEONvgetlaneu (v4i16 DPR:$src),
2519                                            imm:$lane))]>;
2520 def VGETLNi32 : NVGetLane<{1,1,1,0,0,0,?,1}, 0b1011, 0b00,
2521                           (outs GPR:$dst), (ins DPR:$src, nohash_imm:$lane),
2522                           IIC_VMOVSI, "vmov", "32", "$dst, $src[$lane]",
2523                           [(set GPR:$dst, (extractelt (v2i32 DPR:$src),
2524                                            imm:$lane))]>;
2525 // def VGETLNf32: see FMRDH and FMRDL in ARMInstrVFP.td
2526 def : Pat<(NEONvgetlanes (v16i8 QPR:$src), imm:$lane),
2527           (VGETLNs8 (v8i8 (EXTRACT_SUBREG QPR:$src,
2528                            (DSubReg_i8_reg imm:$lane))),
2529                      (SubReg_i8_lane imm:$lane))>;
2530 def : Pat<(NEONvgetlanes (v8i16 QPR:$src), imm:$lane),
2531           (VGETLNs16 (v4i16 (EXTRACT_SUBREG QPR:$src,
2532                              (DSubReg_i16_reg imm:$lane))),
2533                      (SubReg_i16_lane imm:$lane))>;
2534 def : Pat<(NEONvgetlaneu (v16i8 QPR:$src), imm:$lane),
2535           (VGETLNu8 (v8i8 (EXTRACT_SUBREG QPR:$src,
2536                            (DSubReg_i8_reg imm:$lane))),
2537                      (SubReg_i8_lane imm:$lane))>;
2538 def : Pat<(NEONvgetlaneu (v8i16 QPR:$src), imm:$lane),
2539           (VGETLNu16 (v4i16 (EXTRACT_SUBREG QPR:$src,
2540                              (DSubReg_i16_reg imm:$lane))),
2541                      (SubReg_i16_lane imm:$lane))>;
2542 def : Pat<(extractelt (v4i32 QPR:$src), imm:$lane),
2543           (VGETLNi32 (v2i32 (EXTRACT_SUBREG QPR:$src,
2544                              (DSubReg_i32_reg imm:$lane))),
2545                      (SubReg_i32_lane imm:$lane))>;
2546 def : Pat<(extractelt (v2f32 DPR:$src1), imm:$src2),
2547           (EXTRACT_SUBREG (v2f32 (COPY_TO_REGCLASS (v2f32 DPR:$src1),DPR_VFP2)),
2548                           (SSubReg_f32_reg imm:$src2))>;
2549 def : Pat<(extractelt (v4f32 QPR:$src1), imm:$src2),
2550           (EXTRACT_SUBREG (v4f32 (COPY_TO_REGCLASS (v4f32 QPR:$src1),QPR_VFP2)),
2551                           (SSubReg_f32_reg imm:$src2))>;
2552 //def : Pat<(extractelt (v2i64 QPR:$src1), imm:$src2),
2553 //          (EXTRACT_SUBREG QPR:$src1, (DSubReg_f64_reg imm:$src2))>;
2554 def : Pat<(extractelt (v2f64 QPR:$src1), imm:$src2),
2555           (EXTRACT_SUBREG QPR:$src1, (DSubReg_f64_reg imm:$src2))>;
2556
2557
2558 //   VMOV     : Vector Set Lane (move ARM core register to scalar)
2559
2560 let Constraints = "$src1 = $dst" in {
2561 def VSETLNi8  : NVSetLane<{1,1,1,0,0,1,?,0}, 0b1011, {?,?}, (outs DPR:$dst),
2562                           (ins DPR:$src1, GPR:$src2, nohash_imm:$lane),
2563                           IIC_VMOVISL, "vmov", "8", "$dst[$lane], $src2",
2564                           [(set DPR:$dst, (vector_insert (v8i8 DPR:$src1),
2565                                            GPR:$src2, imm:$lane))]>;
2566 def VSETLNi16 : NVSetLane<{1,1,1,0,0,0,?,0}, 0b1011, {?,1}, (outs DPR:$dst),
2567                           (ins DPR:$src1, GPR:$src2, nohash_imm:$lane),
2568                           IIC_VMOVISL, "vmov", "16", "$dst[$lane], $src2",
2569                           [(set DPR:$dst, (vector_insert (v4i16 DPR:$src1),
2570                                            GPR:$src2, imm:$lane))]>;
2571 def VSETLNi32 : NVSetLane<{1,1,1,0,0,0,?,0}, 0b1011, 0b00, (outs DPR:$dst),
2572                           (ins DPR:$src1, GPR:$src2, nohash_imm:$lane),
2573                           IIC_VMOVISL, "vmov", "32", "$dst[$lane], $src2",
2574                           [(set DPR:$dst, (insertelt (v2i32 DPR:$src1),
2575                                            GPR:$src2, imm:$lane))]>;
2576 }
2577 def : Pat<(vector_insert (v16i8 QPR:$src1), GPR:$src2, imm:$lane),
2578           (v16i8 (INSERT_SUBREG QPR:$src1,
2579                   (VSETLNi8 (v8i8 (EXTRACT_SUBREG QPR:$src1,
2580                                    (DSubReg_i8_reg imm:$lane))),
2581                             GPR:$src2, (SubReg_i8_lane imm:$lane)),
2582                   (DSubReg_i8_reg imm:$lane)))>;
2583 def : Pat<(vector_insert (v8i16 QPR:$src1), GPR:$src2, imm:$lane),
2584           (v8i16 (INSERT_SUBREG QPR:$src1,
2585                   (VSETLNi16 (v4i16 (EXTRACT_SUBREG QPR:$src1,
2586                                      (DSubReg_i16_reg imm:$lane))),
2587                              GPR:$src2, (SubReg_i16_lane imm:$lane)),
2588                   (DSubReg_i16_reg imm:$lane)))>;
2589 def : Pat<(insertelt (v4i32 QPR:$src1), GPR:$src2, imm:$lane),
2590           (v4i32 (INSERT_SUBREG QPR:$src1,
2591                   (VSETLNi32 (v2i32 (EXTRACT_SUBREG QPR:$src1,
2592                                      (DSubReg_i32_reg imm:$lane))),
2593                              GPR:$src2, (SubReg_i32_lane imm:$lane)),
2594                   (DSubReg_i32_reg imm:$lane)))>;
2595
2596 def : Pat<(v2f32 (insertelt DPR:$src1, SPR:$src2, imm:$src3)),
2597           (INSERT_SUBREG (v2f32 (COPY_TO_REGCLASS DPR:$src1, DPR_VFP2)),
2598                                 SPR:$src2, (SSubReg_f32_reg imm:$src3))>;
2599 def : Pat<(v4f32 (insertelt QPR:$src1, SPR:$src2, imm:$src3)),
2600           (INSERT_SUBREG (v4f32 (COPY_TO_REGCLASS QPR:$src1, QPR_VFP2)),
2601                                 SPR:$src2, (SSubReg_f32_reg imm:$src3))>;
2602
2603 //def : Pat<(v2i64 (insertelt QPR:$src1, DPR:$src2, imm:$src3)),
2604 //          (INSERT_SUBREG QPR:$src1, DPR:$src2, (DSubReg_f64_reg imm:$src3))>;
2605 def : Pat<(v2f64 (insertelt QPR:$src1, DPR:$src2, imm:$src3)),
2606           (INSERT_SUBREG QPR:$src1, DPR:$src2, (DSubReg_f64_reg imm:$src3))>;
2607
2608 def : Pat<(v2f32 (scalar_to_vector SPR:$src)),
2609           (INSERT_SUBREG (v2f32 (IMPLICIT_DEF)), SPR:$src, arm_ssubreg_0)>;
2610 def : Pat<(v2f64 (scalar_to_vector DPR:$src)),
2611           (INSERT_SUBREG (v2f64 (IMPLICIT_DEF)), DPR:$src, arm_dsubreg_0)>;
2612 def : Pat<(v4f32 (scalar_to_vector SPR:$src)),
2613           (INSERT_SUBREG (v4f32 (IMPLICIT_DEF)), SPR:$src, arm_ssubreg_0)>;
2614
2615 def : Pat<(v8i8 (scalar_to_vector GPR:$src)),
2616           (VSETLNi8  (v8i8  (IMPLICIT_DEF)), GPR:$src, (i32 0))>;
2617 def : Pat<(v4i16 (scalar_to_vector GPR:$src)),
2618           (VSETLNi16 (v4i16 (IMPLICIT_DEF)), GPR:$src, (i32 0))>;
2619 def : Pat<(v2i32 (scalar_to_vector GPR:$src)),
2620           (VSETLNi32 (v2i32 (IMPLICIT_DEF)), GPR:$src, (i32 0))>;
2621
2622 def : Pat<(v16i8 (scalar_to_vector GPR:$src)),
2623           (INSERT_SUBREG (v16i8 (IMPLICIT_DEF)),
2624                          (VSETLNi8 (v8i8 (IMPLICIT_DEF)), GPR:$src, (i32 0)),
2625                          arm_dsubreg_0)>;
2626 def : Pat<(v8i16 (scalar_to_vector GPR:$src)),
2627           (INSERT_SUBREG (v8i16 (IMPLICIT_DEF)),
2628                          (VSETLNi16 (v4i16 (IMPLICIT_DEF)), GPR:$src, (i32 0)),
2629                          arm_dsubreg_0)>;
2630 def : Pat<(v4i32 (scalar_to_vector GPR:$src)),
2631           (INSERT_SUBREG (v4i32 (IMPLICIT_DEF)),
2632                          (VSETLNi32 (v2i32 (IMPLICIT_DEF)), GPR:$src, (i32 0)),
2633                          arm_dsubreg_0)>;
2634
2635 //   VDUP     : Vector Duplicate (from ARM core register to all elements)
2636
2637 class VDUPD<bits<8> opcod1, bits<2> opcod3, string Dt, ValueType Ty>
2638   : NVDup<opcod1, 0b1011, opcod3, (outs DPR:$dst), (ins GPR:$src),
2639           IIC_VMOVIS, "vdup", Dt, "$dst, $src",
2640           [(set DPR:$dst, (Ty (NEONvdup (i32 GPR:$src))))]>;
2641 class VDUPQ<bits<8> opcod1, bits<2> opcod3, string Dt, ValueType Ty>
2642   : NVDup<opcod1, 0b1011, opcod3, (outs QPR:$dst), (ins GPR:$src),
2643           IIC_VMOVIS, "vdup", Dt, "$dst, $src",
2644           [(set QPR:$dst, (Ty (NEONvdup (i32 GPR:$src))))]>;
2645
2646 def  VDUP8d   : VDUPD<0b11101100, 0b00, "8", v8i8>;
2647 def  VDUP16d  : VDUPD<0b11101000, 0b01, "16", v4i16>;
2648 def  VDUP32d  : VDUPD<0b11101000, 0b00, "32", v2i32>;
2649 def  VDUP8q   : VDUPQ<0b11101110, 0b00, "8", v16i8>;
2650 def  VDUP16q  : VDUPQ<0b11101010, 0b01, "16", v8i16>;
2651 def  VDUP32q  : VDUPQ<0b11101010, 0b00, "32", v4i32>;
2652
2653 def  VDUPfd   : NVDup<0b11101000, 0b1011, 0b00, (outs DPR:$dst), (ins GPR:$src),
2654                       IIC_VMOVIS, "vdup", "32", "$dst, $src",
2655                       [(set DPR:$dst, (v2f32 (NEONvdup
2656                                               (f32 (bitconvert GPR:$src)))))]>;
2657 def  VDUPfq   : NVDup<0b11101010, 0b1011, 0b00, (outs QPR:$dst), (ins GPR:$src),
2658                       IIC_VMOVIS, "vdup", "32", "$dst, $src",
2659                       [(set QPR:$dst, (v4f32 (NEONvdup
2660                                               (f32 (bitconvert GPR:$src)))))]>;
2661
2662 //   VDUP     : Vector Duplicate Lane (from scalar to all elements)
2663
2664 class VDUPLND<bits<2> op19_18, bits<2> op17_16,
2665               string OpcodeStr, string Dt, ValueType Ty>
2666   : N2V<0b11, 0b11, op19_18, op17_16, 0b11000, 0, 0,
2667         (outs DPR:$dst), (ins DPR:$src, nohash_imm:$lane), IIC_VMOVD,
2668         OpcodeStr, Dt, "$dst, $src[$lane]", "",
2669         [(set DPR:$dst, (Ty (NEONvduplane (Ty DPR:$src), imm:$lane)))]>;
2670
2671 class VDUPLNQ<bits<2> op19_18, bits<2> op17_16, string OpcodeStr, string Dt,
2672               ValueType ResTy, ValueType OpTy>
2673   : N2V<0b11, 0b11, op19_18, op17_16, 0b11000, 1, 0,
2674         (outs QPR:$dst), (ins DPR:$src, nohash_imm:$lane), IIC_VMOVD,
2675         OpcodeStr, Dt, "$dst, $src[$lane]", "",
2676         [(set QPR:$dst, (ResTy (NEONvduplane (OpTy DPR:$src), imm:$lane)))]>;
2677
2678 // Inst{19-16} is partially specified depending on the element size.
2679
2680 def VDUPLN8d  : VDUPLND<{?,?}, {?,1}, "vdup", "8", v8i8>;
2681 def VDUPLN16d : VDUPLND<{?,?}, {1,0}, "vdup", "16", v4i16>;
2682 def VDUPLN32d : VDUPLND<{?,1}, {0,0}, "vdup", "32", v2i32>;
2683 def VDUPLNfd  : VDUPLND<{?,1}, {0,0}, "vdup", "32", v2f32>;
2684 def VDUPLN8q  : VDUPLNQ<{?,?}, {?,1}, "vdup", "8", v16i8, v8i8>;
2685 def VDUPLN16q : VDUPLNQ<{?,?}, {1,0}, "vdup", "16", v8i16, v4i16>;
2686 def VDUPLN32q : VDUPLNQ<{?,1}, {0,0}, "vdup", "32", v4i32, v2i32>;
2687 def VDUPLNfq  : VDUPLNQ<{?,1}, {0,0}, "vdup", "32", v4f32, v2f32>;
2688
2689 def : Pat<(v16i8 (NEONvduplane (v16i8 QPR:$src), imm:$lane)),
2690           (v16i8 (VDUPLN8q (v8i8 (EXTRACT_SUBREG QPR:$src,
2691                                   (DSubReg_i8_reg imm:$lane))),
2692                            (SubReg_i8_lane imm:$lane)))>;
2693 def : Pat<(v8i16 (NEONvduplane (v8i16 QPR:$src), imm:$lane)),
2694           (v8i16 (VDUPLN16q (v4i16 (EXTRACT_SUBREG QPR:$src,
2695                                     (DSubReg_i16_reg imm:$lane))),
2696                             (SubReg_i16_lane imm:$lane)))>;
2697 def : Pat<(v4i32 (NEONvduplane (v4i32 QPR:$src), imm:$lane)),
2698           (v4i32 (VDUPLN32q (v2i32 (EXTRACT_SUBREG QPR:$src,
2699                                     (DSubReg_i32_reg imm:$lane))),
2700                             (SubReg_i32_lane imm:$lane)))>;
2701 def : Pat<(v4f32 (NEONvduplane (v4f32 QPR:$src), imm:$lane)),
2702           (v4f32 (VDUPLNfq (v2f32 (EXTRACT_SUBREG QPR:$src,
2703                                    (DSubReg_i32_reg imm:$lane))),
2704                            (SubReg_i32_lane imm:$lane)))>;
2705
2706 def  VDUPfdf  : N2V<0b11, 0b11, {?,1}, {0,0}, 0b11000, 0, 0,
2707                     (outs DPR:$dst), (ins SPR:$src),
2708                     IIC_VMOVD, "vdup", "32", "$dst, ${src:lane}", "",
2709                     [(set DPR:$dst, (v2f32 (NEONvdup (f32 SPR:$src))))]>;
2710
2711 def  VDUPfqf  : N2V<0b11, 0b11, {?,1}, {0,0}, 0b11000, 1, 0,
2712                     (outs QPR:$dst), (ins SPR:$src),
2713                     IIC_VMOVD, "vdup", "32", "$dst, ${src:lane}", "",
2714                     [(set QPR:$dst, (v4f32 (NEONvdup (f32 SPR:$src))))]>;
2715
2716 def : Pat<(v2i64 (NEONvduplane (v2i64 QPR:$src), imm:$lane)),
2717           (INSERT_SUBREG QPR:$src,
2718                          (i64 (EXTRACT_SUBREG QPR:$src,
2719                                (DSubReg_f64_reg imm:$lane))),
2720                          (DSubReg_f64_other_reg imm:$lane))>;
2721 def : Pat<(v2f64 (NEONvduplane (v2f64 QPR:$src), imm:$lane)),
2722           (INSERT_SUBREG QPR:$src,
2723                          (f64 (EXTRACT_SUBREG QPR:$src,
2724                                (DSubReg_f64_reg imm:$lane))),
2725                          (DSubReg_f64_other_reg imm:$lane))>;
2726
2727 //   VMOVN    : Vector Narrowing Move
2728 defm VMOVN    : N2VNInt_HSD<0b11,0b11,0b10,0b00100,0,0, IIC_VMOVD,
2729                             "vmovn", "i", int_arm_neon_vmovn>;
2730 //   VQMOVN   : Vector Saturating Narrowing Move
2731 defm VQMOVNs  : N2VNInt_HSD<0b11,0b11,0b10,0b00101,0,0, IIC_VQUNAiD,
2732                             "vqmovn", "s", int_arm_neon_vqmovns>;
2733 defm VQMOVNu  : N2VNInt_HSD<0b11,0b11,0b10,0b00101,1,0, IIC_VQUNAiD,
2734                             "vqmovn", "u", int_arm_neon_vqmovnu>;
2735 defm VQMOVNsu : N2VNInt_HSD<0b11,0b11,0b10,0b00100,1,0, IIC_VQUNAiD,
2736                             "vqmovun", "s", int_arm_neon_vqmovnsu>;
2737 //   VMOVL    : Vector Lengthening Move
2738 defm VMOVLs   : N2VLInt_QHS<0b01,0b10100,0,1, "vmovl", "s",
2739                             int_arm_neon_vmovls>;
2740 defm VMOVLu   : N2VLInt_QHS<0b11,0b10100,0,1, "vmovl", "u",
2741                             int_arm_neon_vmovlu>;
2742
2743 // Vector Conversions.
2744
2745 //   VCVT     : Vector Convert Between Floating-Point and Integers
2746 def  VCVTf2sd : N2VD<0b11, 0b11, 0b10, 0b11, 0b01110, 0, "vcvt", "s32.f32",
2747                      v2i32, v2f32, fp_to_sint>;
2748 def  VCVTf2ud : N2VD<0b11, 0b11, 0b10, 0b11, 0b01111, 0, "vcvt", "u32.f32",
2749                      v2i32, v2f32, fp_to_uint>;
2750 def  VCVTs2fd : N2VD<0b11, 0b11, 0b10, 0b11, 0b01100, 0, "vcvt", "f32.s32",
2751                      v2f32, v2i32, sint_to_fp>;
2752 def  VCVTu2fd : N2VD<0b11, 0b11, 0b10, 0b11, 0b01101, 0, "vcvt", "f32.u32",
2753                      v2f32, v2i32, uint_to_fp>;
2754
2755 def  VCVTf2sq : N2VQ<0b11, 0b11, 0b10, 0b11, 0b01110, 0, "vcvt", "s32.f32",
2756                      v4i32, v4f32, fp_to_sint>;
2757 def  VCVTf2uq : N2VQ<0b11, 0b11, 0b10, 0b11, 0b01111, 0, "vcvt", "u32.f32",
2758                      v4i32, v4f32, fp_to_uint>;
2759 def  VCVTs2fq : N2VQ<0b11, 0b11, 0b10, 0b11, 0b01100, 0, "vcvt", "f32.s32",
2760                      v4f32, v4i32, sint_to_fp>;
2761 def  VCVTu2fq : N2VQ<0b11, 0b11, 0b10, 0b11, 0b01101, 0, "vcvt", "f32.u32",
2762                      v4f32, v4i32, uint_to_fp>;
2763
2764 //   VCVT     : Vector Convert Between Floating-Point and Fixed-Point.
2765 def VCVTf2xsd : N2VCvtD<0, 1, 0b1111, 0, 1, "vcvt", "s32.f32",
2766                         v2i32, v2f32, int_arm_neon_vcvtfp2fxs>;
2767 def VCVTf2xud : N2VCvtD<1, 1, 0b1111, 0, 1, "vcvt", "u32.f32",
2768                         v2i32, v2f32, int_arm_neon_vcvtfp2fxu>;
2769 def VCVTxs2fd : N2VCvtD<0, 1, 0b1110, 0, 1, "vcvt", "f32.s32",
2770                         v2f32, v2i32, int_arm_neon_vcvtfxs2fp>;
2771 def VCVTxu2fd : N2VCvtD<1, 1, 0b1110, 0, 1, "vcvt", "f32.u32",
2772                         v2f32, v2i32, int_arm_neon_vcvtfxu2fp>;
2773
2774 def VCVTf2xsq : N2VCvtQ<0, 1, 0b1111, 0, 1, "vcvt", "s32.f32",
2775                         v4i32, v4f32, int_arm_neon_vcvtfp2fxs>;
2776 def VCVTf2xuq : N2VCvtQ<1, 1, 0b1111, 0, 1, "vcvt", "u32.f32",
2777                         v4i32, v4f32, int_arm_neon_vcvtfp2fxu>;
2778 def VCVTxs2fq : N2VCvtQ<0, 1, 0b1110, 0, 1, "vcvt", "f32.s32",
2779                         v4f32, v4i32, int_arm_neon_vcvtfxs2fp>;
2780 def VCVTxu2fq : N2VCvtQ<1, 1, 0b1110, 0, 1, "vcvt", "f32.u32",
2781                         v4f32, v4i32, int_arm_neon_vcvtfxu2fp>;
2782
2783 // Vector Reverse.
2784
2785 //   VREV64   : Vector Reverse elements within 64-bit doublewords
2786
2787 class VREV64D<bits<2> op19_18, string OpcodeStr, string Dt, ValueType Ty>
2788   : N2V<0b11, 0b11, op19_18, 0b00, 0b00000, 0, 0, (outs DPR:$dst),
2789         (ins DPR:$src), IIC_VMOVD,
2790         OpcodeStr, Dt, "$dst, $src", "",
2791         [(set DPR:$dst, (Ty (NEONvrev64 (Ty DPR:$src))))]>;
2792 class VREV64Q<bits<2> op19_18, string OpcodeStr, string Dt, ValueType Ty>
2793   : N2V<0b11, 0b11, op19_18, 0b00, 0b00000, 1, 0, (outs QPR:$dst),
2794         (ins QPR:$src), IIC_VMOVD,
2795         OpcodeStr, Dt, "$dst, $src", "",
2796         [(set QPR:$dst, (Ty (NEONvrev64 (Ty QPR:$src))))]>;
2797
2798 def VREV64d8  : VREV64D<0b00, "vrev64", "8", v8i8>;
2799 def VREV64d16 : VREV64D<0b01, "vrev64", "16", v4i16>;
2800 def VREV64d32 : VREV64D<0b10, "vrev64", "32", v2i32>;
2801 def VREV64df  : VREV64D<0b10, "vrev64", "32", v2f32>;
2802
2803 def VREV64q8  : VREV64Q<0b00, "vrev64", "8", v16i8>;
2804 def VREV64q16 : VREV64Q<0b01, "vrev64", "16", v8i16>;
2805 def VREV64q32 : VREV64Q<0b10, "vrev64", "32", v4i32>;
2806 def VREV64qf  : VREV64Q<0b10, "vrev64", "32", v4f32>;
2807
2808 //   VREV32   : Vector Reverse elements within 32-bit words
2809
2810 class VREV32D<bits<2> op19_18, string OpcodeStr, string Dt, ValueType Ty>
2811   : N2V<0b11, 0b11, op19_18, 0b00, 0b00001, 0, 0, (outs DPR:$dst),
2812         (ins DPR:$src), IIC_VMOVD,
2813         OpcodeStr, Dt, "$dst, $src", "",
2814         [(set DPR:$dst, (Ty (NEONvrev32 (Ty DPR:$src))))]>;
2815 class VREV32Q<bits<2> op19_18, string OpcodeStr, string Dt, ValueType Ty>
2816   : N2V<0b11, 0b11, op19_18, 0b00, 0b00001, 1, 0, (outs QPR:$dst),
2817         (ins QPR:$src), IIC_VMOVD,
2818         OpcodeStr, Dt, "$dst, $src", "",
2819         [(set QPR:$dst, (Ty (NEONvrev32 (Ty QPR:$src))))]>;
2820
2821 def VREV32d8  : VREV32D<0b00, "vrev32", "8", v8i8>;
2822 def VREV32d16 : VREV32D<0b01, "vrev32", "16", v4i16>;
2823
2824 def VREV32q8  : VREV32Q<0b00, "vrev32", "8", v16i8>;
2825 def VREV32q16 : VREV32Q<0b01, "vrev32", "16", v8i16>;
2826
2827 //   VREV16   : Vector Reverse elements within 16-bit halfwords
2828
2829 class VREV16D<bits<2> op19_18, string OpcodeStr, string Dt, ValueType Ty>
2830   : N2V<0b11, 0b11, op19_18, 0b00, 0b00010, 0, 0, (outs DPR:$dst),
2831         (ins DPR:$src), IIC_VMOVD,
2832         OpcodeStr, Dt, "$dst, $src", "",
2833         [(set DPR:$dst, (Ty (NEONvrev16 (Ty DPR:$src))))]>;
2834 class VREV16Q<bits<2> op19_18, string OpcodeStr, string Dt, ValueType Ty>
2835   : N2V<0b11, 0b11, op19_18, 0b00, 0b00010, 1, 0, (outs QPR:$dst),
2836         (ins QPR:$src), IIC_VMOVD,
2837         OpcodeStr, Dt, "$dst, $src", "",
2838         [(set QPR:$dst, (Ty (NEONvrev16 (Ty QPR:$src))))]>;
2839
2840 def VREV16d8  : VREV16D<0b00, "vrev16", "8", v8i8>;
2841 def VREV16q8  : VREV16Q<0b00, "vrev16", "8", v16i8>;
2842
2843 // Other Vector Shuffles.
2844
2845 //   VEXT     : Vector Extract
2846
2847 class VEXTd<string OpcodeStr, string Dt, ValueType Ty>
2848   : N3V<0,1,0b11,{?,?,?,?},0,0, (outs DPR:$dst),
2849         (ins DPR:$lhs, DPR:$rhs, i32imm:$index), IIC_VEXTD,
2850         OpcodeStr, Dt, "$dst, $lhs, $rhs, $index", "",
2851         [(set DPR:$dst, (Ty (NEONvext (Ty DPR:$lhs),
2852                                       (Ty DPR:$rhs), imm:$index)))]>;
2853
2854 class VEXTq<string OpcodeStr, string Dt, ValueType Ty>
2855   : N3V<0,1,0b11,{?,?,?,?},1,0, (outs QPR:$dst),
2856         (ins QPR:$lhs, QPR:$rhs, i32imm:$index), IIC_VEXTQ,
2857         OpcodeStr, Dt, "$dst, $lhs, $rhs, $index", "",
2858         [(set QPR:$dst, (Ty (NEONvext (Ty QPR:$lhs),
2859                                       (Ty QPR:$rhs), imm:$index)))]>;
2860
2861 def VEXTd8  : VEXTd<"vext", "8",  v8i8>;
2862 def VEXTd16 : VEXTd<"vext", "16", v4i16>;
2863 def VEXTd32 : VEXTd<"vext", "32", v2i32>;
2864 def VEXTdf  : VEXTd<"vext", "32", v2f32>;
2865
2866 def VEXTq8  : VEXTq<"vext", "8",  v16i8>;
2867 def VEXTq16 : VEXTq<"vext", "16", v8i16>;
2868 def VEXTq32 : VEXTq<"vext", "32", v4i32>;
2869 def VEXTqf  : VEXTq<"vext", "32", v4f32>;
2870
2871 //   VTRN     : Vector Transpose
2872
2873 def  VTRNd8   : N2VDShuffle<0b00, 0b00001, "vtrn", "8">;
2874 def  VTRNd16  : N2VDShuffle<0b01, 0b00001, "vtrn", "16">;
2875 def  VTRNd32  : N2VDShuffle<0b10, 0b00001, "vtrn", "32">;
2876
2877 def  VTRNq8   : N2VQShuffle<0b00, 0b00001, IIC_VPERMQ, "vtrn", "8">;
2878 def  VTRNq16  : N2VQShuffle<0b01, 0b00001, IIC_VPERMQ, "vtrn", "16">;
2879 def  VTRNq32  : N2VQShuffle<0b10, 0b00001, IIC_VPERMQ, "vtrn", "32">;
2880
2881 //   VUZP     : Vector Unzip (Deinterleave)
2882
2883 def  VUZPd8   : N2VDShuffle<0b00, 0b00010, "vuzp", "8">;
2884 def  VUZPd16  : N2VDShuffle<0b01, 0b00010, "vuzp", "16">;
2885 def  VUZPd32  : N2VDShuffle<0b10, 0b00010, "vuzp", "32">;
2886
2887 def  VUZPq8   : N2VQShuffle<0b00, 0b00010, IIC_VPERMQ3, "vuzp", "8">;
2888 def  VUZPq16  : N2VQShuffle<0b01, 0b00010, IIC_VPERMQ3, "vuzp", "16">;
2889 def  VUZPq32  : N2VQShuffle<0b10, 0b00010, IIC_VPERMQ3, "vuzp", "32">;
2890
2891 //   VZIP     : Vector Zip (Interleave)
2892
2893 def  VZIPd8   : N2VDShuffle<0b00, 0b00011, "vzip", "8">;
2894 def  VZIPd16  : N2VDShuffle<0b01, 0b00011, "vzip", "16">;
2895 def  VZIPd32  : N2VDShuffle<0b10, 0b00011, "vzip", "32">;
2896
2897 def  VZIPq8   : N2VQShuffle<0b00, 0b00011, IIC_VPERMQ3, "vzip", "8">;
2898 def  VZIPq16  : N2VQShuffle<0b01, 0b00011, IIC_VPERMQ3, "vzip", "16">;
2899 def  VZIPq32  : N2VQShuffle<0b10, 0b00011, IIC_VPERMQ3, "vzip", "32">;
2900
2901 // Vector Table Lookup and Table Extension.
2902
2903 //   VTBL     : Vector Table Lookup
2904 def  VTBL1
2905   : N3V<1,1,0b11,0b1000,0,0, (outs DPR:$dst),
2906         (ins DPR:$tbl1, DPR:$src), IIC_VTB1,
2907         "vtbl", "8", "$dst, \\{$tbl1\\}, $src", "",
2908         [(set DPR:$dst, (v8i8 (int_arm_neon_vtbl1 DPR:$tbl1, DPR:$src)))]>;
2909 let hasExtraSrcRegAllocReq = 1 in {
2910 def  VTBL2
2911   : N3V<1,1,0b11,0b1001,0,0, (outs DPR:$dst),
2912         (ins DPR:$tbl1, DPR:$tbl2, DPR:$src), IIC_VTB2,
2913         "vtbl", "8", "$dst, \\{$tbl1, $tbl2\\}, $src", "",
2914         [(set DPR:$dst, (v8i8 (int_arm_neon_vtbl2
2915                                DPR:$tbl1, DPR:$tbl2, DPR:$src)))]>;
2916 def  VTBL3
2917   : N3V<1,1,0b11,0b1010,0,0, (outs DPR:$dst),
2918         (ins DPR:$tbl1, DPR:$tbl2, DPR:$tbl3, DPR:$src), IIC_VTB3,
2919         "vtbl", "8", "$dst, \\{$tbl1, $tbl2, $tbl3\\}, $src", "",
2920         [(set DPR:$dst, (v8i8 (int_arm_neon_vtbl3
2921                                DPR:$tbl1, DPR:$tbl2, DPR:$tbl3, DPR:$src)))]>;
2922 def  VTBL4
2923   : N3V<1,1,0b11,0b1011,0,0, (outs DPR:$dst),
2924         (ins DPR:$tbl1, DPR:$tbl2, DPR:$tbl3, DPR:$tbl4, DPR:$src), IIC_VTB4,
2925         "vtbl", "8", "$dst, \\{$tbl1, $tbl2, $tbl3, $tbl4\\}, $src", "",
2926         [(set DPR:$dst, (v8i8 (int_arm_neon_vtbl4 DPR:$tbl1, DPR:$tbl2,
2927                                DPR:$tbl3, DPR:$tbl4, DPR:$src)))]>;
2928 } // hasExtraSrcRegAllocReq = 1
2929
2930 //   VTBX     : Vector Table Extension
2931 def  VTBX1
2932   : N3V<1,1,0b11,0b1000,1,0, (outs DPR:$dst),
2933         (ins DPR:$orig, DPR:$tbl1, DPR:$src), IIC_VTBX1,
2934         "vtbx", "8", "$dst, \\{$tbl1\\}, $src", "$orig = $dst",
2935         [(set DPR:$dst, (v8i8 (int_arm_neon_vtbx1
2936                                DPR:$orig, DPR:$tbl1, DPR:$src)))]>;
2937 let hasExtraSrcRegAllocReq = 1 in {
2938 def  VTBX2
2939   : N3V<1,1,0b11,0b1001,1,0, (outs DPR:$dst),
2940         (ins DPR:$orig, DPR:$tbl1, DPR:$tbl2, DPR:$src), IIC_VTBX2,
2941         "vtbx", "8", "$dst, \\{$tbl1, $tbl2\\}, $src", "$orig = $dst",
2942         [(set DPR:$dst, (v8i8 (int_arm_neon_vtbx2
2943                                DPR:$orig, DPR:$tbl1, DPR:$tbl2, DPR:$src)))]>;
2944 def  VTBX3
2945   : N3V<1,1,0b11,0b1010,1,0, (outs DPR:$dst),
2946         (ins DPR:$orig, DPR:$tbl1, DPR:$tbl2, DPR:$tbl3, DPR:$src), IIC_VTBX3,
2947         "vtbx", "8", "$dst, \\{$tbl1, $tbl2, $tbl3\\}, $src", "$orig = $dst",
2948         [(set DPR:$dst, (v8i8 (int_arm_neon_vtbx3 DPR:$orig, DPR:$tbl1,
2949                                DPR:$tbl2, DPR:$tbl3, DPR:$src)))]>;
2950 def  VTBX4
2951   : N3V<1,1,0b11,0b1011,1,0, (outs DPR:$dst), (ins DPR:$orig, DPR:$tbl1,
2952         DPR:$tbl2, DPR:$tbl3, DPR:$tbl4, DPR:$src), IIC_VTBX4,
2953         "vtbx", "8", "$dst, \\{$tbl1, $tbl2, $tbl3, $tbl4\\}, $src",
2954         "$orig = $dst",
2955         [(set DPR:$dst, (v8i8 (int_arm_neon_vtbx4 DPR:$orig, DPR:$tbl1,
2956                                DPR:$tbl2, DPR:$tbl3, DPR:$tbl4, DPR:$src)))]>;
2957 } // hasExtraSrcRegAllocReq = 1
2958
2959 //===----------------------------------------------------------------------===//
2960 // NEON instructions for single-precision FP math
2961 //===----------------------------------------------------------------------===//
2962
2963 class N2VSPat<SDNode OpNode, ValueType ResTy, ValueType OpTy, NeonI Inst>
2964   : NEONFPPat<(ResTy (OpNode SPR:$a)),
2965               (EXTRACT_SUBREG (Inst (INSERT_SUBREG (OpTy (IMPLICIT_DEF)),
2966                                                    SPR:$a, arm_ssubreg_0)),
2967                               arm_ssubreg_0)>;
2968
2969 class N3VSPat<SDNode OpNode, NeonI Inst>
2970   : NEONFPPat<(f32 (OpNode SPR:$a, SPR:$b)),
2971               (EXTRACT_SUBREG (Inst (INSERT_SUBREG (v2f32 (IMPLICIT_DEF)),
2972                                                    SPR:$a, arm_ssubreg_0),
2973                                     (INSERT_SUBREG (v2f32 (IMPLICIT_DEF)),
2974                                                    SPR:$b, arm_ssubreg_0)),
2975                               arm_ssubreg_0)>;
2976
2977 class N3VSMulOpPat<SDNode MulNode, SDNode OpNode, NeonI Inst>
2978   : NEONFPPat<(f32 (OpNode SPR:$acc, (f32 (MulNode SPR:$a, SPR:$b)))),
2979               (EXTRACT_SUBREG (Inst (INSERT_SUBREG (v2f32 (IMPLICIT_DEF)),
2980                                                    SPR:$acc, arm_ssubreg_0),
2981                                     (INSERT_SUBREG (v2f32 (IMPLICIT_DEF)),
2982                                                    SPR:$a, arm_ssubreg_0),
2983                                     (INSERT_SUBREG (v2f32 (IMPLICIT_DEF)),
2984                                                    SPR:$b, arm_ssubreg_0)),
2985                               arm_ssubreg_0)>;
2986
2987 // These need separate instructions because they must use DPR_VFP2 register
2988 // class which have SPR sub-registers.
2989
2990 // Vector Add Operations used for single-precision FP
2991 let neverHasSideEffects = 1 in
2992 def VADDfd_sfp : N3VS<0,0,0b00,0b1101,0, "vadd", "f32", v2f32, v2f32, fadd, 1>;
2993 def : N3VSPat<fadd, VADDfd_sfp>;
2994
2995 // Vector Sub Operations used for single-precision FP
2996 let neverHasSideEffects = 1 in
2997 def VSUBfd_sfp : N3VS<0,0,0b10,0b1101,0, "vsub", "f32", v2f32, v2f32, fsub, 0>;
2998 def : N3VSPat<fsub, VSUBfd_sfp>;
2999
3000 // Vector Multiply Operations used for single-precision FP
3001 let neverHasSideEffects = 1 in
3002 def VMULfd_sfp : N3VS<1,0,0b00,0b1101,1, "vmul", "f32", v2f32, v2f32, fmul, 1>;
3003 def : N3VSPat<fmul, VMULfd_sfp>;
3004
3005 // Vector Multiply-Accumulate/Subtract used for single-precision FP
3006 // vml[as].f32 can cause 4-8 cycle stalls in following ASIMD instructions, so
3007 // we want to avoid them for now. e.g., alternating vmla/vadd instructions.
3008
3009 //let neverHasSideEffects = 1 in
3010 //def VMLAfd_sfp : N3VSMulOp<0,0,0b00,0b1101,1, IIC_VMACD, "vmla", "f32",
3011 //                            v2f32, fmul, fadd>;
3012 //def : N3VSMulOpPat<fmul, fadd, VMLAfd_sfp>;
3013
3014 //let neverHasSideEffects = 1 in
3015 //def VMLSfd_sfp : N3VSMulOp<0,0,0b10,0b1101,1, IIC_VMACD, "vmls", "f32",
3016 //                            v2f32, fmul, fsub>;
3017 //def : N3VSMulOpPat<fmul, fsub, VMLSfd_sfp>;
3018
3019 // Vector Absolute used for single-precision FP
3020 let neverHasSideEffects = 1 in
3021 def  VABSfd_sfp : N2VSInt<0b11, 0b11, 0b10, 0b01, 0b01110, 0, IIC_VUNAD,
3022                            "vabs", "f32", v2f32, v2f32, int_arm_neon_vabs>;
3023 def : N2VSPat<fabs, f32, v2f32, VABSfd_sfp>;
3024
3025 // Vector Negate used for single-precision FP
3026 let neverHasSideEffects = 1 in
3027 def  VNEGfd_sfp : N2V<0b11, 0b11, 0b10, 0b01, 0b01111, 0, 0,
3028                       (outs DPR_VFP2:$dst), (ins DPR_VFP2:$src), IIC_VUNAD,
3029                       "vneg", "f32", "$dst, $src", "", []>;
3030 def : N2VSPat<fneg, f32, v2f32, VNEGfd_sfp>;
3031
3032 // Vector Convert between single-precision FP and integer
3033 let neverHasSideEffects = 1 in
3034 def  VCVTf2sd_sfp : N2VS<0b11, 0b11, 0b10, 0b11, 0b01110, 0, "vcvt", "s32.f32",
3035                          v2i32, v2f32, fp_to_sint>;
3036 def : N2VSPat<arm_ftosi, f32, v2f32, VCVTf2sd_sfp>;
3037
3038 let neverHasSideEffects = 1 in
3039 def  VCVTf2ud_sfp : N2VS<0b11, 0b11, 0b10, 0b11, 0b01111, 0, "vcvt", "u32.f32",
3040                          v2i32, v2f32, fp_to_uint>;
3041 def : N2VSPat<arm_ftoui, f32, v2f32, VCVTf2ud_sfp>;
3042
3043 let neverHasSideEffects = 1 in
3044 def  VCVTs2fd_sfp : N2VS<0b11, 0b11, 0b10, 0b11, 0b01100, 0, "vcvt", "f32.s32",
3045                          v2f32, v2i32, sint_to_fp>;
3046 def : N2VSPat<arm_sitof, f32, v2i32, VCVTs2fd_sfp>;
3047
3048 let neverHasSideEffects = 1 in
3049 def  VCVTu2fd_sfp : N2VS<0b11, 0b11, 0b10, 0b11, 0b01101, 0, "vcvt", "f32.u32",
3050                          v2f32, v2i32, uint_to_fp>;
3051 def : N2VSPat<arm_uitof, f32, v2i32, VCVTu2fd_sfp>;
3052
3053 //===----------------------------------------------------------------------===//
3054 // Non-Instruction Patterns
3055 //===----------------------------------------------------------------------===//
3056
3057 // bit_convert
3058 def : Pat<(v1i64 (bitconvert (v2i32 DPR:$src))), (v1i64 DPR:$src)>;
3059 def : Pat<(v1i64 (bitconvert (v4i16 DPR:$src))), (v1i64 DPR:$src)>;
3060 def : Pat<(v1i64 (bitconvert (v8i8  DPR:$src))), (v1i64 DPR:$src)>;
3061 def : Pat<(v1i64 (bitconvert (f64   DPR:$src))), (v1i64 DPR:$src)>;
3062 def : Pat<(v1i64 (bitconvert (v2f32 DPR:$src))), (v1i64 DPR:$src)>;
3063 def : Pat<(v2i32 (bitconvert (v1i64 DPR:$src))), (v2i32 DPR:$src)>;
3064 def : Pat<(v2i32 (bitconvert (v4i16 DPR:$src))), (v2i32 DPR:$src)>;
3065 def : Pat<(v2i32 (bitconvert (v8i8  DPR:$src))), (v2i32 DPR:$src)>;
3066 def : Pat<(v2i32 (bitconvert (f64   DPR:$src))), (v2i32 DPR:$src)>;
3067 def : Pat<(v2i32 (bitconvert (v2f32 DPR:$src))), (v2i32 DPR:$src)>;
3068 def : Pat<(v4i16 (bitconvert (v1i64 DPR:$src))), (v4i16 DPR:$src)>;
3069 def : Pat<(v4i16 (bitconvert (v2i32 DPR:$src))), (v4i16 DPR:$src)>;
3070 def : Pat<(v4i16 (bitconvert (v8i8  DPR:$src))), (v4i16 DPR:$src)>;
3071 def : Pat<(v4i16 (bitconvert (f64   DPR:$src))), (v4i16 DPR:$src)>;
3072 def : Pat<(v4i16 (bitconvert (v2f32 DPR:$src))), (v4i16 DPR:$src)>;
3073 def : Pat<(v8i8  (bitconvert (v1i64 DPR:$src))), (v8i8  DPR:$src)>;
3074 def : Pat<(v8i8  (bitconvert (v2i32 DPR:$src))), (v8i8  DPR:$src)>;
3075 def : Pat<(v8i8  (bitconvert (v4i16 DPR:$src))), (v8i8  DPR:$src)>;
3076 def : Pat<(v8i8  (bitconvert (f64   DPR:$src))), (v8i8  DPR:$src)>;
3077 def : Pat<(v8i8  (bitconvert (v2f32 DPR:$src))), (v8i8  DPR:$src)>;
3078 def : Pat<(f64   (bitconvert (v1i64 DPR:$src))), (f64   DPR:$src)>;
3079 def : Pat<(f64   (bitconvert (v2i32 DPR:$src))), (f64   DPR:$src)>;
3080 def : Pat<(f64   (bitconvert (v4i16 DPR:$src))), (f64   DPR:$src)>;
3081 def : Pat<(f64   (bitconvert (v8i8  DPR:$src))), (f64   DPR:$src)>;
3082 def : Pat<(f64   (bitconvert (v2f32 DPR:$src))), (f64   DPR:$src)>;
3083 def : Pat<(v2f32 (bitconvert (f64   DPR:$src))), (v2f32 DPR:$src)>;
3084 def : Pat<(v2f32 (bitconvert (v1i64 DPR:$src))), (v2f32 DPR:$src)>;
3085 def : Pat<(v2f32 (bitconvert (v2i32 DPR:$src))), (v2f32 DPR:$src)>;
3086 def : Pat<(v2f32 (bitconvert (v4i16 DPR:$src))), (v2f32 DPR:$src)>;
3087 def : Pat<(v2f32 (bitconvert (v8i8  DPR:$src))), (v2f32 DPR:$src)>;
3088
3089 def : Pat<(v2i64 (bitconvert (v4i32 QPR:$src))), (v2i64 QPR:$src)>;
3090 def : Pat<(v2i64 (bitconvert (v8i16 QPR:$src))), (v2i64 QPR:$src)>;
3091 def : Pat<(v2i64 (bitconvert (v16i8 QPR:$src))), (v2i64 QPR:$src)>;
3092 def : Pat<(v2i64 (bitconvert (v2f64 QPR:$src))), (v2i64 QPR:$src)>;
3093 def : Pat<(v2i64 (bitconvert (v4f32 QPR:$src))), (v2i64 QPR:$src)>;
3094 def : Pat<(v4i32 (bitconvert (v2i64 QPR:$src))), (v4i32 QPR:$src)>;
3095 def : Pat<(v4i32 (bitconvert (v8i16 QPR:$src))), (v4i32 QPR:$src)>;
3096 def : Pat<(v4i32 (bitconvert (v16i8 QPR:$src))), (v4i32 QPR:$src)>;
3097 def : Pat<(v4i32 (bitconvert (v2f64 QPR:$src))), (v4i32 QPR:$src)>;
3098 def : Pat<(v4i32 (bitconvert (v4f32 QPR:$src))), (v4i32 QPR:$src)>;
3099 def : Pat<(v8i16 (bitconvert (v2i64 QPR:$src))), (v8i16 QPR:$src)>;
3100 def : Pat<(v8i16 (bitconvert (v4i32 QPR:$src))), (v8i16 QPR:$src)>;
3101 def : Pat<(v8i16 (bitconvert (v16i8 QPR:$src))), (v8i16 QPR:$src)>;
3102 def : Pat<(v8i16 (bitconvert (v2f64 QPR:$src))), (v8i16 QPR:$src)>;
3103 def : Pat<(v8i16 (bitconvert (v4f32 QPR:$src))), (v8i16 QPR:$src)>;
3104 def : Pat<(v16i8 (bitconvert (v2i64 QPR:$src))), (v16i8 QPR:$src)>;
3105 def : Pat<(v16i8 (bitconvert (v4i32 QPR:$src))), (v16i8 QPR:$src)>;
3106 def : Pat<(v16i8 (bitconvert (v8i16 QPR:$src))), (v16i8 QPR:$src)>;
3107 def : Pat<(v16i8 (bitconvert (v2f64 QPR:$src))), (v16i8 QPR:$src)>;
3108 def : Pat<(v16i8 (bitconvert (v4f32 QPR:$src))), (v16i8 QPR:$src)>;
3109 def : Pat<(v4f32 (bitconvert (v2i64 QPR:$src))), (v4f32 QPR:$src)>;
3110 def : Pat<(v4f32 (bitconvert (v4i32 QPR:$src))), (v4f32 QPR:$src)>;
3111 def : Pat<(v4f32 (bitconvert (v8i16 QPR:$src))), (v4f32 QPR:$src)>;
3112 def : Pat<(v4f32 (bitconvert (v16i8 QPR:$src))), (v4f32 QPR:$src)>;
3113 def : Pat<(v4f32 (bitconvert (v2f64 QPR:$src))), (v4f32 QPR:$src)>;
3114 def : Pat<(v2f64 (bitconvert (v2i64 QPR:$src))), (v2f64 QPR:$src)>;
3115 def : Pat<(v2f64 (bitconvert (v4i32 QPR:$src))), (v2f64 QPR:$src)>;
3116 def : Pat<(v2f64 (bitconvert (v8i16 QPR:$src))), (v2f64 QPR:$src)>;
3117 def : Pat<(v2f64 (bitconvert (v16i8 QPR:$src))), (v2f64 QPR:$src)>;
3118 def : Pat<(v2f64 (bitconvert (v4f32 QPR:$src))), (v2f64 QPR:$src)>;