Handle llvm.x86.sse2.maskmov.dqu in 64-bit.

[oota-llvm.git] / lib / Target / X86 / X86InstrSSE.td
diff --git a/lib/Target/X86/X86InstrSSE.td b/lib/Target/X86/X86InstrSSE.td

index af7694a1ee6fa4c6c3a3ea93fc6853146b84c0d3..2b685a704c59bdcf33cb58446ae43c7eea0ca566 100644 (file)
--- a/lib/Target/X86/X86InstrSSE.td
+++ b/lib/Target/X86/X86InstrSSE.td
@@ -98,19 +98,13 @@ def loadv2i64    : PatFrag<(ops node:$ptr), (v2i64 (load node:$ptr))>;
  
  // Like 'store', but always requires vector alignment.
  def alignedstore : PatFrag<(ops node:$val, node:$ptr),
-                           (st node:$val, node:$ptr), [{
-  StoreSDNode *ST = cast<StoreSDNode>(N);
-  return !ST->isTruncatingStore() &&
-         ST->getAddressingMode() == ISD::UNINDEXED &&
-         ST->getAlignment() >= 16;
+                           (store node:$val, node:$ptr), [{
+  return cast<StoreSDNode>(N)->getAlignment() >= 16;
  }]>;
  
  // Like 'load', but always requires vector alignment.
-def alignedload : PatFrag<(ops node:$ptr), (ld node:$ptr), [{
-  LoadSDNode *LD = cast<LoadSDNode>(N);
-  return LD->getExtensionType() == ISD::NON_EXTLOAD &&
-         LD->getAddressingMode() == ISD::UNINDEXED &&
-         LD->getAlignment() >= 16;
+def alignedload : PatFrag<(ops node:$ptr), (load node:$ptr), [{
+  return cast<LoadSDNode>(N)->getAlignment() >= 16;
  }]>;
  
  def alignedloadfsf32 : PatFrag<(ops node:$ptr), (f32   (alignedload node:$ptr))>;
@@ -125,11 +119,8 @@ def alignedloadv2i64 : PatFrag<(ops node:$ptr), (v2i64 (alignedload node:$ptr))>
  // be naturally aligned on some targets but not on others.
  // FIXME: Actually implement support for targets that don't require the
  //        alignment. This probably wants a subtarget predicate.
-def memop : PatFrag<(ops node:$ptr), (ld node:$ptr), [{
-  LoadSDNode *LD = cast<LoadSDNode>(N);
-  return LD->getExtensionType() == ISD::NON_EXTLOAD &&
-         LD->getAddressingMode() == ISD::UNINDEXED &&
-         LD->getAlignment() >= 16;
+def memop : PatFrag<(ops node:$ptr), (load node:$ptr), [{
+  return cast<LoadSDNode>(N)->getAlignment() >= 16;
  }]>;
  
  def memopfsf32 : PatFrag<(ops node:$ptr), (f32   (memop node:$ptr))>;
@@ -143,11 +134,8 @@ def memopv16i8 : PatFrag<(ops node:$ptr), (v16i8 (memop node:$ptr))>;
  // SSSE3 uses MMX registers for some instructions. They aren't aligned on a
  // 16-byte boundary.
  // FIXME: 8 byte alignment for mmx reads is not required
-def memop64 : PatFrag<(ops node:$ptr), (ld node:$ptr), [{
-  LoadSDNode *LD = cast<LoadSDNode>(N);
-  return LD->getExtensionType() == ISD::NON_EXTLOAD &&
-         LD->getAddressingMode() == ISD::UNINDEXED &&
-         LD->getAlignment() >= 8;
+def memop64 : PatFrag<(ops node:$ptr), (load node:$ptr), [{
+  return cast<LoadSDNode>(N)->getAlignment() >= 8;
  }]>;
  
  def memopv8i8  : PatFrag<(ops node:$ptr), (v8i8  (memop64 node:$ptr))>;
@@ -327,7 +315,7 @@ let Uses = [EFLAGS], usesCustomDAGSchedInserter = 1 in {
  let neverHasSideEffects = 1 in
  def MOVSSrr : SSI<0x10, MRMSrcReg, (outs FR32:$dst), (ins FR32:$src),
                    "movss\t{$src, $dst|$dst, $src}", []>;
-let isSimpleLoad = 1, isReMaterializable = 1, mayHaveSideEffects = 1 in
+let canFoldAsLoad = 1, isReMaterializable = 1, mayHaveSideEffects = 1 in
  def MOVSSrm : SSI<0x10, MRMSrcMem, (outs FR32:$dst), (ins f32mem:$src),
                    "movss\t{$src, $dst|$dst, $src}",
                    [(set FR32:$dst, (loadf32 addr:$src))]>;
@@ -410,12 +398,11 @@ let Constraints = "$src1 = $dst" in {
  }
  
  // Comparison instructions
-let Constraints = "$src1 = $dst" in {
-let neverHasSideEffects = 1 in
+let Constraints = "$src1 = $dst", neverHasSideEffects = 1 in {
    def CMPSSrr : SSIi8<0xC2, MRMSrcReg, 
                      (outs FR32:$dst), (ins FR32:$src1, FR32:$src, SSECC:$cc),
                      "cmp${cc}ss\t{$src, $dst|$dst, $src}", []>;
-let neverHasSideEffects = 1, mayLoad = 1 in
+let mayLoad = 1 in
    def CMPSSrm : SSIi8<0xC2, MRMSrcMem, 
                      (outs FR32:$dst), (ins FR32:$src1, f32mem:$src, SSECC:$cc),
                      "cmp${cc}ss\t{$src, $dst|$dst, $src}", []>;
@@ -446,24 +433,20 @@ let Constraints = "$src1 = $dst" in {
  }
  
  let Defs = [EFLAGS] in {
-def Int_UCOMISSrr: PSI<0x2E, MRMSrcReg, (outs),
-                                            (ins VR128:$src1, VR128:$src2),
+def Int_UCOMISSrr: PSI<0x2E, MRMSrcReg, (outs), (ins VR128:$src1, VR128:$src2),
                         "ucomiss\t{$src2, $src1|$src1, $src2}",
                         [(X86ucomi (v4f32 VR128:$src1), VR128:$src2),
                          (implicit EFLAGS)]>;
-def Int_UCOMISSrm: PSI<0x2E, MRMSrcMem, (outs),
-                                            (ins VR128:$src1, f128mem:$src2),
+def Int_UCOMISSrm: PSI<0x2E, MRMSrcMem, (outs),(ins VR128:$src1, f128mem:$src2),
                         "ucomiss\t{$src2, $src1|$src1, $src2}",
                         [(X86ucomi (v4f32 VR128:$src1), (load addr:$src2)),
                          (implicit EFLAGS)]>;
  
-def Int_COMISSrr: PSI<0x2F, MRMSrcReg, (outs),
-                                           (ins VR128:$src1, VR128:$src2),
+def Int_COMISSrr: PSI<0x2F, MRMSrcReg, (outs), (ins VR128:$src1, VR128:$src2),
                        "comiss\t{$src2, $src1|$src1, $src2}",
                        [(X86comi (v4f32 VR128:$src1), VR128:$src2),
                         (implicit EFLAGS)]>;
-def Int_COMISSrm: PSI<0x2F, MRMSrcMem, (outs),
-                                           (ins VR128:$src1, f128mem:$src2),
+def Int_COMISSrm: PSI<0x2F, MRMSrcMem, (outs), (ins VR128:$src1, f128mem:$src2),
                        "comiss\t{$src2, $src1|$src1, $src2}",
                        [(X86comi (v4f32 VR128:$src1), (load addr:$src2)),
                         (implicit EFLAGS)]>;
@@ -486,7 +469,7 @@ def FsMOVAPSrr : PSI<0x28, MRMSrcReg, (outs FR32:$dst), (ins FR32:$src),
  
  // Alias instruction to load FR32 from f128mem using movaps. Upper bits are
  // disregarded.
-let isSimpleLoad = 1 in
+let canFoldAsLoad = 1 in
  def FsMOVAPSrm : PSI<0x28, MRMSrcMem, (outs FR32:$dst), (ins f128mem:$src),
                       "movaps\t{$src, $dst|$dst, $src}",
                       [(set FR32:$dst, (alignedloadfsf32 addr:$src))]>;
@@ -494,34 +477,40 @@ def FsMOVAPSrm : PSI<0x28, MRMSrcMem, (outs FR32:$dst), (ins f128mem:$src),
  // Alias bitwise logical operations using SSE logical ops on packed FP values.
  let Constraints = "$src1 = $dst" in {
  let isCommutable = 1 in {
-  def FsANDPSrr : PSI<0x54, MRMSrcReg, (outs FR32:$dst), (ins FR32:$src1, FR32:$src2),
+  def FsANDPSrr : PSI<0x54, MRMSrcReg, (outs FR32:$dst),
+                                       (ins FR32:$src1, FR32:$src2),
                        "andps\t{$src2, $dst|$dst, $src2}",
                        [(set FR32:$dst, (X86fand FR32:$src1, FR32:$src2))]>;
-  def FsORPSrr  : PSI<0x56, MRMSrcReg, (outs FR32:$dst), (ins FR32:$src1, FR32:$src2),
+  def FsORPSrr  : PSI<0x56, MRMSrcReg, (outs FR32:$dst),
+                                       (ins FR32:$src1, FR32:$src2),
                        "orps\t{$src2, $dst|$dst, $src2}",
                        [(set FR32:$dst, (X86for FR32:$src1, FR32:$src2))]>;
-  def FsXORPSrr : PSI<0x57, MRMSrcReg, (outs FR32:$dst), (ins FR32:$src1, FR32:$src2),
+  def FsXORPSrr : PSI<0x57, MRMSrcReg, (outs FR32:$dst),
+                                       (ins FR32:$src1, FR32:$src2),
                        "xorps\t{$src2, $dst|$dst, $src2}",
                        [(set FR32:$dst, (X86fxor FR32:$src1, FR32:$src2))]>;
  }
  
-def FsANDPSrm : PSI<0x54, MRMSrcMem, (outs FR32:$dst), (ins FR32:$src1, f128mem:$src2),
+def FsANDPSrm : PSI<0x54, MRMSrcMem, (outs FR32:$dst),
+                                     (ins FR32:$src1, f128mem:$src2),
                      "andps\t{$src2, $dst|$dst, $src2}",
                      [(set FR32:$dst, (X86fand FR32:$src1,
                                        (memopfsf32 addr:$src2)))]>;
-def FsORPSrm  : PSI<0x56, MRMSrcMem, (outs FR32:$dst), (ins FR32:$src1, f128mem:$src2),
+def FsORPSrm  : PSI<0x56, MRMSrcMem, (outs FR32:$dst),
+                                     (ins FR32:$src1, f128mem:$src2),
                      "orps\t{$src2, $dst|$dst, $src2}",
                      [(set FR32:$dst, (X86for FR32:$src1,
                                        (memopfsf32 addr:$src2)))]>;
-def FsXORPSrm : PSI<0x57, MRMSrcMem, (outs FR32:$dst), (ins FR32:$src1, f128mem:$src2),
+def FsXORPSrm : PSI<0x57, MRMSrcMem, (outs FR32:$dst),
+                                     (ins FR32:$src1, f128mem:$src2),
                      "xorps\t{$src2, $dst|$dst, $src2}",
                      [(set FR32:$dst, (X86fxor FR32:$src1,
                                        (memopfsf32 addr:$src2)))]>;
+
  let neverHasSideEffects = 1 in {
  def FsANDNPSrr : PSI<0x55, MRMSrcReg,
                       (outs FR32:$dst), (ins FR32:$src1, FR32:$src2),
                       "andnps\t{$src2, $dst|$dst, $src2}", []>;
-                     
  let mayLoad = 1 in
  def FsANDNPSrm : PSI<0x55, MRMSrcMem,
                       (outs FR32:$dst), (ins FR32:$src1, f128mem:$src2),
@@ -679,7 +668,7 @@ defm MIN : sse1_fp_binop_rm<0x5D, "min", X86fmin,
  let neverHasSideEffects = 1 in 
  def MOVAPSrr : PSI<0x28, MRMSrcReg, (outs VR128:$dst), (ins VR128:$src),
                     "movaps\t{$src, $dst|$dst, $src}", []>;
-let isSimpleLoad = 1, isReMaterializable = 1, mayHaveSideEffects = 1 in
+let canFoldAsLoad = 1, isReMaterializable = 1, mayHaveSideEffects = 1 in
  def MOVAPSrm : PSI<0x28, MRMSrcMem, (outs VR128:$dst), (ins f128mem:$src),
                     "movaps\t{$src, $dst|$dst, $src}",
                     [(set VR128:$dst, (alignedloadv4f32 addr:$src))]>;
@@ -691,7 +680,7 @@ def MOVAPSmr : PSI<0x29, MRMDestMem, (outs), (ins f128mem:$dst, VR128:$src),
  let neverHasSideEffects = 1 in
  def MOVUPSrr : PSI<0x10, MRMSrcReg, (outs VR128:$dst), (ins VR128:$src),
                     "movups\t{$src, $dst|$dst, $src}", []>;
-let isSimpleLoad = 1 in
+let canFoldAsLoad = 1 in
  def MOVUPSrm : PSI<0x10, MRMSrcMem, (outs VR128:$dst), (ins f128mem:$src),
                     "movups\t{$src, $dst|$dst, $src}",
                     [(set VR128:$dst, (loadv4f32 addr:$src))]>;
@@ -700,7 +689,7 @@ def MOVUPSmr : PSI<0x11, MRMDestMem, (outs), (ins f128mem:$dst, VR128:$src),
                     [(store (v4f32 VR128:$src), addr:$dst)]>;
  
  // Intrinsic forms of MOVUPS load and store
-let isSimpleLoad = 1 in
+let canFoldAsLoad = 1 in
  def MOVUPSrm_Int : PSI<0x10, MRMSrcMem, (outs VR128:$dst), (ins f128mem:$src),
                         "movups\t{$src, $dst|$dst, $src}",
                         [(set VR128:$dst, (int_x86_sse_loadu_ps addr:$src))]>;
@@ -744,7 +733,7 @@ def MOVHPSmr : PSI<0x17, MRMDestMem, (outs), (ins f64mem:$dst, VR128:$src),
                       addr:$dst)]>;
  
  let Constraints = "$src1 = $dst" in {
-let AddedComplexity = 15 in {
+let AddedComplexity = 20 in {
  def MOVLHPSrr : PSI<0x16, MRMSrcReg, (outs VR128:$dst), (ins VR128:$src1, VR128:$src2),
                      "movlhps\t{$src2, $dst|$dst, $src2}",
                      [(set VR128:$dst,
@@ -759,7 +748,7 @@ def MOVHLPSrr : PSI<0x12, MRMSrcReg, (outs VR128:$dst), (ins VR128:$src1, VR128:
  } // AddedComplexity
  } // Constraints = "$src1 = $dst"
  
-let AddedComplexity = 15 in
+let AddedComplexity = 20 in
  def : Pat<(v4f32 (vector_shuffle VR128:$src, (undef), MOVDDUP_shuffle_mask)),
            (MOVLHPSrr VR128:$src, VR128:$src)>, Requires<[HasSSE1]>;
  
@@ -999,7 +988,9 @@ def STMXCSR : PSI<0xAE, MRM3m, (outs), (ins i32mem:$dst),
                    "stmxcsr\t$dst", [(int_x86_sse_stmxcsr addr:$dst)]>;
  
  // Alias instructions that map zero vector to pxor / xorp* for sse.
-let isReMaterializable = 1 in
+// We set canFoldAsLoad because this can be converted to a constant-pool
+// load of an all-zeros value if folding it would be beneficial.
+let isReMaterializable = 1, isAsCheapAsAMove = 1, canFoldAsLoad = 1 in
  def V_SET0 : PSI<0x57, MRMInitReg, (outs VR128:$dst), (ins),
                   "xorps\t$dst, $dst",
                   [(set VR128:$dst, (v4i32 immAllZerosV))]>;
@@ -1013,6 +1004,7 @@ let Predicates = [HasSSE1] in {
  }
  
  // FR32 to 128-bit vector conversion.
+let isAsCheapAsAMove = 1 in
  def MOVSS2PSrr : SSI<0x10, MRMSrcReg, (outs VR128:$dst), (ins FR32:$src),
                        "movss\t{$src, $dst|$dst, $src}",
                        [(set VR128:$dst,
@@ -1027,6 +1019,7 @@ def MOVSS2PSrm : SSI<0x10, MRMSrcMem, (outs VR128:$dst), (ins f32mem:$src),
  // like this:
  // def : Pat<(f32 (vector_extract (v4f32 VR128:$src), (iPTR 0))),
  //           (f32 FR32:$src)>;
+let isAsCheapAsAMove = 1 in
  def MOVPS2SSrr : SSI<0x10, MRMSrcReg, (outs FR32:$dst), (ins VR128:$src),
                       "movss\t{$src, $dst|$dst, $src}",
                       [(set FR32:$dst, (vector_extract (v4f32 VR128:$src),
@@ -1073,7 +1066,7 @@ def : Pat<(v4f32 (X86vzmovl (loadv4f32 addr:$src))),
  let neverHasSideEffects = 1 in
  def MOVSDrr : SDI<0x10, MRMSrcReg, (outs FR64:$dst), (ins FR64:$src),
                    "movsd\t{$src, $dst|$dst, $src}", []>;
-let isSimpleLoad = 1, isReMaterializable = 1, mayHaveSideEffects = 1 in
+let canFoldAsLoad = 1, isReMaterializable = 1, mayHaveSideEffects = 1 in
  def MOVSDrm : SDI<0x10, MRMSrcMem, (outs FR64:$dst), (ins f64mem:$src),
                    "movsd\t{$src, $dst|$dst, $src}",
                    [(set FR64:$dst, (loadf64 addr:$src))]>;
@@ -1172,7 +1165,7 @@ def UCOMISDrm: PDI<0x2E, MRMSrcMem, (outs), (ins FR64:$src1, f64mem:$src2),
                     "ucomisd\t{$src2, $src1|$src1, $src2}",
                     [(X86cmp FR64:$src1, (loadf64 addr:$src2)),
                      (implicit EFLAGS)]>;
-}
+} // Defs = [EFLAGS]
  
  // Aliases to match intrinsics which expect XMM operand(s).
  let Constraints = "$src1 = $dst" in {
@@ -1206,7 +1199,7 @@ def Int_COMISDrm: PDI<0x2F, MRMSrcMem, (outs), (ins VR128:$src1, f128mem:$src2),
                        "comisd\t{$src2, $src1|$src1, $src2}",
                        [(X86comi (v2f64 VR128:$src1), (load addr:$src2)),
                         (implicit EFLAGS)]>;
-} // Defs = EFLAGS]
+} // Defs = [EFLAGS]
  
  // Aliases of packed SSE2 instructions for scalar use. These all have names that
  // start with 'Fs'.
@@ -1225,7 +1218,7 @@ def FsMOVAPDrr : PDI<0x28, MRMSrcReg, (outs FR64:$dst), (ins FR64:$src),
  
  // Alias instruction to load FR64 from f128mem using movapd. Upper bits are
  // disregarded.
-let isSimpleLoad = 1 in
+let canFoldAsLoad = 1 in
  def FsMOVAPDrm : PDI<0x28, MRMSrcMem, (outs FR64:$dst), (ins f128mem:$src),
                       "movapd\t{$src, $dst|$dst, $src}",
                       [(set FR64:$dst, (alignedloadfsf64 addr:$src))]>;
@@ -1296,31 +1289,36 @@ multiclass basic_sse2_fp_binop_rm<bits<8> opc, string OpcodeStr,
    }
  
    // Scalar operation, reg+mem.
-  def SDrm : SDI<opc, MRMSrcMem, (outs FR64:$dst), (ins FR64:$src1, f64mem:$src2),
+  def SDrm : SDI<opc, MRMSrcMem, (outs FR64:$dst),
+                                 (ins FR64:$src1, f64mem:$src2),
                   !strconcat(OpcodeStr, "sd\t{$src2, $dst|$dst, $src2}"),
                   [(set FR64:$dst, (OpNode FR64:$src1, (load addr:$src2)))]>;
                   
    // Vector operation, reg+reg.
-  def PDrr : PDI<opc, MRMSrcReg, (outs VR128:$dst), (ins VR128:$src1, VR128:$src2),
+  def PDrr : PDI<opc, MRMSrcReg, (outs VR128:$dst),
+                                 (ins VR128:$src1, VR128:$src2),
                 !strconcat(OpcodeStr, "pd\t{$src2, $dst|$dst, $src2}"),
                 [(set VR128:$dst, (v2f64 (OpNode VR128:$src1, VR128:$src2)))]> {
      let isCommutable = Commutable;
    }
  
    // Vector operation, reg+mem.
-  def PDrm : PDI<opc, MRMSrcMem, (outs VR128:$dst), (ins VR128:$src1, f128mem:$src2),
+  def PDrm : PDI<opc, MRMSrcMem, (outs VR128:$dst),
+                                 (ins VR128:$src1, f128mem:$src2),
                   !strconcat(OpcodeStr, "pd\t{$src2, $dst|$dst, $src2}"),
-                 [(set VR128:$dst, (OpNode VR128:$src1, (memopv2f64 addr:$src2)))]>;
+             [(set VR128:$dst, (OpNode VR128:$src1, (memopv2f64 addr:$src2)))]>;
  
    // Intrinsic operation, reg+reg.
-  def SDrr_Int : SDI<opc, MRMSrcReg, (outs VR128:$dst), (ins VR128:$src1, VR128:$src2),
+  def SDrr_Int : SDI<opc, MRMSrcReg, (outs VR128:$dst),
+                                     (ins VR128:$src1, VR128:$src2),
                       !strconcat(OpcodeStr, "sd\t{$src2, $dst|$dst, $src2}"),
                       [(set VR128:$dst, (F64Int VR128:$src1, VR128:$src2))]> {
      let isCommutable = Commutable;
    }
  
    // Intrinsic operation, reg+mem.
-  def SDrm_Int : SDI<opc, MRMSrcMem, (outs VR128:$dst), (ins VR128:$src1, sdmem:$src2),
+  def SDrm_Int : SDI<opc, MRMSrcMem, (outs VR128:$dst),
+                                     (ins VR128:$src1, sdmem:$src2),
                       !strconcat(OpcodeStr, "sd\t{$src2, $dst|$dst, $src2}"),
                       [(set VR128:$dst, (F64Int VR128:$src1,
                                                 sse_load_f64:$src2))]>;
@@ -1420,7 +1418,7 @@ defm MIN : sse2_fp_binop_rm<0x5D, "min", X86fmin,
  let neverHasSideEffects = 1 in
  def MOVAPDrr : PDI<0x28, MRMSrcReg, (outs VR128:$dst), (ins VR128:$src),
                     "movapd\t{$src, $dst|$dst, $src}", []>;
-let isSimpleLoad = 1, isReMaterializable = 1, mayHaveSideEffects = 1 in
+let canFoldAsLoad = 1, isReMaterializable = 1, mayHaveSideEffects = 1 in
  def MOVAPDrm : PDI<0x28, MRMSrcMem, (outs VR128:$dst), (ins f128mem:$src),
                     "movapd\t{$src, $dst|$dst, $src}",
                     [(set VR128:$dst, (alignedloadv2f64 addr:$src))]>;
@@ -1432,7 +1430,7 @@ def MOVAPDmr : PDI<0x29, MRMDestMem, (outs), (ins f128mem:$dst, VR128:$src),
  let neverHasSideEffects = 1 in
  def MOVUPDrr : PDI<0x10, MRMSrcReg, (outs VR128:$dst), (ins VR128:$src),
                     "movupd\t{$src, $dst|$dst, $src}", []>;
-let isSimpleLoad = 1 in
+let canFoldAsLoad = 1 in
  def MOVUPDrm : PDI<0x10, MRMSrcMem, (outs VR128:$dst), (ins f128mem:$src),
                     "movupd\t{$src, $dst|$dst, $src}",
                     [(set VR128:$dst, (loadv2f64 addr:$src))]>;
@@ -1800,7 +1798,7 @@ let Constraints = "$src1 = $dst" in {
  let neverHasSideEffects = 1 in
  def MOVDQArr : PDI<0x6F, MRMSrcReg, (outs VR128:$dst), (ins VR128:$src),
                     "movdqa\t{$src, $dst|$dst, $src}", []>;
-let isSimpleLoad = 1, mayLoad = 1 in
+let canFoldAsLoad = 1, mayLoad = 1 in
  def MOVDQArm : PDI<0x6F, MRMSrcMem, (outs VR128:$dst), (ins i128mem:$src),
                     "movdqa\t{$src, $dst|$dst, $src}",
                     [/*(set VR128:$dst, (alignedloadv2i64 addr:$src))*/]>;
@@ -1808,7 +1806,7 @@ let mayStore = 1 in
  def MOVDQAmr : PDI<0x7F, MRMDestMem, (outs), (ins i128mem:$dst, VR128:$src),
                     "movdqa\t{$src, $dst|$dst, $src}",
                     [/*(alignedstore (v2i64 VR128:$src), addr:$dst)*/]>;
-let isSimpleLoad = 1, mayLoad = 1 in
+let canFoldAsLoad = 1, mayLoad = 1 in
  def MOVDQUrm :   I<0x6F, MRMSrcMem, (outs VR128:$dst), (ins i128mem:$src),
                     "movdqu\t{$src, $dst|$dst, $src}",
                     [/*(set VR128:$dst, (loadv2i64 addr:$src))*/]>,
@@ -1820,7 +1818,7 @@ def MOVDQUmr :   I<0x7F, MRMDestMem, (outs), (ins i128mem:$dst, VR128:$src),
                   XS, Requires<[HasSSE2]>;
  
  // Intrinsic forms of MOVDQU load and store
-let isSimpleLoad = 1 in
+let canFoldAsLoad = 1 in
  def MOVDQUrm_Int :   I<0x6F, MRMSrcMem, (outs VR128:$dst), (ins i128mem:$src),
                         "movdqu\t{$src, $dst|$dst, $src}",
                         [(set VR128:$dst, (int_x86_sse2_loadu_dq addr:$src))]>,
@@ -1969,6 +1967,10 @@ let Predicates = [HasSSE2] in {
              (v2i64 (PSLLDQri VR128:$src1, (PSxLDQ_imm imm:$src2)))>;
    def : Pat<(int_x86_sse2_psrl_dq VR128:$src1, imm:$src2),
              (v2i64 (PSRLDQri VR128:$src1, (PSxLDQ_imm imm:$src2)))>;
+  def : Pat<(int_x86_sse2_psll_dq_bs VR128:$src1, imm:$src2),
+            (v2i64 (PSLLDQri VR128:$src1, imm:$src2))>;
+  def : Pat<(int_x86_sse2_psrl_dq_bs VR128:$src1, imm:$src2),
+            (v2i64 (PSRLDQri VR128:$src1, imm:$src2))>;
    def : Pat<(v2f64 (X86fsrl VR128:$src1, i32immSExt8:$src2)),
              (v2f64 (PSRLDQri VR128:$src1, (PSxLDQ_imm imm:$src2)))>;
  
@@ -2229,6 +2231,11 @@ def MASKMOVDQU : PDI<0xF7, MRMSrcReg, (outs), (ins VR128:$src, VR128:$mask),
                       "maskmovdqu\t{$mask, $src|$src, $mask}",
                       [(int_x86_sse2_maskmov_dqu VR128:$src, VR128:$mask, EDI)]>;
  
+let Uses = [RDI] in
+def MASKMOVDQU64 : PDI<0xF7, MRMSrcReg, (outs), (ins VR128:$src, VR128:$mask),
+                     "maskmovdqu\t{$mask, $src|$src, $mask}",
+                     [(int_x86_sse2_maskmov_dqu VR128:$src, VR128:$mask, RDI)]>;
+
  // Non-temporal stores
  def MOVNTPDmr : PDI<0x2B, MRMDestMem, (outs), (ins i128mem:$dst, VR128:$src),
                      "movntpd\t{$src, $dst|$dst, $src}",
@@ -2247,9 +2254,9 @@ def CLFLUSH : I<0xAE, MRM7m, (outs), (ins i8mem:$src),
                TB, Requires<[HasSSE2]>;
  
  // Load, store, and memory fence
-def LFENCE : I<0xAE, MRM5m, (outs), (ins),
+def LFENCE : I<0xAE, MRM5r, (outs), (ins),
                 "lfence", [(int_x86_sse2_lfence)]>, TB, Requires<[HasSSE2]>;
-def MFENCE : I<0xAE, MRM6m, (outs), (ins),
+def MFENCE : I<0xAE, MRM6r, (outs), (ins),
                 "mfence", [(int_x86_sse2_mfence)]>, TB, Requires<[HasSSE2]>;
  
  //TODO: custom lower this so as to never even generate the noop
@@ -2261,12 +2268,15 @@ def : Pat<(membarrier (i8 imm:$ll), (i8 imm:$ls), (i8 imm:$sl), (i8 imm:$ss),
             (i8 1)), (MFENCE)>;
  
  // Alias instructions that map zero vector to pxor / xorp* for sse.
-let isReMaterializable = 1, isAsCheapAsAMove = 1 in
+// We set canFoldAsLoad because this can be converted to a constant-pool
+// load of an all-ones value if folding it would be beneficial.
+let isReMaterializable = 1, isAsCheapAsAMove = 1, canFoldAsLoad = 1 in
    def V_SETALLONES : PDI<0x76, MRMInitReg, (outs VR128:$dst), (ins),
                           "pcmpeqd\t$dst, $dst",
                           [(set VR128:$dst, (v4i32 immAllOnesV))]>;
  
  // FR64 to 128-bit vector conversion.
+let isAsCheapAsAMove = 1 in
  def MOVSD2PDrr : SDI<0x10, MRMSrcReg, (outs VR128:$dst), (ins FR64:$src),
                        "movsd\t{$src, $dst|$dst, $src}",
                        [(set VR128:$dst,
@@ -2309,6 +2319,7 @@ def MOVPQI2QImr : PDI<0xD6, MRMDestMem, (outs), (ins i64mem:$dst, VR128:$src),
  // like this:
  // def : Pat<(f32 (vector_extract (v4f32 VR128:$src), (iPTR 0))),
  //           (f32 FR32:$src)>;
+let isAsCheapAsAMove = 1 in
  def MOVPD2SDrr : SDI<0x10, MRMSrcReg, (outs FR64:$dst), (ins VR128:$src),
                       "movsd\t{$src, $dst|$dst, $src}",
                       [(set FR64:$dst, (vector_extract (v2f64 VR128:$src),
@@ -2887,11 +2898,11 @@ let AddedComplexity = 15 in {
  def : Pat<(v2f64 (X86vzmovl (v2f64 (scalar_to_vector FR64:$src)))),
            (MOVLSD2PDrr (V_SET0), FR64:$src)>, Requires<[HasSSE2]>;
  def : Pat<(v4f32 (X86vzmovl (v4f32 (scalar_to_vector FR32:$src)))),
-          (MOVLSS2PSrr (V_SET0), FR32:$src)>, Requires<[HasSSE2]>;
+          (MOVLSS2PSrr (V_SET0), FR32:$src)>, Requires<[HasSSE1]>;
  def : Pat<(v4f32 (X86vzmovl (v4f32 VR128:$src))),
-          (MOVLPSrr (V_SET0), VR128:$src)>, Requires<[HasSSE2]>;
+          (MOVLPSrr (V_SET0), VR128:$src)>, Requires<[HasSSE1]>;
  def : Pat<(v4i32 (X86vzmovl (v4i32 VR128:$src))),
-          (MOVLPSrr (V_SET0), VR128:$src)>, Requires<[HasSSE2]>;
+          (MOVLPSrr (V_SET0), VR128:$src)>, Requires<[HasSSE1]>;
  }
  
  // Splat v2f64 / v2i64
@@ -2921,6 +2932,7 @@ def : Pat<(vector_shuffle (bc_v4i32 (memopv4f32 addr:$src1)), (undef),
             SHUFP_unary_shuffle_mask:$sm),
            (PSHUFDmi addr:$src1, SHUFP_unary_shuffle_mask:$sm)>,
        Requires<[HasSSE2]>;
+
  // Special binary v4i32 shuffle cases with SHUFPS.
  def : Pat<(v4i32 (vector_shuffle VR128:$src1, (v4i32 VR128:$src2),
             PSHUFD_binary_shuffle_mask:$sm)),
@@ -2937,11 +2949,21 @@ def : Pat<(v2i64 (vector_shuffle VR128:$src1, VR128:$src2,
            Requires<[HasSSE2]>;
  // Special unary SHUFPDrri case.
  def : Pat<(v2i64 (vector_shuffle VR128:$src1, (undef),
-           SHUFP_unary_shuffle_mask:$sm)),
+                  SHUFP_unary_shuffle_mask:$sm)),
            (SHUFPDrri VR128:$src1, VR128:$src1, SHUFP_unary_shuffle_mask:$sm)>,
        Requires<[HasSSE2]>;
  
  // vector_shuffle v1, <undef>, <0, 0, 1, 1, ...>
+let AddedComplexity = 15 in {
+def : Pat<(v4i32 (vector_shuffle VR128:$src, (undef),
+                                 UNPCKL_v_undef_shuffle_mask:$sm)),
+          (PSHUFDri VR128:$src, PSHUFD_shuffle_mask:$sm)>,
+          Requires<[OptForSpeed, HasSSE2]>;
+def : Pat<(v4f32 (vector_shuffle VR128:$src, (undef),
+                                 UNPCKL_v_undef_shuffle_mask:$sm)),
+          (PSHUFDri VR128:$src, PSHUFD_shuffle_mask:$sm)>,
+          Requires<[OptForSpeed, HasSSE2]>;
+}
  let AddedComplexity = 10 in {
  def : Pat<(v4f32 (vector_shuffle VR128:$src, (undef),
                    UNPCKL_v_undef_shuffle_mask)),
@@ -2958,6 +2980,16 @@ def : Pat<(v4i32 (vector_shuffle VR128:$src, (undef),
  }
  
  // vector_shuffle v1, <undef>, <2, 2, 3, 3, ...>
+let AddedComplexity = 15 in {
+def : Pat<(v4i32 (vector_shuffle VR128:$src, (undef),
+                 UNPCKH_v_undef_shuffle_mask:$sm)),
+          (PSHUFDri VR128:$src, PSHUFD_shuffle_mask:$sm)>,
+          Requires<[OptForSpeed, HasSSE2]>;
+def : Pat<(v4f32 (vector_shuffle VR128:$src, (undef),
+                 UNPCKH_v_undef_shuffle_mask:$sm)),
+          (PSHUFDri VR128:$src, PSHUFD_shuffle_mask:$sm)>,
+          Requires<[OptForSpeed, HasSSE2]>;
+}
  let AddedComplexity = 10 in {
  def : Pat<(v4f32 (vector_shuffle VR128:$src, (undef),
                    UNPCKH_v_undef_shuffle_mask)),
@@ -2973,7 +3005,7 @@ def : Pat<(v4i32 (vector_shuffle VR128:$src, (undef),
            (PUNPCKHDQrr VR128:$src, VR128:$src)>, Requires<[HasSSE2]>;
  }
  
-let AddedComplexity = 15 in {
+let AddedComplexity = 20 in {
  // vector_shuffle v1, v2 <0, 1, 4, 5> using MOVLHPS
  def : Pat<(v4i32 (vector_shuffle VR128:$src1, VR128:$src2,
                    MOVHP_shuffle_mask)),
@@ -2996,62 +3028,60 @@ def : Pat<(v4i32 (vector_shuffle VR128:$src1, (undef),
  let AddedComplexity = 20 in {
  // vector_shuffle v1, (load v2) <4, 5, 2, 3> using MOVLPS
  // vector_shuffle v1, (load v2) <0, 1, 4, 5> using MOVHPS
-def : Pat<(v4f32 (vector_shuffle VR128:$src1, (memop addr:$src2),
+def : Pat<(v4f32 (vector_shuffle VR128:$src1, (load addr:$src2),
                    MOVLP_shuffle_mask)),
            (MOVLPSrm VR128:$src1, addr:$src2)>, Requires<[HasSSE1]>;
-def : Pat<(v2f64 (vector_shuffle VR128:$src1, (memop addr:$src2),
+def : Pat<(v2f64 (vector_shuffle VR128:$src1, (load addr:$src2),
                    MOVLP_shuffle_mask)),
            (MOVLPDrm VR128:$src1, addr:$src2)>, Requires<[HasSSE2]>;
-def : Pat<(v4f32 (vector_shuffle VR128:$src1, (memop addr:$src2),
+def : Pat<(v4f32 (vector_shuffle VR128:$src1, (load addr:$src2),
                    MOVHP_shuffle_mask)),
            (MOVHPSrm VR128:$src1, addr:$src2)>, Requires<[HasSSE1]>;
-def : Pat<(v2f64 (vector_shuffle VR128:$src1, (memop addr:$src2),
+def : Pat<(v2f64 (vector_shuffle VR128:$src1, (load addr:$src2),
                    MOVHP_shuffle_mask)),
            (MOVHPDrm VR128:$src1, addr:$src2)>, Requires<[HasSSE2]>;
  
-def : Pat<(v4i32 (vector_shuffle VR128:$src1,
-                                 (bc_v4i32 (memopv2i64 addr:$src2)),
+def : Pat<(v4i32 (vector_shuffle VR128:$src1, (load addr:$src2),
                    MOVLP_shuffle_mask)),
            (MOVLPSrm VR128:$src1, addr:$src2)>, Requires<[HasSSE2]>;
-def : Pat<(v2i64 (vector_shuffle VR128:$src1, (memop addr:$src2),
+def : Pat<(v2i64 (vector_shuffle VR128:$src1, (load addr:$src2),
                    MOVLP_shuffle_mask)),
            (MOVLPDrm VR128:$src1, addr:$src2)>, Requires<[HasSSE2]>;
-def : Pat<(v4i32 (vector_shuffle VR128:$src1,
-                                 (bc_v4i32 (memopv2i64 addr:$src2)),
+def : Pat<(v4i32 (vector_shuffle VR128:$src1, (load addr:$src2),
                    MOVHP_shuffle_mask)),
            (MOVHPSrm VR128:$src1, addr:$src2)>, Requires<[HasSSE1]>;
-def : Pat<(v2i64 (vector_shuffle VR128:$src1, (memop addr:$src2),
+def : Pat<(v2i64 (vector_shuffle VR128:$src1, (load addr:$src2),
                    MOVHP_shuffle_mask)),
            (MOVHPDrm VR128:$src1, addr:$src2)>, Requires<[HasSSE2]>;
  }
  
  // (store (vector_shuffle (load addr), v2, <4, 5, 2, 3>), addr) using MOVLPS
  // (store (vector_shuffle (load addr), v2, <0, 1, 4, 5>), addr) using MOVHPS
-def : Pat<(store (v4f32 (vector_shuffle (memop addr:$src1), VR128:$src2,
+def : Pat<(store (v4f32 (vector_shuffle (load addr:$src1), VR128:$src2,
                           MOVLP_shuffle_mask)), addr:$src1),
            (MOVLPSmr addr:$src1, VR128:$src2)>, Requires<[HasSSE1]>;
-def : Pat<(store (v2f64 (vector_shuffle (memop addr:$src1), VR128:$src2,
+def : Pat<(store (v2f64 (vector_shuffle (load addr:$src1), VR128:$src2,
                           MOVLP_shuffle_mask)), addr:$src1),
            (MOVLPDmr addr:$src1, VR128:$src2)>, Requires<[HasSSE2]>;
-def : Pat<(store (v4f32 (vector_shuffle (memop addr:$src1), VR128:$src2,
+def : Pat<(store (v4f32 (vector_shuffle (load addr:$src1), VR128:$src2,
                           MOVHP_shuffle_mask)), addr:$src1),
            (MOVHPSmr addr:$src1, VR128:$src2)>, Requires<[HasSSE1]>;
-def : Pat<(store (v2f64 (vector_shuffle (memop addr:$src1), VR128:$src2,
+def : Pat<(store (v2f64 (vector_shuffle (load addr:$src1), VR128:$src2,
                           MOVHP_shuffle_mask)), addr:$src1),
            (MOVHPDmr addr:$src1, VR128:$src2)>, Requires<[HasSSE2]>;
  
  def : Pat<(store (v4i32 (vector_shuffle
-                         (bc_v4i32 (memopv2i64 addr:$src1)), VR128:$src2,
+                         (bc_v4i32 (loadv2i64 addr:$src1)), VR128:$src2,
                           MOVLP_shuffle_mask)), addr:$src1),
            (MOVLPSmr addr:$src1, VR128:$src2)>, Requires<[HasSSE1]>;
-def : Pat<(store (v2i64 (vector_shuffle (memop addr:$src1), VR128:$src2,
+def : Pat<(store (v2i64 (vector_shuffle (load addr:$src1), VR128:$src2,
                           MOVLP_shuffle_mask)), addr:$src1),
            (MOVLPDmr addr:$src1, VR128:$src2)>, Requires<[HasSSE2]>;
  def : Pat<(store (v4i32 (vector_shuffle
-                         (bc_v4i32 (memopv2i64 addr:$src1)), VR128:$src2,
+                         (bc_v4i32 (loadv2i64 addr:$src1)), VR128:$src2,
                           MOVHP_shuffle_mask)), addr:$src1),
            (MOVHPSmr addr:$src1, VR128:$src2)>, Requires<[HasSSE1]>;
-def : Pat<(store (v2i64 (vector_shuffle (memop addr:$src1), VR128:$src2,
+def : Pat<(store (v2i64 (vector_shuffle (load addr:$src1), VR128:$src2,
                           MOVHP_shuffle_mask)), addr:$src1),
            (MOVHPDmr addr:$src1, VR128:$src2)>, Requires<[HasSSE2]>;
  
@@ -3144,29 +3174,11 @@ def : Pat<(store (v16i8 VR128:$src), addr:$dst),
  // SSE4.1 Instructions
  //===----------------------------------------------------------------------===//
  
-multiclass sse41_fp_unop_rm<bits<8> opcss, bits<8> opcps, 
-                            bits<8> opcsd, bits<8> opcpd, 
+multiclass sse41_fp_unop_rm<bits<8> opcps, bits<8> opcpd,
                              string OpcodeStr,
-                            Intrinsic F32Int,
                              Intrinsic V4F32Int,
-                            Intrinsic F64Int,
                              Intrinsic V2F64Int> {
    // Intrinsic operation, reg.
-  def SSr_Int : SS4AIi8<opcss, MRMSrcReg,
-                    (outs VR128:$dst), (ins VR128:$src1, i32i8imm:$src2),
-                    !strconcat(OpcodeStr,
-                    "ss\t{$src2, $src1, $dst|$dst, $src1, $src2}"),
-                    [(set VR128:$dst, (F32Int VR128:$src1, imm:$src2))]>,
-                    OpSize;
-
-  // Intrinsic operation, mem.
-  def SSm_Int : SS4AIi8<opcss, MRMSrcMem, 
-                    (outs VR128:$dst), (ins ssmem:$src1, i32i8imm:$src2),
-                    !strconcat(OpcodeStr, 
-                    "ss\t{$src2, $src1, $dst|$dst, $src1, $src2}"),
-                    [(set VR128:$dst, (F32Int sse_load_f32:$src1, imm:$src2))]>,
-                    OpSize;
-
    // Vector intrinsic operation, reg
    def PSr_Int : SS4AIi8<opcps, MRMSrcReg, 
                      (outs VR128:$dst), (ins VR128:$src1, i32i8imm:$src2),
@@ -3184,22 +3196,6 @@ multiclass sse41_fp_unop_rm<bits<8> opcss, bits<8> opcps,
                            (V4F32Int (memopv4f32 addr:$src1),imm:$src2))]>,
                      OpSize;
  
-  // Intrinsic operation, reg.
-  def SDr_Int : SS4AIi8<opcsd, MRMSrcReg,
-                    (outs VR128:$dst), (ins VR128:$src1, i32i8imm:$src2),
-                    !strconcat(OpcodeStr,
-                    "sd\t{$src2, $src1, $dst|$dst, $src1, $src2}"),
-                    [(set VR128:$dst, (F64Int VR128:$src1, imm:$src2))]>,
-                    OpSize;
-
-  // Intrinsic operation, mem.
-  def SDm_Int : SS4AIi8<opcsd, MRMSrcMem,
-                    (outs VR128:$dst), (ins sdmem:$src1, i32i8imm:$src2),
-                    !strconcat(OpcodeStr,
-                    "sd\t{$src2, $src1, $dst|$dst, $src1, $src2}"),
-                    [(set VR128:$dst, (F64Int sse_load_f64:$src1, imm:$src2))]>,
-                    OpSize;
-
    // Vector intrinsic operation, reg
    def PDr_Int : SS4AIi8<opcpd, MRMSrcReg,
                      (outs VR128:$dst), (ins VR128:$src1, i32i8imm:$src2),
@@ -3218,10 +3214,58 @@ multiclass sse41_fp_unop_rm<bits<8> opcss, bits<8> opcps,
                      OpSize;
  }
  
+let Constraints = "$src1 = $dst" in {
+multiclass sse41_fp_binop_rm<bits<8> opcss, bits<8> opcsd,
+                            string OpcodeStr,
+                            Intrinsic F32Int,
+                            Intrinsic F64Int> {
+  // Intrinsic operation, reg.
+  def SSr_Int : SS4AIi8<opcss, MRMSrcReg,
+                    (outs VR128:$dst), 
+                                 (ins VR128:$src1, VR128:$src2, i32i8imm:$src3),
+                    !strconcat(OpcodeStr,
+                    "ss\t{$src3, $src2, $dst|$dst, $src2, $src3}"),
+                    [(set VR128:$dst, 
+                            (F32Int VR128:$src1, VR128:$src2, imm:$src3))]>,
+                    OpSize;
+
+  // Intrinsic operation, mem.
+  def SSm_Int : SS4AIi8<opcss, MRMSrcMem, 
+                    (outs VR128:$dst), 
+                                (ins VR128:$src1, ssmem:$src2, i32i8imm:$src3),
+                    !strconcat(OpcodeStr, 
+                    "ss\t{$src3, $src2, $dst|$dst, $src2, $src3}"),
+                    [(set VR128:$dst, 
+                         (F32Int VR128:$src1, sse_load_f32:$src2, imm:$src3))]>,
+                    OpSize;
+
+  // Intrinsic operation, reg.
+  def SDr_Int : SS4AIi8<opcsd, MRMSrcReg,
+                    (outs VR128:$dst), 
+                            (ins VR128:$src1, VR128:$src2, i32i8imm:$src3),
+                    !strconcat(OpcodeStr,
+                    "sd\t{$src3, $src2, $dst|$dst, $src2, $src3}"),
+                    [(set VR128:$dst, 
+                            (F64Int VR128:$src1, VR128:$src2, imm:$src3))]>,
+                    OpSize;
+
+  // Intrinsic operation, mem.
+  def SDm_Int : SS4AIi8<opcsd, MRMSrcMem,
+                    (outs VR128:$dst), 
+                            (ins VR128:$src1, sdmem:$src2, i32i8imm:$src3),
+                    !strconcat(OpcodeStr,
+                    "sd\t{$src3, $src2, $dst|$dst, $src2, $src3}"),
+                    [(set VR128:$dst, 
+                        (F64Int VR128:$src1, sse_load_f64:$src2, imm:$src3))]>,
+                    OpSize;
+}
+}
+
  // FP round - roundss, roundps, roundsd, roundpd
-defm ROUND  : sse41_fp_unop_rm<0x0A, 0x08, 0x0B, 0x09, "round",
-                               int_x86_sse41_round_ss, int_x86_sse41_round_ps,
-                               int_x86_sse41_round_sd, int_x86_sse41_round_pd>;
+defm ROUND  : sse41_fp_unop_rm<0x08, 0x09, "round",
+                               int_x86_sse41_round_ps, int_x86_sse41_round_pd>;
+defm ROUND  : sse41_fp_binop_rm<0x0A, 0x0B, "round",
+                               int_x86_sse41_round_ss, int_x86_sse41_round_sd>;
  
  // SS41I_unop_rm_int_v16 - SSE 4.1 unary operator whose type is v8i16.
  multiclass SS41I_unop_rm_int_v16<bits<8> opc, string OpcodeStr,
@@ -3282,12 +3326,13 @@ defm PMAXUD       : SS41I_binop_rm_int<0x3F, "pmaxud",
  defm PMAXUW       : SS41I_binop_rm_int<0x3E, "pmaxuw",
                                         int_x86_sse41_pmaxuw, 1>;
  
+defm PMULDQ       : SS41I_binop_rm_int<0x28, "pmuldq", int_x86_sse41_pmuldq, 1>;
+
  def : Pat<(v2i64 (X86pcmpeqq VR128:$src1, VR128:$src2)),
            (PCMPEQQrr VR128:$src1, VR128:$src2)>;
  def : Pat<(v2i64 (X86pcmpeqq VR128:$src1, (memop addr:$src2))),
            (PCMPEQQrm VR128:$src1, addr:$src2)>;
  
-
  /// SS41I_binop_rm_int - Simple SSE 4.1 binary operator
  let Constraints = "$src1 = $dst" in {
    multiclass SS41I_binop_patint<bits<8> opc, string OpcodeStr, ValueType OpVT,
@@ -3322,9 +3367,6 @@ let Constraints = "$src1 = $dst" in {
  }
  defm PMULLD       : SS41I_binop_patint<0x40, "pmulld", v4i32, mul,
                                         int_x86_sse41_pmulld, 1>;
-defm PMULDQ       : SS41I_binop_patint<0x28, "pmuldq", v2i64, mul,
-                                       int_x86_sse41_pmuldq, 1>;
-
  
  /// SS41I_binop_rmi_int - SSE 4.1 binary operator with 8-bit immediate
  let Constraints = "$src1 = $dst" in {