[X86][Haswell][SchedModel] Add architecture specific scheduling models.

[oota-llvm.git] / lib / Target / X86 / X86ISelLowering.cpp
diff --git a/lib/Target/X86/X86ISelLowering.cpp b/lib/Target/X86/X86ISelLowering.cpp

index b31aa44699888d88bbcabbd2ea97df9946feaad5..af8e1a188087a04d017b21c8bb9ab09063533b35 100644 (file)
--- a/lib/Target/X86/X86ISelLowering.cpp
+++ b/lib/Target/X86/X86ISelLowering.cpp
@@ -7055,11 +7055,14 @@ static bool isSingleInputShuffleMask(ArrayRef<int> Mask) {
    return true;
  }
  
+// Hide this symbol with an anonymous namespace instead of 'static' so that MSVC
+// 2013 will allow us to use it as a non-type template parameter.
+namespace {
+
  /// \brief Implementation of the \c isShuffleEquivalent variadic functor.
  ///
  /// See its documentation for details.
-static bool isShuffleEquivalentImpl(ArrayRef<int> Mask,
-                                    ArrayRef<const int *> Args) {
+bool isShuffleEquivalentImpl(ArrayRef<int> Mask, ArrayRef<const int *> Args) {
    if (Mask.size() != Args.size())
      return false;
    for (int i = 0, e = Mask.size(); i < e; ++i) {
@@ -7071,6 +7074,9 @@ static bool isShuffleEquivalentImpl(ArrayRef<int> Mask,
    }
    return true;
  }
+
+} // namespace
+
  /// \brief Checks whether a shuffle mask is equivalent to an explicit list of
  /// arguments.
  ///
@@ -7136,6 +7142,12 @@ static SDValue lowerV2F64VectorShuffle(SDValue Op, SDValue V1, SDValue V2,
    assert(Mask[0] >= 0 && Mask[0] < 2 && "Non-canonicalized blend!");
    assert(Mask[1] >= 2 && "Non-canonicalized blend!");
  
+  // Use dedicated unpack instructions for masks that match their pattern.
+  if (isShuffleEquivalent(Mask, 0, 2))
+    return DAG.getNode(X86ISD::UNPCKL, DL, MVT::v2f64, V1, V2);
+  if (isShuffleEquivalent(Mask, 1, 3))
+    return DAG.getNode(X86ISD::UNPCKH, DL, MVT::v2f64, V1, V2);
+
    unsigned SHUFPDMask = (Mask[0] == 1) | (((Mask[1] - 2) == 1) << 1);
    return DAG.getNode(X86ISD::SHUFP, SDLoc(Op), MVT::v2f64, V1, V2,
                       DAG.getConstant(SHUFPDMask, MVT::i8));
@@ -7172,6 +7184,12 @@ static SDValue lowerV2I64VectorShuffle(SDValue Op, SDValue V1, SDValue V2,
                      getV4X86ShuffleImm8ForMask(WidenedMask, DAG)));
    }
  
+  // Use dedicated unpack instructions for masks that match their pattern.
+  if (isShuffleEquivalent(Mask, 0, 2))
+    return DAG.getNode(X86ISD::UNPCKL, DL, MVT::v2i64, V1, V2);
+  if (isShuffleEquivalent(Mask, 1, 3))
+    return DAG.getNode(X86ISD::UNPCKH, DL, MVT::v2i64, V1, V2);
+
    // We implement this with SHUFPD which is pretty lame because it will likely
    // incur 2 cycles of stall for integer vectors on Nehalem and older chips.
    // However, all the alternatives are still more cycles and newer chips don't
@@ -7210,6 +7228,12 @@ static SDValue lowerV4F32VectorShuffle(SDValue Op, SDValue V1, SDValue V2,
      return DAG.getNode(X86ISD::SHUFP, DL, MVT::v4f32, V1, V1,
                         getV4X86ShuffleImm8ForMask(Mask, DAG));
  
+  // Use dedicated unpack instructions for masks that match their pattern.
+  if (isShuffleEquivalent(Mask, 0, 4, 1, 5))
+    return DAG.getNode(X86ISD::UNPCKL, DL, MVT::v4f32, V1, V2);
+  if (isShuffleEquivalent(Mask, 2, 6, 3, 7))
+    return DAG.getNode(X86ISD::UNPCKH, DL, MVT::v4f32, V1, V2);
+
    if (NumV2Elements == 1) {
      int V2Index =
          std::find_if(Mask.begin(), Mask.end(), [](int M) { return M >= 4; }) -
@@ -7298,6 +7322,12 @@ static SDValue lowerV4I32VectorShuffle(SDValue Op, SDValue V1, SDValue V2,
      return DAG.getNode(X86ISD::PSHUFD, DL, MVT::v4i32, V1,
                         getV4X86ShuffleImm8ForMask(Mask, DAG));
  
+  // Use dedicated unpack instructions for masks that match their pattern.
+  if (isShuffleEquivalent(Mask, 0, 4, 1, 5))
+    return DAG.getNode(X86ISD::UNPCKL, DL, MVT::v4i32, V1, V2);
+  if (isShuffleEquivalent(Mask, 2, 6, 3, 7))
+    return DAG.getNode(X86ISD::UNPCKH, DL, MVT::v4i32, V1, V2);
+
    // We implement this with SHUFPS because it can blend from two vectors.
    // Because we're going to eventually use SHUFPS, we use SHUFPS even to build
    // up the inputs, bypassing domain shift penalties that we would encur if we
@@ -8505,8 +8535,8 @@ static SDValue lowerV4F64VectorShuffle(SDValue Op, SDValue V1, SDValue V2,
    for (int i = 0; i < 4; ++i)
      if (Mask[i] >= 0 && Mask[i] < 4)
        V1Mask[i] = Mask[i];
-  else if (Mask[i] >= 4)
-    V2Mask[i] = Mask[i] - 4;
+    else if (Mask[i] >= 4)
+      V2Mask[i] = Mask[i] - 4;
  
    V1 = DAG.getVectorShuffle(MVT::v4f64, DL, V1, DAG.getUNDEF(MVT::v4f64), V1Mask);
    V2 = DAG.getVectorShuffle(MVT::v4f64, DL, V2, DAG.getUNDEF(MVT::v4f64), V2Mask);
@@ -11887,12 +11917,9 @@ SDValue X86TargetLowering::LowerTRUNCATE(SDValue Op, SelectionDAG &DAG) const {
    if (VT == MVT::i1) {
      assert((InVT.isInteger() && (InVT.getSizeInBits() <= 64)) &&
             "Invalid scalar TRUNCATE operation");
-    if (InVT == MVT::i32)
+    if (InVT.getSizeInBits() >= 32)
        return SDValue();
-    if (InVT.getSizeInBits() == 64)
-      In = DAG.getNode(ISD::EXTRACT_SUBVECTOR, DL, MVT::i32, In);
-    else if (InVT.getSizeInBits() < 32)
-      In = DAG.getNode(ISD::ANY_EXTEND, DL, MVT::i32, In);
+    In = DAG.getNode(ISD::ANY_EXTEND, DL, MVT::i32, In);
      return DAG.getNode(ISD::TRUNCATE, DL, VT, In);
    }
    assert(VT.getVectorNumElements() == InVT.getVectorNumElements() &&