[NVPTX] Generate a more optimal sequence for select of i1

author Justin Holewinski <jholewinski@nvidia.com>

Mon, 26 Jan 2015 19:52:20 +0000 (19:52 +0000)

committer Justin Holewinski <jholewinski@nvidia.com>

Mon, 26 Jan 2015 19:52:20 +0000 (19:52 +0000)
author Justin Holewinski <jholewinski@nvidia.com>
Mon, 26 Jan 2015 19:52:20 +0000 (19:52 +0000)
committer Justin Holewinski <jholewinski@nvidia.com>
Mon, 26 Jan 2015 19:52:20 +0000 (19:52 +0000)
diff --git a/lib/Target/NVPTX/NVPTXISelLowering.cpp b/lib/Target/NVPTX/NVPTXISelLowering.cpp

index 093ba1a2b824aa466f2cd839445e6f8784c0d47a..3a13dc05b6751101c4adc45f1484bfa7fcd59798 100644 (file)
--- a/lib/Target/NVPTX/NVPTXISelLowering.cpp
+++ b/lib/Target/NVPTX/NVPTXISelLowering.cpp
@@ -259,6 +259,9 @@ NVPTXTargetLowering::NVPTXTargetLowering(const NVPTXTargetMachine &TM)
    setOperationAction(ISD::CTPOP, MVT::i32, Legal);
    setOperationAction(ISD::CTPOP, MVT::i64, Legal);
  
+  // PTX does not directly support SELP of i1, so promote to i32 first
+  setOperationAction(ISD::SELECT, MVT::i1, Custom);
+
    // We have some custom DAG combine patterns for these nodes
    setTargetDAGCombine(ISD::ADD);
    setTargetDAGCombine(ISD::AND);
@@ -1803,11 +1806,29 @@ NVPTXTargetLowering::LowerOperation(SDValue Op, SelectionDAG &DAG) const {
    case ISD::SRA_PARTS:
    case ISD::SRL_PARTS:
      return LowerShiftRightParts(Op, DAG);
+  case ISD::SELECT:
+    return LowerSelect(Op, DAG);
    default:
      llvm_unreachable("Custom lowering not defined for operation");
    }
  }
  
+SDValue NVPTXTargetLowering::LowerSelect(SDValue Op, SelectionDAG &DAG) const {
+  SDValue Op0 = Op->getOperand(0);
+  SDValue Op1 = Op->getOperand(1);
+  SDValue Op2 = Op->getOperand(2);
+  SDLoc DL(Op.getNode());
+
+  assert(Op.getValueType() == MVT::i1 && "Custom lowering enabled only for i1");
+
+  Op1 = DAG.getNode(ISD::ANY_EXTEND, DL, MVT::i32, Op1);
+  Op2 = DAG.getNode(ISD::ANY_EXTEND, DL, MVT::i32, Op2);
+  SDValue Select = DAG.getNode(ISD::SELECT, DL, MVT::i32, Op0, Op1, Op2);
+  SDValue Trunc = DAG.getNode(ISD::TRUNCATE, DL, MVT::i1, Select);
+
+  return Trunc;
+}
+
  SDValue NVPTXTargetLowering::LowerLOAD(SDValue Op, SelectionDAG &DAG) const {
    if (Op.getValueType() == MVT::i1)
      return LowerLOADi1(Op, DAG);
diff --git a/lib/Target/NVPTX/NVPTXISelLowering.h b/lib/Target/NVPTX/NVPTXISelLowering.h

index b3fea3f4a36a2b0815af9561a262895ebe3f87e6..c14e120b97363e2b2f28fef6ffd94944132e8af1 100644 (file)
--- a/lib/Target/NVPTX/NVPTXISelLowering.h
+++ b/lib/Target/NVPTX/NVPTXISelLowering.h
@@ -529,6 +529,8 @@ private:
    SDValue LowerShiftRightParts(SDValue Op, SelectionDAG &DAG) const;
    SDValue LowerShiftLeftParts(SDValue Op, SelectionDAG &DAG) const;
  
+  SDValue LowerSelect(SDValue Op, SelectionDAG &DAG) const;
+
    void ReplaceNodeResults(SDNode *N, SmallVectorImpl<SDValue> &Results,
                            SelectionDAG &DAG) const override;
    SDValue PerformDAGCombine(SDNode *N, DAGCombinerInfo &DCI) const override;
diff --git a/lib/Target/NVPTX/NVPTXInstrInfo.td b/lib/Target/NVPTX/NVPTXInstrInfo.td

index 5b8a169fb96744598dfe4af07bbedb98c38a864b..1c63668f0dd859bb7281a94ae396d8a2f78206e8 100644 (file)
--- a/lib/Target/NVPTX/NVPTXInstrInfo.td
+++ b/lib/Target/NVPTX/NVPTXInstrInfo.td
@@ -1356,11 +1356,6 @@ defm SELP_u64 : SELP<"u64", Int64Regs, i64imm>;
  defm SELP_f32 : SELP_PATTERN<"f32", Float32Regs, f32imm, fpimm>;
  defm SELP_f64 : SELP_PATTERN<"f64", Float64Regs, f64imm, fpimm>;
  
-// Special select for predicate operands
-def : Pat<(i1 (select Int1Regs:$p, Int1Regs:$a, Int1Regs:$b)),
-              (ORb1rr (ANDb1rr Int1Regs:$p, Int1Regs:$a),
-              (ANDb1rr (NOT1 Int1Regs:$p), Int1Regs:$b))>;
-
  //
  // Funnnel shift in clamp mode
  //
diff --git a/test/CodeGen/NVPTX/bug22246.ll b/test/CodeGen/NVPTX/bug22246.ll

new file mode 100644 (file)

index 0000000..70e7e12
--- /dev/null
+++ b/test/CodeGen/NVPTX/bug22246.ll
@@ -0,0 +1,14 @@
+; RUN: llc < %s -march=nvptx -mcpu=sm_20 | FileCheck %s
+
+target datalayout = "e-i64:64-v16:16-v32:32-n16:32:64"
+target triple = "nvptx64-nvidia-cuda"
+
+; CHECK-LABEL: _Z3foobbbPb
+define void @_Z3foobbbPb(i1 zeroext %p1, i1 zeroext %p2, i1 zeroext %p3, i8* nocapture %output) {
+entry:
+; CHECK: selp.b32       %r{{[0-9]+}}, %r{{[0-9]+}}, %r{{[0-9]+}}, %p{{[0-9]+}}
+  %.sink.v = select i1 %p1, i1 %p2, i1 %p3
+  %frombool5 = zext i1 %.sink.v to i8
+  store i8 %frombool5, i8* %output, align 1
+  ret void
+}
author	Justin Holewinski <jholewinski@nvidia.com>
	Mon, 26 Jan 2015 19:52:20 +0000 (19:52 +0000)
committer	Justin Holewinski <jholewinski@nvidia.com>
	Mon, 26 Jan 2015 19:52:20 +0000 (19:52 +0000)
lib/Target/NVPTX/NVPTXISelLowering.cpp		patch \| blob \| history
lib/Target/NVPTX/NVPTXISelLowering.h		patch \| blob \| history
lib/Target/NVPTX/NVPTXInstrInfo.td		patch \| blob \| history
test/CodeGen/NVPTX/bug22246.ll	[new file with mode: 0644]	patch \| blob