lib/Target/NVPTX/NVPTXISelLowering.cpp

   1 //
   2 //                     The LLVM Compiler Infrastructure
   3 //
   4 // This file is distributed under the University of Illinois Open Source
   5 // License. See LICENSE.TXT for details.
   6 //
   7 //===----------------------------------------------------------------------===//
   8 //
   9 // This file defines the interfaces that NVPTX uses to lower LLVM code into a
  10 // selection DAG.
  11 //
  12 //===----------------------------------------------------------------------===//
  13
  14 #include "NVPTXISelLowering.h"
  15 #include "NVPTX.h"
  16 #include "NVPTXTargetMachine.h"
  17 #include "NVPTXTargetObjectFile.h"
  18 #include "NVPTXUtilities.h"
  19 #include "llvm/CodeGen/Analysis.h"
  20 #include "llvm/CodeGen/MachineFrameInfo.h"
  21 #include "llvm/CodeGen/MachineFunction.h"
  22 #include "llvm/CodeGen/MachineInstrBuilder.h"
  23 #include "llvm/CodeGen/MachineRegisterInfo.h"
  24 #include "llvm/CodeGen/TargetLoweringObjectFileImpl.h"
  25 #include "llvm/IR/CallSite.h"
  26 #include "llvm/IR/DerivedTypes.h"
  27 #include "llvm/IR/Function.h"
  28 #include "llvm/IR/GlobalValue.h"
  29 #include "llvm/IR/IntrinsicInst.h"
  30 #include "llvm/IR/Intrinsics.h"
  31 #include "llvm/IR/Module.h"
  32 #include "llvm/MC/MCSectionELF.h"
  33 #include "llvm/Support/CommandLine.h"
  34 #include "llvm/Support/Debug.h"
  35 #include "llvm/Support/ErrorHandling.h"
  36 #include "llvm/Support/MathExtras.h"
  37 #include "llvm/Support/raw_ostream.h"
  38 #include <sstream>
  39
  40 #undef DEBUG_TYPE
  41 #define DEBUG_TYPE "nvptx-lower"
  42
  43 using namespace llvm;
  44
  45 static unsigned int uniqueCallSite = 0;
  46
  47 static cl::opt<bool> sched4reg(
  48     "nvptx-sched4reg",
  49     cl::desc("NVPTX Specific: schedule for register pressue"), cl::init(false));
  50
  51 static cl::opt<unsigned>
  52 FMAContractLevelOpt("nvptx-fma-level", cl::ZeroOrMore, cl::Hidden,
  53                     cl::desc("NVPTX Specific: FMA contraction (0: don't do it"
  54                              " 1: do it  2: do it aggressively"),
  55                     cl::init(2));
  56
  57 static bool IsPTXVectorType(MVT VT) {
  58   switch (VT.SimpleTy) {
  59   default:
  60     return false;
  61   case MVT::v2i1:
  62   case MVT::v4i1:
  63   case MVT::v2i8:
  64   case MVT::v4i8:
  65   case MVT::v2i16:
  66   case MVT::v4i16:
  67   case MVT::v2i32:
  68   case MVT::v4i32:
  69   case MVT::v2i64:
  70   case MVT::v2f32:
  71   case MVT::v4f32:
  72   case MVT::v2f64:
  73     return true;
  74   }
  75 }
  76
  77 /// ComputePTXValueVTs - For the given Type \p Ty, returns the set of primitive
  78 /// EVTs that compose it.  Unlike ComputeValueVTs, this will break apart vectors
  79 /// into their primitive components.
  80 /// NOTE: This is a band-aid for code that expects ComputeValueVTs to return the
  81 /// same number of types as the Ins/Outs arrays in LowerFormalArguments,
  82 /// LowerCall, and LowerReturn.
  83 static void ComputePTXValueVTs(const TargetLowering &TLI, Type *Ty,
  84                                SmallVectorImpl<EVT> &ValueVTs,
  85                                SmallVectorImpl<uint64_t> *Offsets = nullptr,
  86                                uint64_t StartingOffset = 0) {
  87   SmallVector<EVT, 16> TempVTs;
  88   SmallVector<uint64_t, 16> TempOffsets;
  89
  90   ComputeValueVTs(TLI, Ty, TempVTs, &TempOffsets, StartingOffset);
  91   for (unsigned i = 0, e = TempVTs.size(); i != e; ++i) {
  92     EVT VT = TempVTs[i];
  93     uint64_t Off = TempOffsets[i];
  94     if (VT.isVector())
  95       for (unsigned j = 0, je = VT.getVectorNumElements(); j != je; ++j) {
  96         ValueVTs.push_back(VT.getVectorElementType());
  97         if (Offsets)
  98           Offsets->push_back(Off+j*VT.getVectorElementType().getStoreSize());
  99       }
 100     else {
 101       ValueVTs.push_back(VT);
 102       if (Offsets)
 103         Offsets->push_back(Off);
 104     }
 105   }
 106 }
 107
 108 // NVPTXTargetLowering Constructor.
 109 NVPTXTargetLowering::NVPTXTargetLowering(const NVPTXTargetMachine &TM)
 110     : TargetLowering(TM), nvTM(&TM),
 111       nvptxSubtarget(TM.getSubtarget<NVPTXSubtarget>()) {
 112
 113   // always lower memset, memcpy, and memmove intrinsics to load/store
 114   // instructions, rather
 115   // then generating calls to memset, mempcy or memmove.
 116   MaxStoresPerMemset = (unsigned) 0xFFFFFFFF;
 117   MaxStoresPerMemcpy = (unsigned) 0xFFFFFFFF;
 118   MaxStoresPerMemmove = (unsigned) 0xFFFFFFFF;
 119
 120   setBooleanContents(ZeroOrNegativeOneBooleanContent);
 121   setBooleanVectorContents(ZeroOrNegativeOneBooleanContent);
 122
 123   // Jump is Expensive. Don't create extra control flow for 'and', 'or'
 124   // condition branches.
 125   setJumpIsExpensive(true);
 126
 127   // By default, use the Source scheduling
 128   if (sched4reg)
 129     setSchedulingPreference(Sched::RegPressure);
 130   else
 131     setSchedulingPreference(Sched::Source);
 132
 133   addRegisterClass(MVT::i1, &NVPTX::Int1RegsRegClass);
 134   addRegisterClass(MVT::i16, &NVPTX::Int16RegsRegClass);
 135   addRegisterClass(MVT::i32, &NVPTX::Int32RegsRegClass);
 136   addRegisterClass(MVT::i64, &NVPTX::Int64RegsRegClass);
 137   addRegisterClass(MVT::f32, &NVPTX::Float32RegsRegClass);
 138   addRegisterClass(MVT::f64, &NVPTX::Float64RegsRegClass);
 139
 140   // Operations not directly supported by NVPTX.
 141   setOperationAction(ISD::SELECT_CC, MVT::f32, Expand);
 142   setOperationAction(ISD::SELECT_CC, MVT::f64, Expand);
 143   setOperationAction(ISD::SELECT_CC, MVT::i1, Expand);
 144   setOperationAction(ISD::SELECT_CC, MVT::i8, Expand);
 145   setOperationAction(ISD::SELECT_CC, MVT::i16, Expand);
 146   setOperationAction(ISD::SELECT_CC, MVT::i32, Expand);
 147   setOperationAction(ISD::SELECT_CC, MVT::i64, Expand);
 148   setOperationAction(ISD::BR_CC, MVT::f32, Expand);
 149   setOperationAction(ISD::BR_CC, MVT::f64, Expand);
 150   setOperationAction(ISD::BR_CC, MVT::i1, Expand);
 151   setOperationAction(ISD::BR_CC, MVT::i8, Expand);
 152   setOperationAction(ISD::BR_CC, MVT::i16, Expand);
 153   setOperationAction(ISD::BR_CC, MVT::i32, Expand);
 154   setOperationAction(ISD::BR_CC, MVT::i64, Expand);
 155   // Some SIGN_EXTEND_INREG can be done using cvt instruction.
 156   // For others we will expand to a SHL/SRA pair.
 157   setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::i64, Legal);
 158   setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::i32, Legal);
 159   setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::i16, Legal);
 160   setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::i8 , Legal);
 161   setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::i1, Expand);
 162
 163   setOperationAction(ISD::SHL_PARTS, MVT::i32  , Custom);
 164   setOperationAction(ISD::SRA_PARTS, MVT::i32  , Custom);
 165   setOperationAction(ISD::SRL_PARTS, MVT::i32  , Custom);
 166   setOperationAction(ISD::SHL_PARTS, MVT::i64  , Custom);
 167   setOperationAction(ISD::SRA_PARTS, MVT::i64  , Custom);
 168   setOperationAction(ISD::SRL_PARTS, MVT::i64  , Custom);
 169
 170   if (nvptxSubtarget.hasROT64()) {
 171     setOperationAction(ISD::ROTL, MVT::i64, Legal);
 172     setOperationAction(ISD::ROTR, MVT::i64, Legal);
 173   } else {
 174     setOperationAction(ISD::ROTL, MVT::i64, Expand);
 175     setOperationAction(ISD::ROTR, MVT::i64, Expand);
 176   }
 177   if (nvptxSubtarget.hasROT32()) {
 178     setOperationAction(ISD::ROTL, MVT::i32, Legal);
 179     setOperationAction(ISD::ROTR, MVT::i32, Legal);
 180   } else {
 181     setOperationAction(ISD::ROTL, MVT::i32, Expand);
 182     setOperationAction(ISD::ROTR, MVT::i32, Expand);
 183   }
 184
 185   setOperationAction(ISD::ROTL, MVT::i16, Expand);
 186   setOperationAction(ISD::ROTR, MVT::i16, Expand);
 187   setOperationAction(ISD::ROTL, MVT::i8, Expand);
 188   setOperationAction(ISD::ROTR, MVT::i8, Expand);
 189   setOperationAction(ISD::BSWAP, MVT::i16, Expand);
 190   setOperationAction(ISD::BSWAP, MVT::i32, Expand);
 191   setOperationAction(ISD::BSWAP, MVT::i64, Expand);
 192
 193   // Indirect branch is not supported.
 194   // This also disables Jump Table creation.
 195   setOperationAction(ISD::BR_JT, MVT::Other, Expand);
 196   setOperationAction(ISD::BRIND, MVT::Other, Expand);
 197
 198   setOperationAction(ISD::GlobalAddress, MVT::i32, Custom);
 199   setOperationAction(ISD::GlobalAddress, MVT::i64, Custom);
 200
 201   // We want to legalize constant related memmove and memcopy
 202   // intrinsics.
 203   setOperationAction(ISD::INTRINSIC_W_CHAIN, MVT::Other, Custom);
 204
 205   // Turn FP extload into load/fextend
 206   setLoadExtAction(ISD::EXTLOAD, MVT::f16, Expand);
 207   setLoadExtAction(ISD::EXTLOAD, MVT::f32, Expand);
 208   // Turn FP truncstore into trunc + store.
 209   setTruncStoreAction(MVT::f32, MVT::f16, Expand);
 210   setTruncStoreAction(MVT::f64, MVT::f16, Expand);
 211   setTruncStoreAction(MVT::f64, MVT::f32, Expand);
 212
 213   // PTX does not support load / store predicate registers
 214   setOperationAction(ISD::LOAD, MVT::i1, Custom);
 215   setOperationAction(ISD::STORE, MVT::i1, Custom);
 216
 217   setLoadExtAction(ISD::SEXTLOAD, MVT::i1, Promote);
 218   setLoadExtAction(ISD::ZEXTLOAD, MVT::i1, Promote);
 219   setTruncStoreAction(MVT::i64, MVT::i1, Expand);
 220   setTruncStoreAction(MVT::i32, MVT::i1, Expand);
 221   setTruncStoreAction(MVT::i16, MVT::i1, Expand);
 222   setTruncStoreAction(MVT::i8, MVT::i1, Expand);
 223
 224   // This is legal in NVPTX
 225   setOperationAction(ISD::ConstantFP, MVT::f64, Legal);
 226   setOperationAction(ISD::ConstantFP, MVT::f32, Legal);
 227
 228   // TRAP can be lowered to PTX trap
 229   setOperationAction(ISD::TRAP, MVT::Other, Legal);
 230
 231   setOperationAction(ISD::ADDC, MVT::i64, Expand);
 232   setOperationAction(ISD::ADDE, MVT::i64, Expand);
 233
 234   // Register custom handling for vector loads/stores
 235   for (int i = MVT::FIRST_VECTOR_VALUETYPE; i <= MVT::LAST_VECTOR_VALUETYPE;
 236        ++i) {
 237     MVT VT = (MVT::SimpleValueType) i;
 238     if (IsPTXVectorType(VT)) {
 239       setOperationAction(ISD::LOAD, VT, Custom);
 240       setOperationAction(ISD::STORE, VT, Custom);
 241       setOperationAction(ISD::INTRINSIC_W_CHAIN, VT, Custom);
 242     }
 243   }
 244
 245   // Custom handling for i8 intrinsics
 246   setOperationAction(ISD::INTRINSIC_W_CHAIN, MVT::i8, Custom);
 247
 248   setOperationAction(ISD::CTLZ, MVT::i16, Legal);
 249   setOperationAction(ISD::CTLZ, MVT::i32, Legal);
 250   setOperationAction(ISD::CTLZ, MVT::i64, Legal);
 251   setOperationAction(ISD::CTLZ_ZERO_UNDEF, MVT::i16, Legal);
 252   setOperationAction(ISD::CTLZ_ZERO_UNDEF, MVT::i32, Legal);
 253   setOperationAction(ISD::CTLZ_ZERO_UNDEF, MVT::i64, Legal);
 254   setOperationAction(ISD::CTTZ, MVT::i16, Expand);
 255   setOperationAction(ISD::CTTZ, MVT::i32, Expand);
 256   setOperationAction(ISD::CTTZ, MVT::i64, Expand);
 257   setOperationAction(ISD::CTTZ_ZERO_UNDEF, MVT::i16, Expand);
 258   setOperationAction(ISD::CTTZ_ZERO_UNDEF, MVT::i32, Expand);
 259   setOperationAction(ISD::CTTZ_ZERO_UNDEF, MVT::i64, Expand);
 260   setOperationAction(ISD::CTPOP, MVT::i16, Legal);
 261   setOperationAction(ISD::CTPOP, MVT::i32, Legal);
 262   setOperationAction(ISD::CTPOP, MVT::i64, Legal);
 263
 264   // We have some custom DAG combine patterns for these nodes
 265   setTargetDAGCombine(ISD::ADD);
 266   setTargetDAGCombine(ISD::AND);
 267   setTargetDAGCombine(ISD::FADD);
 268   setTargetDAGCombine(ISD::MUL);
 269   setTargetDAGCombine(ISD::SHL);
 270
 271   // Now deduce the information based on the above mentioned
 272   // actions
 273   computeRegisterProperties();
 274 }
 275
 276 const char *NVPTXTargetLowering::getTargetNodeName(unsigned Opcode) const {
 277   switch (Opcode) {
 278   default:
 279     return nullptr;
 280   case NVPTXISD::CALL:
 281     return "NVPTXISD::CALL";
 282   case NVPTXISD::RET_FLAG:
 283     return "NVPTXISD::RET_FLAG";
 284   case NVPTXISD::Wrapper:
 285     return "NVPTXISD::Wrapper";
 286   case NVPTXISD::DeclareParam:
 287     return "NVPTXISD::DeclareParam";
 288   case NVPTXISD::DeclareScalarParam:
 289     return "NVPTXISD::DeclareScalarParam";
 290   case NVPTXISD::DeclareRet:
 291     return "NVPTXISD::DeclareRet";
 292   case NVPTXISD::DeclareRetParam:
 293     return "NVPTXISD::DeclareRetParam";
 294   case NVPTXISD::PrintCall:
 295     return "NVPTXISD::PrintCall";
 296   case NVPTXISD::LoadParam:
 297     return "NVPTXISD::LoadParam";
 298   case NVPTXISD::LoadParamV2:
 299     return "NVPTXISD::LoadParamV2";
 300   case NVPTXISD::LoadParamV4:
 301     return "NVPTXISD::LoadParamV4";
 302   case NVPTXISD::StoreParam:
 303     return "NVPTXISD::StoreParam";
 304   case NVPTXISD::StoreParamV2:
 305     return "NVPTXISD::StoreParamV2";
 306   case NVPTXISD::StoreParamV4:
 307     return "NVPTXISD::StoreParamV4";
 308   case NVPTXISD::StoreParamS32:
 309     return "NVPTXISD::StoreParamS32";
 310   case NVPTXISD::StoreParamU32:
 311     return "NVPTXISD::StoreParamU32";
 312   case NVPTXISD::CallArgBegin:
 313     return "NVPTXISD::CallArgBegin";
 314   case NVPTXISD::CallArg:
 315     return "NVPTXISD::CallArg";
 316   case NVPTXISD::LastCallArg:
 317     return "NVPTXISD::LastCallArg";
 318   case NVPTXISD::CallArgEnd:
 319     return "NVPTXISD::CallArgEnd";
 320   case NVPTXISD::CallVoid:
 321     return "NVPTXISD::CallVoid";
 322   case NVPTXISD::CallVal:
 323     return "NVPTXISD::CallVal";
 324   case NVPTXISD::CallSymbol:
 325     return "NVPTXISD::CallSymbol";
 326   case NVPTXISD::Prototype:
 327     return "NVPTXISD::Prototype";
 328   case NVPTXISD::MoveParam:
 329     return "NVPTXISD::MoveParam";
 330   case NVPTXISD::StoreRetval:
 331     return "NVPTXISD::StoreRetval";
 332   case NVPTXISD::StoreRetvalV2:
 333     return "NVPTXISD::StoreRetvalV2";
 334   case NVPTXISD::StoreRetvalV4:
 335     return "NVPTXISD::StoreRetvalV4";
 336   case NVPTXISD::PseudoUseParam:
 337     return "NVPTXISD::PseudoUseParam";
 338   case NVPTXISD::RETURN:
 339     return "NVPTXISD::RETURN";
 340   case NVPTXISD::CallSeqBegin:
 341     return "NVPTXISD::CallSeqBegin";
 342   case NVPTXISD::CallSeqEnd:
 343     return "NVPTXISD::CallSeqEnd";
 344   case NVPTXISD::CallPrototype:
 345     return "NVPTXISD::CallPrototype";
 346   case NVPTXISD::LoadV2:
 347     return "NVPTXISD::LoadV2";
 348   case NVPTXISD::LoadV4:
 349     return "NVPTXISD::LoadV4";
 350   case NVPTXISD::LDGV2:
 351     return "NVPTXISD::LDGV2";
 352   case NVPTXISD::LDGV4:
 353     return "NVPTXISD::LDGV4";
 354   case NVPTXISD::LDUV2:
 355     return "NVPTXISD::LDUV2";
 356   case NVPTXISD::LDUV4:
 357     return "NVPTXISD::LDUV4";
 358   case NVPTXISD::StoreV2:
 359     return "NVPTXISD::StoreV2";
 360   case NVPTXISD::StoreV4:
 361     return "NVPTXISD::StoreV4";
 362   case NVPTXISD::FUN_SHFL_CLAMP:
 363     return "NVPTXISD::FUN_SHFL_CLAMP";
 364   case NVPTXISD::FUN_SHFR_CLAMP:
 365     return "NVPTXISD::FUN_SHFR_CLAMP";
 366   case NVPTXISD::IMAD:
 367     return "NVPTXISD::IMAD";
 368   case NVPTXISD::MUL_WIDE_SIGNED:
 369     return "NVPTXISD::MUL_WIDE_SIGNED";
 370   case NVPTXISD::MUL_WIDE_UNSIGNED:
 371     return "NVPTXISD::MUL_WIDE_UNSIGNED";
 372   case NVPTXISD::Tex1DFloatS32:        return "NVPTXISD::Tex1DFloatS32";
 373   case NVPTXISD::Tex1DFloatFloat:      return "NVPTXISD::Tex1DFloatFloat";
 374   case NVPTXISD::Tex1DFloatFloatLevel:
 375     return "NVPTXISD::Tex1DFloatFloatLevel";
 376   case NVPTXISD::Tex1DFloatFloatGrad:
 377     return "NVPTXISD::Tex1DFloatFloatGrad";
 378   case NVPTXISD::Tex1DS32S32:          return "NVPTXISD::Tex1DS32S32";
 379   case NVPTXISD::Tex1DS32Float:        return "NVPTXISD::Tex1DS32Float";
 380   case NVPTXISD::Tex1DS32FloatLevel:
 381     return "NVPTXISD::Tex1DS32FloatLevel";
 382   case NVPTXISD::Tex1DS32FloatGrad:
 383     return "NVPTXISD::Tex1DS32FloatGrad";
 384   case NVPTXISD::Tex1DU32S32:          return "NVPTXISD::Tex1DU32S32";
 385   case NVPTXISD::Tex1DU32Float:        return "NVPTXISD::Tex1DU32Float";
 386   case NVPTXISD::Tex1DU32FloatLevel:
 387     return "NVPTXISD::Tex1DU32FloatLevel";
 388   case NVPTXISD::Tex1DU32FloatGrad:
 389     return "NVPTXISD::Tex1DU32FloatGrad";
 390   case NVPTXISD::Tex1DArrayFloatS32:   return "NVPTXISD::Tex1DArrayFloatS32";
 391   case NVPTXISD::Tex1DArrayFloatFloat: return "NVPTXISD::Tex1DArrayFloatFloat";
 392   case NVPTXISD::Tex1DArrayFloatFloatLevel:
 393     return "NVPTXISD::Tex1DArrayFloatFloatLevel";
 394   case NVPTXISD::Tex1DArrayFloatFloatGrad:
 395     return "NVPTXISD::Tex1DArrayFloatFloatGrad";
 396   case NVPTXISD::Tex1DArrayS32S32:     return "NVPTXISD::Tex1DArrayS32S32";
 397   case NVPTXISD::Tex1DArrayS32Float:   return "NVPTXISD::Tex1DArrayS32Float";
 398   case NVPTXISD::Tex1DArrayS32FloatLevel:
 399     return "NVPTXISD::Tex1DArrayS32FloatLevel";
 400   case NVPTXISD::Tex1DArrayS32FloatGrad:
 401     return "NVPTXISD::Tex1DArrayS32FloatGrad";
 402   case NVPTXISD::Tex1DArrayU32S32:     return "NVPTXISD::Tex1DArrayU32S32";
 403   case NVPTXISD::Tex1DArrayU32Float:   return "NVPTXISD::Tex1DArrayU32Float";
 404   case NVPTXISD::Tex1DArrayU32FloatLevel:
 405     return "NVPTXISD::Tex1DArrayU32FloatLevel";
 406   case NVPTXISD::Tex1DArrayU32FloatGrad:
 407     return "NVPTXISD::Tex1DArrayU32FloatGrad";
 408   case NVPTXISD::Tex2DFloatS32:        return "NVPTXISD::Tex2DFloatS32";
 409   case NVPTXISD::Tex2DFloatFloat:      return "NVPTXISD::Tex2DFloatFloat";
 410   case NVPTXISD::Tex2DFloatFloatLevel:
 411     return "NVPTXISD::Tex2DFloatFloatLevel";
 412   case NVPTXISD::Tex2DFloatFloatGrad:
 413     return "NVPTXISD::Tex2DFloatFloatGrad";
 414   case NVPTXISD::Tex2DS32S32:          return "NVPTXISD::Tex2DS32S32";
 415   case NVPTXISD::Tex2DS32Float:        return "NVPTXISD::Tex2DS32Float";
 416   case NVPTXISD::Tex2DS32FloatLevel:
 417     return "NVPTXISD::Tex2DS32FloatLevel";
 418   case NVPTXISD::Tex2DS32FloatGrad:
 419     return "NVPTXISD::Tex2DS32FloatGrad";
 420   case NVPTXISD::Tex2DU32S32:          return "NVPTXISD::Tex2DU32S32";
 421   case NVPTXISD::Tex2DU32Float:        return "NVPTXISD::Tex2DU32Float";
 422   case NVPTXISD::Tex2DU32FloatLevel:
 423     return "NVPTXISD::Tex2DU32FloatLevel";
 424   case NVPTXISD::Tex2DU32FloatGrad:
 425     return "NVPTXISD::Tex2DU32FloatGrad";
 426   case NVPTXISD::Tex2DArrayFloatS32:   return "NVPTXISD::Tex2DArrayFloatS32";
 427   case NVPTXISD::Tex2DArrayFloatFloat: return "NVPTXISD::Tex2DArrayFloatFloat";
 428   case NVPTXISD::Tex2DArrayFloatFloatLevel:
 429     return "NVPTXISD::Tex2DArrayFloatFloatLevel";
 430   case NVPTXISD::Tex2DArrayFloatFloatGrad:
 431     return "NVPTXISD::Tex2DArrayFloatFloatGrad";
 432   case NVPTXISD::Tex2DArrayS32S32:     return "NVPTXISD::Tex2DArrayS32S32";
 433   case NVPTXISD::Tex2DArrayS32Float:   return "NVPTXISD::Tex2DArrayS32Float";
 434   case NVPTXISD::Tex2DArrayS32FloatLevel:
 435     return "NVPTXISD::Tex2DArrayS32FloatLevel";
 436   case NVPTXISD::Tex2DArrayS32FloatGrad:
 437     return "NVPTXISD::Tex2DArrayS32FloatGrad";
 438   case NVPTXISD::Tex2DArrayU32S32:     return "NVPTXISD::Tex2DArrayU32S32";
 439   case NVPTXISD::Tex2DArrayU32Float:   return "NVPTXISD::Tex2DArrayU32Float";
 440   case NVPTXISD::Tex2DArrayU32FloatLevel:
 441     return "NVPTXISD::Tex2DArrayU32FloatLevel";
 442   case NVPTXISD::Tex2DArrayU32FloatGrad:
 443     return "NVPTXISD::Tex2DArrayU32FloatGrad";
 444   case NVPTXISD::Tex3DFloatS32:        return "NVPTXISD::Tex3DFloatS32";
 445   case NVPTXISD::Tex3DFloatFloat:      return "NVPTXISD::Tex3DFloatFloat";
 446   case NVPTXISD::Tex3DFloatFloatLevel:
 447     return "NVPTXISD::Tex3DFloatFloatLevel";
 448   case NVPTXISD::Tex3DFloatFloatGrad:
 449     return "NVPTXISD::Tex3DFloatFloatGrad";
 450   case NVPTXISD::Tex3DS32S32:          return "NVPTXISD::Tex3DS32S32";
 451   case NVPTXISD::Tex3DS32Float:        return "NVPTXISD::Tex3DS32Float";
 452   case NVPTXISD::Tex3DS32FloatLevel:
 453     return "NVPTXISD::Tex3DS32FloatLevel";
 454   case NVPTXISD::Tex3DS32FloatGrad:
 455     return "NVPTXISD::Tex3DS32FloatGrad";
 456   case NVPTXISD::Tex3DU32S32:          return "NVPTXISD::Tex3DU32S32";
 457   case NVPTXISD::Tex3DU32Float:        return "NVPTXISD::Tex3DU32Float";
 458   case NVPTXISD::Tex3DU32FloatLevel:
 459     return "NVPTXISD::Tex3DU32FloatLevel";
 460   case NVPTXISD::Tex3DU32FloatGrad:
 461     return "NVPTXISD::Tex3DU32FloatGrad";
 462   case NVPTXISD::TexCubeFloatFloat:      return "NVPTXISD::TexCubeFloatFloat";
 463   case NVPTXISD::TexCubeFloatFloatLevel:
 464     return "NVPTXISD::TexCubeFloatFloatLevel";
 465   case NVPTXISD::TexCubeS32Float:        return "NVPTXISD::TexCubeS32Float";
 466   case NVPTXISD::TexCubeS32FloatLevel:
 467     return "NVPTXISD::TexCubeS32FloatLevel";
 468   case NVPTXISD::TexCubeU32Float:        return "NVPTXISD::TexCubeU32Float";
 469   case NVPTXISD::TexCubeU32FloatLevel:
 470     return "NVPTXISD::TexCubeU32FloatLevel";
 471   case NVPTXISD::TexCubeArrayFloatFloat:
 472     return "NVPTXISD::TexCubeArrayFloatFloat";
 473   case NVPTXISD::TexCubeArrayFloatFloatLevel:
 474     return "NVPTXISD::TexCubeArrayFloatFloatLevel";
 475   case NVPTXISD::TexCubeArrayS32Float:
 476     return "NVPTXISD::TexCubeArrayS32Float";
 477   case NVPTXISD::TexCubeArrayS32FloatLevel:
 478     return "NVPTXISD::TexCubeArrayS32FloatLevel";
 479   case NVPTXISD::TexCubeArrayU32Float:
 480     return "NVPTXISD::TexCubeArrayU32Float";
 481   case NVPTXISD::TexCubeArrayU32FloatLevel:
 482     return "NVPTXISD::TexCubeArrayU32FloatLevel";
 483   case NVPTXISD::Tld4R2DFloatFloat:
 484     return "NVPTXISD::Tld4R2DFloatFloat";
 485   case NVPTXISD::Tld4G2DFloatFloat:
 486     return "NVPTXISD::Tld4G2DFloatFloat";
 487   case NVPTXISD::Tld4B2DFloatFloat:
 488     return "NVPTXISD::Tld4B2DFloatFloat";
 489   case NVPTXISD::Tld4A2DFloatFloat:
 490     return "NVPTXISD::Tld4A2DFloatFloat";
 491   case NVPTXISD::Tld4R2DS64Float:
 492     return "NVPTXISD::Tld4R2DS64Float";
 493   case NVPTXISD::Tld4G2DS64Float:
 494     return "NVPTXISD::Tld4G2DS64Float";
 495   case NVPTXISD::Tld4B2DS64Float:
 496     return "NVPTXISD::Tld4B2DS64Float";
 497   case NVPTXISD::Tld4A2DS64Float:
 498     return "NVPTXISD::Tld4A2DS64Float";
 499   case NVPTXISD::Tld4R2DU64Float:
 500     return "NVPTXISD::Tld4R2DU64Float";
 501   case NVPTXISD::Tld4G2DU64Float:
 502     return "NVPTXISD::Tld4G2DU64Float";
 503   case NVPTXISD::Tld4B2DU64Float:
 504     return "NVPTXISD::Tld4B2DU64Float";
 505   case NVPTXISD::Tld4A2DU64Float:
 506     return "NVPTXISD::Tld4A2DU64Float";
 507
 508   case NVPTXISD::TexUnified1DFloatS32:
 509     return "NVPTXISD::TexUnified1DFloatS32";
 510   case NVPTXISD::TexUnified1DFloatFloat:
 511     return "NVPTXISD::TexUnified1DFloatFloat";
 512   case NVPTXISD::TexUnified1DFloatFloatLevel:
 513     return "NVPTXISD::TexUnified1DFloatFloatLevel";
 514   case NVPTXISD::TexUnified1DFloatFloatGrad:
 515     return "NVPTXISD::TexUnified1DFloatFloatGrad";
 516   case NVPTXISD::TexUnified1DS32S32:
 517     return "NVPTXISD::TexUnified1DS32S32";
 518   case NVPTXISD::TexUnified1DS32Float:
 519     return "NVPTXISD::TexUnified1DS32Float";
 520   case NVPTXISD::TexUnified1DS32FloatLevel:
 521     return "NVPTXISD::TexUnified1DS32FloatLevel";
 522   case NVPTXISD::TexUnified1DS32FloatGrad:
 523     return "NVPTXISD::TexUnified1DS32FloatGrad";
 524   case NVPTXISD::TexUnified1DU32S32:
 525     return "NVPTXISD::TexUnified1DU32S32";
 526   case NVPTXISD::TexUnified1DU32Float:
 527     return "NVPTXISD::TexUnified1DU32Float";
 528   case NVPTXISD::TexUnified1DU32FloatLevel:
 529     return "NVPTXISD::TexUnified1DU32FloatLevel";
 530   case NVPTXISD::TexUnified1DU32FloatGrad:
 531     return "NVPTXISD::TexUnified1DU32FloatGrad";
 532   case NVPTXISD::TexUnified1DArrayFloatS32:
 533     return "NVPTXISD::TexUnified1DArrayFloatS32";
 534   case NVPTXISD::TexUnified1DArrayFloatFloat:
 535     return "NVPTXISD::TexUnified1DArrayFloatFloat";
 536   case NVPTXISD::TexUnified1DArrayFloatFloatLevel:
 537     return "NVPTXISD::TexUnified1DArrayFloatFloatLevel";
 538   case NVPTXISD::TexUnified1DArrayFloatFloatGrad:
 539     return "NVPTXISD::TexUnified1DArrayFloatFloatGrad";
 540   case NVPTXISD::TexUnified1DArrayS32S32:
 541     return "NVPTXISD::TexUnified1DArrayS32S32";
 542   case NVPTXISD::TexUnified1DArrayS32Float:
 543     return "NVPTXISD::TexUnified1DArrayS32Float";
 544   case NVPTXISD::TexUnified1DArrayS32FloatLevel:
 545     return "NVPTXISD::TexUnified1DArrayS32FloatLevel";
 546   case NVPTXISD::TexUnified1DArrayS32FloatGrad:
 547     return "NVPTXISD::TexUnified1DArrayS32FloatGrad";
 548   case NVPTXISD::TexUnified1DArrayU32S32:
 549     return "NVPTXISD::TexUnified1DArrayU32S32";
 550   case NVPTXISD::TexUnified1DArrayU32Float:
 551     return "NVPTXISD::TexUnified1DArrayU32Float";
 552   case NVPTXISD::TexUnified1DArrayU32FloatLevel:
 553     return "NVPTXISD::TexUnified1DArrayU32FloatLevel";
 554   case NVPTXISD::TexUnified1DArrayU32FloatGrad:
 555     return "NVPTXISD::TexUnified1DArrayU32FloatGrad";
 556   case NVPTXISD::TexUnified2DFloatS32:
 557     return "NVPTXISD::TexUnified2DFloatS32";
 558   case NVPTXISD::TexUnified2DFloatFloat:
 559     return "NVPTXISD::TexUnified2DFloatFloat";
 560   case NVPTXISD::TexUnified2DFloatFloatLevel:
 561     return "NVPTXISD::TexUnified2DFloatFloatLevel";
 562   case NVPTXISD::TexUnified2DFloatFloatGrad:
 563     return "NVPTXISD::TexUnified2DFloatFloatGrad";
 564   case NVPTXISD::TexUnified2DS32S32:
 565     return "NVPTXISD::TexUnified2DS32S32";
 566   case NVPTXISD::TexUnified2DS32Float:
 567     return "NVPTXISD::TexUnified2DS32Float";
 568   case NVPTXISD::TexUnified2DS32FloatLevel:
 569     return "NVPTXISD::TexUnified2DS32FloatLevel";
 570   case NVPTXISD::TexUnified2DS32FloatGrad:
 571     return "NVPTXISD::TexUnified2DS32FloatGrad";
 572   case NVPTXISD::TexUnified2DU32S32:
 573     return "NVPTXISD::TexUnified2DU32S32";
 574   case NVPTXISD::TexUnified2DU32Float:
 575     return "NVPTXISD::TexUnified2DU32Float";
 576   case NVPTXISD::TexUnified2DU32FloatLevel:
 577     return "NVPTXISD::TexUnified2DU32FloatLevel";
 578   case NVPTXISD::TexUnified2DU32FloatGrad:
 579     return "NVPTXISD::TexUnified2DU32FloatGrad";
 580   case NVPTXISD::TexUnified2DArrayFloatS32:
 581     return "NVPTXISD::TexUnified2DArrayFloatS32";
 582   case NVPTXISD::TexUnified2DArrayFloatFloat:
 583     return "NVPTXISD::TexUnified2DArrayFloatFloat";
 584   case NVPTXISD::TexUnified2DArrayFloatFloatLevel:
 585     return "NVPTXISD::TexUnified2DArrayFloatFloatLevel";
 586   case NVPTXISD::TexUnified2DArrayFloatFloatGrad:
 587     return "NVPTXISD::TexUnified2DArrayFloatFloatGrad";
 588   case NVPTXISD::TexUnified2DArrayS32S32:
 589     return "NVPTXISD::TexUnified2DArrayS32S32";
 590   case NVPTXISD::TexUnified2DArrayS32Float:
 591     return "NVPTXISD::TexUnified2DArrayS32Float";
 592   case NVPTXISD::TexUnified2DArrayS32FloatLevel:
 593     return "NVPTXISD::TexUnified2DArrayS32FloatLevel";
 594   case NVPTXISD::TexUnified2DArrayS32FloatGrad:
 595     return "NVPTXISD::TexUnified2DArrayS32FloatGrad";
 596   case NVPTXISD::TexUnified2DArrayU32S32:
 597     return "NVPTXISD::TexUnified2DArrayU32S32";
 598   case NVPTXISD::TexUnified2DArrayU32Float:
 599     return "NVPTXISD::TexUnified2DArrayU32Float";
 600   case NVPTXISD::TexUnified2DArrayU32FloatLevel:
 601     return "NVPTXISD::TexUnified2DArrayU32FloatLevel";
 602   case NVPTXISD::TexUnified2DArrayU32FloatGrad:
 603     return "NVPTXISD::TexUnified2DArrayU32FloatGrad";
 604   case NVPTXISD::TexUnified3DFloatS32:
 605     return "NVPTXISD::TexUnified3DFloatS32";
 606   case NVPTXISD::TexUnified3DFloatFloat:
 607     return "NVPTXISD::TexUnified3DFloatFloat";
 608   case NVPTXISD::TexUnified3DFloatFloatLevel:
 609     return "NVPTXISD::TexUnified3DFloatFloatLevel";
 610   case NVPTXISD::TexUnified3DFloatFloatGrad:
 611     return "NVPTXISD::TexUnified3DFloatFloatGrad";
 612   case NVPTXISD::TexUnified3DS32S32:
 613     return "NVPTXISD::TexUnified3DS32S32";
 614   case NVPTXISD::TexUnified3DS32Float:
 615     return "NVPTXISD::TexUnified3DS32Float";
 616   case NVPTXISD::TexUnified3DS32FloatLevel:
 617     return "NVPTXISD::TexUnified3DS32FloatLevel";
 618   case NVPTXISD::TexUnified3DS32FloatGrad:
 619     return "NVPTXISD::TexUnified3DS32FloatGrad";
 620   case NVPTXISD::TexUnified3DU32S32:
 621     return "NVPTXISD::TexUnified3DU32S32";
 622   case NVPTXISD::TexUnified3DU32Float:
 623     return "NVPTXISD::TexUnified3DU32Float";
 624   case NVPTXISD::TexUnified3DU32FloatLevel:
 625     return "NVPTXISD::TexUnified3DU32FloatLevel";
 626   case NVPTXISD::TexUnified3DU32FloatGrad:
 627     return "NVPTXISD::TexUnified3DU32FloatGrad";
 628   case NVPTXISD::TexUnifiedCubeFloatFloat:
 629     return "NVPTXISD::TexUnifiedCubeFloatFloat";
 630   case NVPTXISD::TexUnifiedCubeFloatFloatLevel:
 631     return "NVPTXISD::TexUnifiedCubeFloatFloatLevel";
 632   case NVPTXISD::TexUnifiedCubeS32Float:
 633     return "NVPTXISD::TexUnifiedCubeS32Float";
 634   case NVPTXISD::TexUnifiedCubeS32FloatLevel:
 635     return "NVPTXISD::TexUnifiedCubeS32FloatLevel";
 636   case NVPTXISD::TexUnifiedCubeU32Float:
 637     return "NVPTXISD::TexUnifiedCubeU32Float";
 638   case NVPTXISD::TexUnifiedCubeU32FloatLevel:
 639     return "NVPTXISD::TexUnifiedCubeU32FloatLevel";
 640   case NVPTXISD::TexUnifiedCubeArrayFloatFloat:
 641     return "NVPTXISD::TexUnifiedCubeArrayFloatFloat";
 642   case NVPTXISD::TexUnifiedCubeArrayFloatFloatLevel:
 643     return "NVPTXISD::TexUnifiedCubeArrayFloatFloatLevel";
 644   case NVPTXISD::TexUnifiedCubeArrayS32Float:
 645     return "NVPTXISD::TexUnifiedCubeArrayS32Float";
 646   case NVPTXISD::TexUnifiedCubeArrayS32FloatLevel:
 647     return "NVPTXISD::TexUnifiedCubeArrayS32FloatLevel";
 648   case NVPTXISD::TexUnifiedCubeArrayU32Float:
 649     return "NVPTXISD::TexUnifiedCubeArrayU32Float";
 650   case NVPTXISD::TexUnifiedCubeArrayU32FloatLevel:
 651     return "NVPTXISD::TexUnifiedCubeArrayU32FloatLevel";
 652   case NVPTXISD::Tld4UnifiedR2DFloatFloat:
 653     return "NVPTXISD::Tld4UnifiedR2DFloatFloat";
 654   case NVPTXISD::Tld4UnifiedG2DFloatFloat:
 655     return "NVPTXISD::Tld4UnifiedG2DFloatFloat";
 656   case NVPTXISD::Tld4UnifiedB2DFloatFloat:
 657     return "NVPTXISD::Tld4UnifiedB2DFloatFloat";
 658   case NVPTXISD::Tld4UnifiedA2DFloatFloat:
 659     return "NVPTXISD::Tld4UnifiedA2DFloatFloat";
 660   case NVPTXISD::Tld4UnifiedR2DS64Float:
 661     return "NVPTXISD::Tld4UnifiedR2DS64Float";
 662   case NVPTXISD::Tld4UnifiedG2DS64Float:
 663     return "NVPTXISD::Tld4UnifiedG2DS64Float";
 664   case NVPTXISD::Tld4UnifiedB2DS64Float:
 665     return "NVPTXISD::Tld4UnifiedB2DS64Float";
 666   case NVPTXISD::Tld4UnifiedA2DS64Float:
 667     return "NVPTXISD::Tld4UnifiedA2DS64Float";
 668   case NVPTXISD::Tld4UnifiedR2DU64Float:
 669     return "NVPTXISD::Tld4UnifiedR2DU64Float";
 670   case NVPTXISD::Tld4UnifiedG2DU64Float:
 671     return "NVPTXISD::Tld4UnifiedG2DU64Float";
 672   case NVPTXISD::Tld4UnifiedB2DU64Float:
 673     return "NVPTXISD::Tld4UnifiedB2DU64Float";
 674   case NVPTXISD::Tld4UnifiedA2DU64Float:
 675     return "NVPTXISD::Tld4UnifiedA2DU64Float";
 676
 677   case NVPTXISD::Suld1DI8Clamp:          return "NVPTXISD::Suld1DI8Clamp";
 678   case NVPTXISD::Suld1DI16Clamp:         return "NVPTXISD::Suld1DI16Clamp";
 679   case NVPTXISD::Suld1DI32Clamp:         return "NVPTXISD::Suld1DI32Clamp";
 680   case NVPTXISD::Suld1DI64Clamp:         return "NVPTXISD::Suld1DI64Clamp";
 681   case NVPTXISD::Suld1DV2I8Clamp:        return "NVPTXISD::Suld1DV2I8Clamp";
 682   case NVPTXISD::Suld1DV2I16Clamp:       return "NVPTXISD::Suld1DV2I16Clamp";
 683   case NVPTXISD::Suld1DV2I32Clamp:       return "NVPTXISD::Suld1DV2I32Clamp";
 684   case NVPTXISD::Suld1DV2I64Clamp:       return "NVPTXISD::Suld1DV2I64Clamp";
 685   case NVPTXISD::Suld1DV4I8Clamp:        return "NVPTXISD::Suld1DV4I8Clamp";
 686   case NVPTXISD::Suld1DV4I16Clamp:       return "NVPTXISD::Suld1DV4I16Clamp";
 687   case NVPTXISD::Suld1DV4I32Clamp:       return "NVPTXISD::Suld1DV4I32Clamp";
 688
 689   case NVPTXISD::Suld1DArrayI8Clamp:   return "NVPTXISD::Suld1DArrayI8Clamp";
 690   case NVPTXISD::Suld1DArrayI16Clamp:  return "NVPTXISD::Suld1DArrayI16Clamp";
 691   case NVPTXISD::Suld1DArrayI32Clamp:  return "NVPTXISD::Suld1DArrayI32Clamp";
 692   case NVPTXISD::Suld1DArrayI64Clamp:  return "NVPTXISD::Suld1DArrayI64Clamp";
 693   case NVPTXISD::Suld1DArrayV2I8Clamp: return "NVPTXISD::Suld1DArrayV2I8Clamp";
 694   case NVPTXISD::Suld1DArrayV2I16Clamp:return "NVPTXISD::Suld1DArrayV2I16Clamp";
 695   case NVPTXISD::Suld1DArrayV2I32Clamp:return "NVPTXISD::Suld1DArrayV2I32Clamp";
 696   case NVPTXISD::Suld1DArrayV2I64Clamp:return "NVPTXISD::Suld1DArrayV2I64Clamp";
 697   case NVPTXISD::Suld1DArrayV4I8Clamp: return "NVPTXISD::Suld1DArrayV4I8Clamp";
 698   case NVPTXISD::Suld1DArrayV4I16Clamp:return "NVPTXISD::Suld1DArrayV4I16Clamp";
 699   case NVPTXISD::Suld1DArrayV4I32Clamp:return "NVPTXISD::Suld1DArrayV4I32Clamp";
 700
 701   case NVPTXISD::Suld2DI8Clamp:          return "NVPTXISD::Suld2DI8Clamp";
 702   case NVPTXISD::Suld2DI16Clamp:         return "NVPTXISD::Suld2DI16Clamp";
 703   case NVPTXISD::Suld2DI32Clamp:         return "NVPTXISD::Suld2DI32Clamp";
 704   case NVPTXISD::Suld2DI64Clamp:         return "NVPTXISD::Suld2DI64Clamp";
 705   case NVPTXISD::Suld2DV2I8Clamp:        return "NVPTXISD::Suld2DV2I8Clamp";
 706   case NVPTXISD::Suld2DV2I16Clamp:       return "NVPTXISD::Suld2DV2I16Clamp";
 707   case NVPTXISD::Suld2DV2I32Clamp:       return "NVPTXISD::Suld2DV2I32Clamp";
 708   case NVPTXISD::Suld2DV2I64Clamp:       return "NVPTXISD::Suld2DV2I64Clamp";
 709   case NVPTXISD::Suld2DV4I8Clamp:        return "NVPTXISD::Suld2DV4I8Clamp";
 710   case NVPTXISD::Suld2DV4I16Clamp:       return "NVPTXISD::Suld2DV4I16Clamp";
 711   case NVPTXISD::Suld2DV4I32Clamp:       return "NVPTXISD::Suld2DV4I32Clamp";
 712
 713   case NVPTXISD::Suld2DArrayI8Clamp:   return "NVPTXISD::Suld2DArrayI8Clamp";
 714   case NVPTXISD::Suld2DArrayI16Clamp:  return "NVPTXISD::Suld2DArrayI16Clamp";
 715   case NVPTXISD::Suld2DArrayI32Clamp:  return "NVPTXISD::Suld2DArrayI32Clamp";
 716   case NVPTXISD::Suld2DArrayI64Clamp:  return "NVPTXISD::Suld2DArrayI64Clamp";
 717   case NVPTXISD::Suld2DArrayV2I8Clamp: return "NVPTXISD::Suld2DArrayV2I8Clamp";
 718   case NVPTXISD::Suld2DArrayV2I16Clamp:return "NVPTXISD::Suld2DArrayV2I16Clamp";
 719   case NVPTXISD::Suld2DArrayV2I32Clamp:return "NVPTXISD::Suld2DArrayV2I32Clamp";
 720   case NVPTXISD::Suld2DArrayV2I64Clamp:return "NVPTXISD::Suld2DArrayV2I64Clamp";
 721   case NVPTXISD::Suld2DArrayV4I8Clamp: return "NVPTXISD::Suld2DArrayV4I8Clamp";
 722   case NVPTXISD::Suld2DArrayV4I16Clamp:return "NVPTXISD::Suld2DArrayV4I16Clamp";
 723   case NVPTXISD::Suld2DArrayV4I32Clamp:return "NVPTXISD::Suld2DArrayV4I32Clamp";
 724
 725   case NVPTXISD::Suld3DI8Clamp:          return "NVPTXISD::Suld3DI8Clamp";
 726   case NVPTXISD::Suld3DI16Clamp:         return "NVPTXISD::Suld3DI16Clamp";
 727   case NVPTXISD::Suld3DI32Clamp:         return "NVPTXISD::Suld3DI32Clamp";
 728   case NVPTXISD::Suld3DI64Clamp:         return "NVPTXISD::Suld3DI64Clamp";
 729   case NVPTXISD::Suld3DV2I8Clamp:        return "NVPTXISD::Suld3DV2I8Clamp";
 730   case NVPTXISD::Suld3DV2I16Clamp:       return "NVPTXISD::Suld3DV2I16Clamp";
 731   case NVPTXISD::Suld3DV2I32Clamp:       return "NVPTXISD::Suld3DV2I32Clamp";
 732   case NVPTXISD::Suld3DV2I64Clamp:       return "NVPTXISD::Suld3DV2I64Clamp";
 733   case NVPTXISD::Suld3DV4I8Clamp:        return "NVPTXISD::Suld3DV4I8Clamp";
 734   case NVPTXISD::Suld3DV4I16Clamp:       return "NVPTXISD::Suld3DV4I16Clamp";
 735   case NVPTXISD::Suld3DV4I32Clamp:       return "NVPTXISD::Suld3DV4I32Clamp";
 736
 737   case NVPTXISD::Suld1DI8Trap:          return "NVPTXISD::Suld1DI8Trap";
 738   case NVPTXISD::Suld1DI16Trap:         return "NVPTXISD::Suld1DI16Trap";
 739   case NVPTXISD::Suld1DI32Trap:         return "NVPTXISD::Suld1DI32Trap";
 740   case NVPTXISD::Suld1DI64Trap:         return "NVPTXISD::Suld1DI64Trap";
 741   case NVPTXISD::Suld1DV2I8Trap:        return "NVPTXISD::Suld1DV2I8Trap";
 742   case NVPTXISD::Suld1DV2I16Trap:       return "NVPTXISD::Suld1DV2I16Trap";
 743   case NVPTXISD::Suld1DV2I32Trap:       return "NVPTXISD::Suld1DV2I32Trap";
 744   case NVPTXISD::Suld1DV2I64Trap:       return "NVPTXISD::Suld1DV2I64Trap";
 745   case NVPTXISD::Suld1DV4I8Trap:        return "NVPTXISD::Suld1DV4I8Trap";
 746   case NVPTXISD::Suld1DV4I16Trap:       return "NVPTXISD::Suld1DV4I16Trap";
 747   case NVPTXISD::Suld1DV4I32Trap:       return "NVPTXISD::Suld1DV4I32Trap";
 748
 749   case NVPTXISD::Suld1DArrayI8Trap:     return "NVPTXISD::Suld1DArrayI8Trap";
 750   case NVPTXISD::Suld1DArrayI16Trap:    return "NVPTXISD::Suld1DArrayI16Trap";
 751   case NVPTXISD::Suld1DArrayI32Trap:    return "NVPTXISD::Suld1DArrayI32Trap";
 752   case NVPTXISD::Suld1DArrayI64Trap:    return "NVPTXISD::Suld1DArrayI64Trap";
 753   case NVPTXISD::Suld1DArrayV2I8Trap:   return "NVPTXISD::Suld1DArrayV2I8Trap";
 754   case NVPTXISD::Suld1DArrayV2I16Trap:  return "NVPTXISD::Suld1DArrayV2I16Trap";
 755   case NVPTXISD::Suld1DArrayV2I32Trap:  return "NVPTXISD::Suld1DArrayV2I32Trap";
 756   case NVPTXISD::Suld1DArrayV2I64Trap:  return "NVPTXISD::Suld1DArrayV2I64Trap";
 757   case NVPTXISD::Suld1DArrayV4I8Trap:   return "NVPTXISD::Suld1DArrayV4I8Trap";
 758   case NVPTXISD::Suld1DArrayV4I16Trap:  return "NVPTXISD::Suld1DArrayV4I16Trap";
 759   case NVPTXISD::Suld1DArrayV4I32Trap:  return "NVPTXISD::Suld1DArrayV4I32Trap";
 760
 761   case NVPTXISD::Suld2DI8Trap:          return "NVPTXISD::Suld2DI8Trap";
 762   case NVPTXISD::Suld2DI16Trap:         return "NVPTXISD::Suld2DI16Trap";
 763   case NVPTXISD::Suld2DI32Trap:         return "NVPTXISD::Suld2DI32Trap";
 764   case NVPTXISD::Suld2DI64Trap:         return "NVPTXISD::Suld2DI64Trap";
 765   case NVPTXISD::Suld2DV2I8Trap:        return "NVPTXISD::Suld2DV2I8Trap";
 766   case NVPTXISD::Suld2DV2I16Trap:       return "NVPTXISD::Suld2DV2I16Trap";
 767   case NVPTXISD::Suld2DV2I32Trap:       return "NVPTXISD::Suld2DV2I32Trap";
 768   case NVPTXISD::Suld2DV2I64Trap:       return "NVPTXISD::Suld2DV2I64Trap";
 769   case NVPTXISD::Suld2DV4I8Trap:        return "NVPTXISD::Suld2DV4I8Trap";
 770   case NVPTXISD::Suld2DV4I16Trap:       return "NVPTXISD::Suld2DV4I16Trap";
 771   case NVPTXISD::Suld2DV4I32Trap:       return "NVPTXISD::Suld2DV4I32Trap";
 772
 773   case NVPTXISD::Suld2DArrayI8Trap:     return "NVPTXISD::Suld2DArrayI8Trap";
 774   case NVPTXISD::Suld2DArrayI16Trap:    return "NVPTXISD::Suld2DArrayI16Trap";
 775   case NVPTXISD::Suld2DArrayI32Trap:    return "NVPTXISD::Suld2DArrayI32Trap";
 776   case NVPTXISD::Suld2DArrayI64Trap:    return "NVPTXISD::Suld2DArrayI64Trap";
 777   case NVPTXISD::Suld2DArrayV2I8Trap:   return "NVPTXISD::Suld2DArrayV2I8Trap";
 778   case NVPTXISD::Suld2DArrayV2I16Trap:  return "NVPTXISD::Suld2DArrayV2I16Trap";
 779   case NVPTXISD::Suld2DArrayV2I32Trap:  return "NVPTXISD::Suld2DArrayV2I32Trap";
 780   case NVPTXISD::Suld2DArrayV2I64Trap:  return "NVPTXISD::Suld2DArrayV2I64Trap";
 781   case NVPTXISD::Suld2DArrayV4I8Trap:   return "NVPTXISD::Suld2DArrayV4I8Trap";
 782   case NVPTXISD::Suld2DArrayV4I16Trap:  return "NVPTXISD::Suld2DArrayV4I16Trap";
 783   case NVPTXISD::Suld2DArrayV4I32Trap:  return "NVPTXISD::Suld2DArrayV4I32Trap";
 784
 785   case NVPTXISD::Suld3DI8Trap:          return "NVPTXISD::Suld3DI8Trap";
 786   case NVPTXISD::Suld3DI16Trap:         return "NVPTXISD::Suld3DI16Trap";
 787   case NVPTXISD::Suld3DI32Trap:         return "NVPTXISD::Suld3DI32Trap";
 788   case NVPTXISD::Suld3DI64Trap:         return "NVPTXISD::Suld3DI64Trap";
 789   case NVPTXISD::Suld3DV2I8Trap:        return "NVPTXISD::Suld3DV2I8Trap";
 790   case NVPTXISD::Suld3DV2I16Trap:       return "NVPTXISD::Suld3DV2I16Trap";
 791   case NVPTXISD::Suld3DV2I32Trap:       return "NVPTXISD::Suld3DV2I32Trap";
 792   case NVPTXISD::Suld3DV2I64Trap:       return "NVPTXISD::Suld3DV2I64Trap";
 793   case NVPTXISD::Suld3DV4I8Trap:        return "NVPTXISD::Suld3DV4I8Trap";
 794   case NVPTXISD::Suld3DV4I16Trap:       return "NVPTXISD::Suld3DV4I16Trap";
 795   case NVPTXISD::Suld3DV4I32Trap:       return "NVPTXISD::Suld3DV4I32Trap";
 796
 797   case NVPTXISD::Suld1DI8Zero:          return "NVPTXISD::Suld1DI8Zero";
 798   case NVPTXISD::Suld1DI16Zero:         return "NVPTXISD::Suld1DI16Zero";
 799   case NVPTXISD::Suld1DI32Zero:         return "NVPTXISD::Suld1DI32Zero";
 800   case NVPTXISD::Suld1DI64Zero:         return "NVPTXISD::Suld1DI64Zero";
 801   case NVPTXISD::Suld1DV2I8Zero:        return "NVPTXISD::Suld1DV2I8Zero";
 802   case NVPTXISD::Suld1DV2I16Zero:       return "NVPTXISD::Suld1DV2I16Zero";
 803   case NVPTXISD::Suld1DV2I32Zero:       return "NVPTXISD::Suld1DV2I32Zero";
 804   case NVPTXISD::Suld1DV2I64Zero:       return "NVPTXISD::Suld1DV2I64Zero";
 805   case NVPTXISD::Suld1DV4I8Zero:        return "NVPTXISD::Suld1DV4I8Zero";
 806   case NVPTXISD::Suld1DV4I16Zero:       return "NVPTXISD::Suld1DV4I16Zero";
 807   case NVPTXISD::Suld1DV4I32Zero:       return "NVPTXISD::Suld1DV4I32Zero";
 808
 809   case NVPTXISD::Suld1DArrayI8Zero:     return "NVPTXISD::Suld1DArrayI8Zero";
 810   case NVPTXISD::Suld1DArrayI16Zero:    return "NVPTXISD::Suld1DArrayI16Zero";
 811   case NVPTXISD::Suld1DArrayI32Zero:    return "NVPTXISD::Suld1DArrayI32Zero";
 812   case NVPTXISD::Suld1DArrayI64Zero:    return "NVPTXISD::Suld1DArrayI64Zero";
 813   case NVPTXISD::Suld1DArrayV2I8Zero:   return "NVPTXISD::Suld1DArrayV2I8Zero";
 814   case NVPTXISD::Suld1DArrayV2I16Zero:  return "NVPTXISD::Suld1DArrayV2I16Zero";
 815   case NVPTXISD::Suld1DArrayV2I32Zero:  return "NVPTXISD::Suld1DArrayV2I32Zero";
 816   case NVPTXISD::Suld1DArrayV2I64Zero:  return "NVPTXISD::Suld1DArrayV2I64Zero";
 817   case NVPTXISD::Suld1DArrayV4I8Zero:   return "NVPTXISD::Suld1DArrayV4I8Zero";
 818   case NVPTXISD::Suld1DArrayV4I16Zero:  return "NVPTXISD::Suld1DArrayV4I16Zero";
 819   case NVPTXISD::Suld1DArrayV4I32Zero:  return "NVPTXISD::Suld1DArrayV4I32Zero";
 820
 821   case NVPTXISD::Suld2DI8Zero:          return "NVPTXISD::Suld2DI8Zero";
 822   case NVPTXISD::Suld2DI16Zero:         return "NVPTXISD::Suld2DI16Zero";
 823   case NVPTXISD::Suld2DI32Zero:         return "NVPTXISD::Suld2DI32Zero";
 824   case NVPTXISD::Suld2DI64Zero:         return "NVPTXISD::Suld2DI64Zero";
 825   case NVPTXISD::Suld2DV2I8Zero:        return "NVPTXISD::Suld2DV2I8Zero";
 826   case NVPTXISD::Suld2DV2I16Zero:       return "NVPTXISD::Suld2DV2I16Zero";
 827   case NVPTXISD::Suld2DV2I32Zero:       return "NVPTXISD::Suld2DV2I32Zero";
 828   case NVPTXISD::Suld2DV2I64Zero:       return "NVPTXISD::Suld2DV2I64Zero";
 829   case NVPTXISD::Suld2DV4I8Zero:        return "NVPTXISD::Suld2DV4I8Zero";
 830   case NVPTXISD::Suld2DV4I16Zero:       return "NVPTXISD::Suld2DV4I16Zero";
 831   case NVPTXISD::Suld2DV4I32Zero:       return "NVPTXISD::Suld2DV4I32Zero";
 832
 833   case NVPTXISD::Suld2DArrayI8Zero:     return "NVPTXISD::Suld2DArrayI8Zero";
 834   case NVPTXISD::Suld2DArrayI16Zero:    return "NVPTXISD::Suld2DArrayI16Zero";
 835   case NVPTXISD::Suld2DArrayI32Zero:    return "NVPTXISD::Suld2DArrayI32Zero";
 836   case NVPTXISD::Suld2DArrayI64Zero:    return "NVPTXISD::Suld2DArrayI64Zero";
 837   case NVPTXISD::Suld2DArrayV2I8Zero:   return "NVPTXISD::Suld2DArrayV2I8Zero";
 838   case NVPTXISD::Suld2DArrayV2I16Zero:  return "NVPTXISD::Suld2DArrayV2I16Zero";
 839   case NVPTXISD::Suld2DArrayV2I32Zero:  return "NVPTXISD::Suld2DArrayV2I32Zero";
 840   case NVPTXISD::Suld2DArrayV2I64Zero:  return "NVPTXISD::Suld2DArrayV2I64Zero";
 841   case NVPTXISD::Suld2DArrayV4I8Zero:   return "NVPTXISD::Suld2DArrayV4I8Zero";
 842   case NVPTXISD::Suld2DArrayV4I16Zero:  return "NVPTXISD::Suld2DArrayV4I16Zero";
 843   case NVPTXISD::Suld2DArrayV4I32Zero:  return "NVPTXISD::Suld2DArrayV4I32Zero";
 844
 845   case NVPTXISD::Suld3DI8Zero:          return "NVPTXISD::Suld3DI8Zero";
 846   case NVPTXISD::Suld3DI16Zero:         return "NVPTXISD::Suld3DI16Zero";
 847   case NVPTXISD::Suld3DI32Zero:         return "NVPTXISD::Suld3DI32Zero";
 848   case NVPTXISD::Suld3DI64Zero:         return "NVPTXISD::Suld3DI64Zero";
 849   case NVPTXISD::Suld3DV2I8Zero:        return "NVPTXISD::Suld3DV2I8Zero";
 850   case NVPTXISD::Suld3DV2I16Zero:       return "NVPTXISD::Suld3DV2I16Zero";
 851   case NVPTXISD::Suld3DV2I32Zero:       return "NVPTXISD::Suld3DV2I32Zero";
 852   case NVPTXISD::Suld3DV2I64Zero:       return "NVPTXISD::Suld3DV2I64Zero";
 853   case NVPTXISD::Suld3DV4I8Zero:        return "NVPTXISD::Suld3DV4I8Zero";
 854   case NVPTXISD::Suld3DV4I16Zero:       return "NVPTXISD::Suld3DV4I16Zero";
 855   case NVPTXISD::Suld3DV4I32Zero:       return "NVPTXISD::Suld3DV4I32Zero";
 856   }
 857 }
 858
 859 TargetLoweringBase::LegalizeTypeAction
 860 NVPTXTargetLowering::getPreferredVectorAction(EVT VT) const {
 861   if (VT.getVectorNumElements() != 1 && VT.getScalarType() == MVT::i1)
 862     return TypeSplitVector;
 863
 864   return TargetLoweringBase::getPreferredVectorAction(VT);
 865 }
 866
 867 SDValue
 868 NVPTXTargetLowering::LowerGlobalAddress(SDValue Op, SelectionDAG &DAG) const {
 869   SDLoc dl(Op);
 870   const GlobalValue *GV = cast<GlobalAddressSDNode>(Op)->getGlobal();
 871   Op = DAG.getTargetGlobalAddress(GV, dl, getPointerTy());
 872   return DAG.getNode(NVPTXISD::Wrapper, dl, getPointerTy(), Op);
 873 }
 874
 875 std::string
 876 NVPTXTargetLowering::getPrototype(Type *retTy, const ArgListTy &Args,
 877                                   const SmallVectorImpl<ISD::OutputArg> &Outs,
 878                                   unsigned retAlignment,
 879                                   const ImmutableCallSite *CS) const {
 880
 881   bool isABI = (nvptxSubtarget.getSmVersion() >= 20);
 882   assert(isABI && "Non-ABI compilation is not supported");
 883   if (!isABI)
 884     return "";
 885
 886   std::stringstream O;
 887   O << "prototype_" << uniqueCallSite << " : .callprototype ";
 888
 889   if (retTy->getTypeID() == Type::VoidTyID) {
 890     O << "()";
 891   } else {
 892     O << "(";
 893     if (retTy->isFloatingPointTy() || retTy->isIntegerTy()) {
 894       unsigned size = 0;
 895       if (const IntegerType *ITy = dyn_cast<IntegerType>(retTy)) {
 896         size = ITy->getBitWidth();
 897         if (size < 32)
 898           size = 32;
 899       } else {
 900         assert(retTy->isFloatingPointTy() &&
 901                "Floating point type expected here");
 902         size = retTy->getPrimitiveSizeInBits();
 903       }
 904
 905       O << ".param .b" << size << " _";
 906     } else if (isa<PointerType>(retTy)) {
 907       O << ".param .b" << getPointerTy().getSizeInBits() << " _";
 908     } else if ((retTy->getTypeID() == Type::StructTyID) ||
 909                isa<VectorType>(retTy)) {
 910       O << ".param .align "
 911         << retAlignment
 912         << " .b8 _["
 913         << getDataLayout()->getTypeAllocSize(retTy) << "]";
 914     } else {
 915       llvm_unreachable("Unknown return type");
 916     }
 917     O << ") ";
 918   }
 919   O << "_ (";
 920
 921   bool first = true;
 922   MVT thePointerTy = getPointerTy();
 923
 924   unsigned OIdx = 0;
 925   for (unsigned i = 0, e = Args.size(); i != e; ++i, ++OIdx) {
 926     Type *Ty = Args[i].Ty;
 927     if (!first) {
 928       O << ", ";
 929     }
 930     first = false;
 931
 932     if (Outs[OIdx].Flags.isByVal() == false) {
 933       if (Ty->isAggregateType() || Ty->isVectorTy()) {
 934         unsigned align = 0;
 935         const CallInst *CallI = cast<CallInst>(CS->getInstruction());
 936         const DataLayout *TD = getDataLayout();
 937         // +1 because index 0 is reserved for return type alignment
 938         if (!llvm::getAlign(*CallI, i + 1, align))
 939           align = TD->getABITypeAlignment(Ty);
 940         unsigned sz = TD->getTypeAllocSize(Ty);
 941         O << ".param .align " << align << " .b8 ";
 942         O << "_";
 943         O << "[" << sz << "]";
 944         // update the index for Outs
 945         SmallVector<EVT, 16> vtparts;
 946         ComputeValueVTs(*this, Ty, vtparts);
 947         if (unsigned len = vtparts.size())
 948           OIdx += len - 1;
 949         continue;
 950       }
 951        // i8 types in IR will be i16 types in SDAG
 952       assert((getValueType(Ty) == Outs[OIdx].VT ||
 953              (getValueType(Ty) == MVT::i8 && Outs[OIdx].VT == MVT::i16)) &&
 954              "type mismatch between callee prototype and arguments");
 955       // scalar type
 956       unsigned sz = 0;
 957       if (isa<IntegerType>(Ty)) {
 958         sz = cast<IntegerType>(Ty)->getBitWidth();
 959         if (sz < 32)
 960           sz = 32;
 961       } else if (isa<PointerType>(Ty))
 962         sz = thePointerTy.getSizeInBits();
 963       else
 964         sz = Ty->getPrimitiveSizeInBits();
 965       O << ".param .b" << sz << " ";
 966       O << "_";
 967       continue;
 968     }
 969     const PointerType *PTy = dyn_cast<PointerType>(Ty);
 970     assert(PTy && "Param with byval attribute should be a pointer type");
 971     Type *ETy = PTy->getElementType();
 972
 973     unsigned align = Outs[OIdx].Flags.getByValAlign();
 974     unsigned sz = getDataLayout()->getTypeAllocSize(ETy);
 975     O << ".param .align " << align << " .b8 ";
 976     O << "_";
 977     O << "[" << sz << "]";
 978   }
 979   O << ");";
 980   return O.str();
 981 }
 982
 983 unsigned
 984 NVPTXTargetLowering::getArgumentAlignment(SDValue Callee,
 985                                           const ImmutableCallSite *CS,
 986                                           Type *Ty,
 987                                           unsigned Idx) const {
 988   const DataLayout *TD = getDataLayout();
 989   unsigned Align = 0;
 990   const Value *DirectCallee = CS->getCalledFunction();
 991
 992   if (!DirectCallee) {
 993     // We don't have a direct function symbol, but that may be because of
 994     // constant cast instructions in the call.
 995     const Instruction *CalleeI = CS->getInstruction();
 996     assert(CalleeI && "Call target is not a function or derived value?");
 997
 998     // With bitcast'd call targets, the instruction will be the call
 999     if (isa<CallInst>(CalleeI)) {
1000       // Check if we have call alignment metadata
1001       if (llvm::getAlign(*cast<CallInst>(CalleeI), Idx, Align))
1002         return Align;
1003
1004       const Value *CalleeV = cast<CallInst>(CalleeI)->getCalledValue();
1005       // Ignore any bitcast instructions
1006       while(isa<ConstantExpr>(CalleeV)) {
1007         const ConstantExpr *CE = cast<ConstantExpr>(CalleeV);
1008         if (!CE->isCast())
1009           break;
1010         // Look through the bitcast
1011         CalleeV = cast<ConstantExpr>(CalleeV)->getOperand(0);
1012       }
1013
1014       // We have now looked past all of the bitcasts.  Do we finally have a
1015       // Function?
1016       if (isa<Function>(CalleeV))
1017         DirectCallee = CalleeV;
1018     }
1019   }
1020
1021   // Check for function alignment information if we found that the
1022   // ultimate target is a Function
1023   if (DirectCallee)
1024     if (llvm::getAlign(*cast<Function>(DirectCallee), Idx, Align))
1025       return Align;
1026
1027   // Call is indirect or alignment information is not available, fall back to
1028   // the ABI type alignment
1029   return TD->getABITypeAlignment(Ty);
1030 }
1031
1032 SDValue NVPTXTargetLowering::LowerCall(TargetLowering::CallLoweringInfo &CLI,
1033                                        SmallVectorImpl<SDValue> &InVals) const {
1034   SelectionDAG &DAG = CLI.DAG;
1035   SDLoc dl = CLI.DL;
1036   SmallVectorImpl<ISD::OutputArg> &Outs = CLI.Outs;
1037   SmallVectorImpl<SDValue> &OutVals = CLI.OutVals;
1038   SmallVectorImpl<ISD::InputArg> &Ins = CLI.Ins;
1039   SDValue Chain = CLI.Chain;
1040   SDValue Callee = CLI.Callee;
1041   bool &isTailCall = CLI.IsTailCall;
1042   ArgListTy &Args = CLI.getArgs();
1043   Type *retTy = CLI.RetTy;
1044   ImmutableCallSite *CS = CLI.CS;
1045
1046   bool isABI = (nvptxSubtarget.getSmVersion() >= 20);
1047   assert(isABI && "Non-ABI compilation is not supported");
1048   if (!isABI)
1049     return Chain;
1050   const DataLayout *TD = getDataLayout();
1051   MachineFunction &MF = DAG.getMachineFunction();
1052   const Function *F = MF.getFunction();
1053
1054   SDValue tempChain = Chain;
1055   Chain =
1056       DAG.getCALLSEQ_START(Chain, DAG.getIntPtrConstant(uniqueCallSite, true),
1057                            dl);
1058   SDValue InFlag = Chain.getValue(1);
1059
1060   unsigned paramCount = 0;
1061   // Args.size() and Outs.size() need not match.
1062   // Outs.size() will be larger
1063   //   * if there is an aggregate argument with multiple fields (each field
1064   //     showing up separately in Outs)
1065   //   * if there is a vector argument with more than typical vector-length
1066   //     elements (generally if more than 4) where each vector element is
1067   //     individually present in Outs.
1068   // So a different index should be used for indexing into Outs/OutVals.
1069   // See similar issue in LowerFormalArguments.
1070   unsigned OIdx = 0;
1071   // Declare the .params or .reg need to pass values
1072   // to the function
1073   for (unsigned i = 0, e = Args.size(); i != e; ++i, ++OIdx) {
1074     EVT VT = Outs[OIdx].VT;
1075     Type *Ty = Args[i].Ty;
1076
1077     if (Outs[OIdx].Flags.isByVal() == false) {
1078       if (Ty->isAggregateType()) {
1079         // aggregate
1080         SmallVector<EVT, 16> vtparts;
1081         SmallVector<uint64_t, 16> Offsets;
1082         ComputePTXValueVTs(*this, Ty, vtparts, &Offsets, 0);
1083
1084         unsigned align = getArgumentAlignment(Callee, CS, Ty, paramCount + 1);
1085         // declare .param .align <align> .b8 .param<n>[<size>];
1086         unsigned sz = TD->getTypeAllocSize(Ty);
1087         SDVTList DeclareParamVTs = DAG.getVTList(MVT::Other, MVT::Glue);
1088         SDValue DeclareParamOps[] = { Chain, DAG.getConstant(align, MVT::i32),
1089                                       DAG.getConstant(paramCount, MVT::i32),
1090                                       DAG.getConstant(sz, MVT::i32), InFlag };
1091         Chain = DAG.getNode(NVPTXISD::DeclareParam, dl, DeclareParamVTs,
1092                             DeclareParamOps);
1093         InFlag = Chain.getValue(1);
1094         for (unsigned j = 0, je = vtparts.size(); j != je; ++j) {
1095           EVT elemtype = vtparts[j];
1096           unsigned ArgAlign = GreatestCommonDivisor64(align, Offsets[j]);
1097           if (elemtype.isInteger() && (sz < 8))
1098             sz = 8;
1099           SDValue StVal = OutVals[OIdx];
1100           if (elemtype.getSizeInBits() < 16) {
1101             StVal = DAG.getNode(ISD::ANY_EXTEND, dl, MVT::i16, StVal);
1102           }
1103           SDVTList CopyParamVTs = DAG.getVTList(MVT::Other, MVT::Glue);
1104           SDValue CopyParamOps[] = { Chain,
1105                                      DAG.getConstant(paramCount, MVT::i32),
1106                                      DAG.getConstant(Offsets[j], MVT::i32),
1107                                      StVal, InFlag };
1108           Chain = DAG.getMemIntrinsicNode(NVPTXISD::StoreParam, dl,
1109                                           CopyParamVTs, CopyParamOps,
1110                                           elemtype, MachinePointerInfo(),
1111                                           ArgAlign);
1112           InFlag = Chain.getValue(1);
1113           ++OIdx;
1114         }
1115         if (vtparts.size() > 0)
1116           --OIdx;
1117         ++paramCount;
1118         continue;
1119       }
1120       if (Ty->isVectorTy()) {
1121         EVT ObjectVT = getValueType(Ty);
1122         unsigned align = getArgumentAlignment(Callee, CS, Ty, paramCount + 1);
1123         // declare .param .align <align> .b8 .param<n>[<size>];
1124         unsigned sz = TD->getTypeAllocSize(Ty);
1125         SDVTList DeclareParamVTs = DAG.getVTList(MVT::Other, MVT::Glue);
1126         SDValue DeclareParamOps[] = { Chain, DAG.getConstant(align, MVT::i32),
1127                                       DAG.getConstant(paramCount, MVT::i32),
1128                                       DAG.getConstant(sz, MVT::i32), InFlag };
1129         Chain = DAG.getNode(NVPTXISD::DeclareParam, dl, DeclareParamVTs,
1130                             DeclareParamOps);
1131         InFlag = Chain.getValue(1);
1132         unsigned NumElts = ObjectVT.getVectorNumElements();
1133         EVT EltVT = ObjectVT.getVectorElementType();
1134         EVT MemVT = EltVT;
1135         bool NeedExtend = false;
1136         if (EltVT.getSizeInBits() < 16) {
1137           NeedExtend = true;
1138           EltVT = MVT::i16;
1139         }
1140
1141         // V1 store
1142         if (NumElts == 1) {
1143           SDValue Elt = OutVals[OIdx++];
1144           if (NeedExtend)
1145             Elt = DAG.getNode(ISD::ZERO_EXTEND, dl, MVT::i16, Elt);
1146
1147           SDVTList CopyParamVTs = DAG.getVTList(MVT::Other, MVT::Glue);
1148           SDValue CopyParamOps[] = { Chain,
1149                                      DAG.getConstant(paramCount, MVT::i32),
1150                                      DAG.getConstant(0, MVT::i32), Elt,
1151                                      InFlag };
1152           Chain = DAG.getMemIntrinsicNode(NVPTXISD::StoreParam, dl,
1153                                           CopyParamVTs, CopyParamOps,
1154                                           MemVT, MachinePointerInfo());
1155           InFlag = Chain.getValue(1);
1156         } else if (NumElts == 2) {
1157           SDValue Elt0 = OutVals[OIdx++];
1158           SDValue Elt1 = OutVals[OIdx++];
1159           if (NeedExtend) {
1160             Elt0 = DAG.getNode(ISD::ZERO_EXTEND, dl, MVT::i16, Elt0);
1161             Elt1 = DAG.getNode(ISD::ZERO_EXTEND, dl, MVT::i16, Elt1);
1162           }
1163
1164           SDVTList CopyParamVTs = DAG.getVTList(MVT::Other, MVT::Glue);
1165           SDValue CopyParamOps[] = { Chain,
1166                                      DAG.getConstant(paramCount, MVT::i32),
1167                                      DAG.getConstant(0, MVT::i32), Elt0, Elt1,
1168                                      InFlag };
1169           Chain = DAG.getMemIntrinsicNode(NVPTXISD::StoreParamV2, dl,
1170                                           CopyParamVTs, CopyParamOps,
1171                                           MemVT, MachinePointerInfo());
1172           InFlag = Chain.getValue(1);
1173         } else {
1174           unsigned curOffset = 0;
1175           // V4 stores
1176           // We have at least 4 elements (<3 x Ty> expands to 4 elements) and
1177           // the
1178           // vector will be expanded to a power of 2 elements, so we know we can
1179           // always round up to the next multiple of 4 when creating the vector
1180           // stores.
1181           // e.g.  4 elem => 1 st.v4
1182           //       6 elem => 2 st.v4
1183           //       8 elem => 2 st.v4
1184           //      11 elem => 3 st.v4
1185           unsigned VecSize = 4;
1186           if (EltVT.getSizeInBits() == 64)
1187             VecSize = 2;
1188
1189           // This is potentially only part of a vector, so assume all elements
1190           // are packed together.
1191           unsigned PerStoreOffset = MemVT.getStoreSizeInBits() / 8 * VecSize;
1192
1193           for (unsigned i = 0; i < NumElts; i += VecSize) {
1194             // Get values
1195             SDValue StoreVal;
1196             SmallVector<SDValue, 8> Ops;
1197             Ops.push_back(Chain);
1198             Ops.push_back(DAG.getConstant(paramCount, MVT::i32));
1199             Ops.push_back(DAG.getConstant(curOffset, MVT::i32));
1200
1201             unsigned Opc = NVPTXISD::StoreParamV2;
1202
1203             StoreVal = OutVals[OIdx++];
1204             if (NeedExtend)
1205               StoreVal = DAG.getNode(ISD::ZERO_EXTEND, dl, MVT::i16, StoreVal);
1206             Ops.push_back(StoreVal);
1207
1208             if (i + 1 < NumElts) {
1209               StoreVal = OutVals[OIdx++];
1210               if (NeedExtend)
1211                 StoreVal =
1212                     DAG.getNode(ISD::ZERO_EXTEND, dl, MVT::i16, StoreVal);
1213             } else {
1214               StoreVal = DAG.getUNDEF(EltVT);
1215             }
1216             Ops.push_back(StoreVal);
1217
1218             if (VecSize == 4) {
1219               Opc = NVPTXISD::StoreParamV4;
1220               if (i + 2 < NumElts) {
1221                 StoreVal = OutVals[OIdx++];
1222                 if (NeedExtend)
1223                   StoreVal =
1224                       DAG.getNode(ISD::ZERO_EXTEND, dl, MVT::i16, StoreVal);
1225               } else {
1226                 StoreVal = DAG.getUNDEF(EltVT);
1227               }
1228               Ops.push_back(StoreVal);
1229
1230               if (i + 3 < NumElts) {
1231                 StoreVal = OutVals[OIdx++];
1232                 if (NeedExtend)
1233                   StoreVal =
1234                       DAG.getNode(ISD::ZERO_EXTEND, dl, MVT::i16, StoreVal);
1235               } else {
1236                 StoreVal = DAG.getUNDEF(EltVT);
1237               }
1238               Ops.push_back(StoreVal);
1239             }
1240
1241             Ops.push_back(InFlag);
1242
1243             SDVTList CopyParamVTs = DAG.getVTList(MVT::Other, MVT::Glue);
1244             Chain = DAG.getMemIntrinsicNode(Opc, dl, CopyParamVTs, Ops,
1245                                             MemVT, MachinePointerInfo());
1246             InFlag = Chain.getValue(1);
1247             curOffset += PerStoreOffset;
1248           }
1249         }
1250         ++paramCount;
1251         --OIdx;
1252         continue;
1253       }
1254       // Plain scalar
1255       // for ABI,    declare .param .b<size> .param<n>;
1256       unsigned sz = VT.getSizeInBits();
1257       bool needExtend = false;
1258       if (VT.isInteger()) {
1259         if (sz < 16)
1260           needExtend = true;
1261         if (sz < 32)
1262           sz = 32;
1263       }
1264       SDVTList DeclareParamVTs = DAG.getVTList(MVT::Other, MVT::Glue);
1265       SDValue DeclareParamOps[] = { Chain,
1266                                     DAG.getConstant(paramCount, MVT::i32),
1267                                     DAG.getConstant(sz, MVT::i32),
1268                                     DAG.getConstant(0, MVT::i32), InFlag };
1269       Chain = DAG.getNode(NVPTXISD::DeclareScalarParam, dl, DeclareParamVTs,
1270                           DeclareParamOps);
1271       InFlag = Chain.getValue(1);
1272       SDValue OutV = OutVals[OIdx];
1273       if (needExtend) {
1274         // zext/sext i1 to i16
1275         unsigned opc = ISD::ZERO_EXTEND;
1276         if (Outs[OIdx].Flags.isSExt())
1277           opc = ISD::SIGN_EXTEND;
1278         OutV = DAG.getNode(opc, dl, MVT::i16, OutV);
1279       }
1280       SDVTList CopyParamVTs = DAG.getVTList(MVT::Other, MVT::Glue);
1281       SDValue CopyParamOps[] = { Chain, DAG.getConstant(paramCount, MVT::i32),
1282                                  DAG.getConstant(0, MVT::i32), OutV, InFlag };
1283
1284       unsigned opcode = NVPTXISD::StoreParam;
1285       if (Outs[OIdx].Flags.isZExt())
1286         opcode = NVPTXISD::StoreParamU32;
1287       else if (Outs[OIdx].Flags.isSExt())
1288         opcode = NVPTXISD::StoreParamS32;
1289       Chain = DAG.getMemIntrinsicNode(opcode, dl, CopyParamVTs, CopyParamOps,
1290                                       VT, MachinePointerInfo());
1291
1292       InFlag = Chain.getValue(1);
1293       ++paramCount;
1294       continue;
1295     }
1296     // struct or vector
1297     SmallVector<EVT, 16> vtparts;
1298     SmallVector<uint64_t, 16> Offsets;
1299     const PointerType *PTy = dyn_cast<PointerType>(Args[i].Ty);
1300     assert(PTy && "Type of a byval parameter should be pointer");
1301     ComputePTXValueVTs(*this, PTy->getElementType(), vtparts, &Offsets, 0);
1302
1303     // declare .param .align <align> .b8 .param<n>[<size>];
1304     unsigned sz = Outs[OIdx].Flags.getByValSize();
1305     SDVTList DeclareParamVTs = DAG.getVTList(MVT::Other, MVT::Glue);
1306     unsigned ArgAlign = Outs[OIdx].Flags.getByValAlign();
1307     // The ByValAlign in the Outs[OIdx].Flags is alway set at this point,
1308     // so we don't need to worry about natural alignment or not.
1309     // See TargetLowering::LowerCallTo().
1310     SDValue DeclareParamOps[] = {
1311       Chain, DAG.getConstant(Outs[OIdx].Flags.getByValAlign(), MVT::i32),
1312       DAG.getConstant(paramCount, MVT::i32), DAG.getConstant(sz, MVT::i32),
1313       InFlag
1314     };
1315     Chain = DAG.getNode(NVPTXISD::DeclareParam, dl, DeclareParamVTs,
1316                         DeclareParamOps);
1317     InFlag = Chain.getValue(1);
1318     for (unsigned j = 0, je = vtparts.size(); j != je; ++j) {
1319       EVT elemtype = vtparts[j];
1320       int curOffset = Offsets[j];
1321       unsigned PartAlign = GreatestCommonDivisor64(ArgAlign, curOffset);
1322       SDValue srcAddr =
1323           DAG.getNode(ISD::ADD, dl, getPointerTy(), OutVals[OIdx],
1324                       DAG.getConstant(curOffset, getPointerTy()));
1325       SDValue theVal = DAG.getLoad(elemtype, dl, tempChain, srcAddr,
1326                                    MachinePointerInfo(), false, false, false,
1327                                    PartAlign);
1328       if (elemtype.getSizeInBits() < 16) {
1329         theVal = DAG.getNode(ISD::ANY_EXTEND, dl, MVT::i16, theVal);
1330       }
1331       SDVTList CopyParamVTs = DAG.getVTList(MVT::Other, MVT::Glue);
1332       SDValue CopyParamOps[] = { Chain, DAG.getConstant(paramCount, MVT::i32),
1333                                  DAG.getConstant(curOffset, MVT::i32), theVal,
1334                                  InFlag };
1335       Chain = DAG.getMemIntrinsicNode(NVPTXISD::StoreParam, dl, CopyParamVTs,
1336                                       CopyParamOps, elemtype,
1337                                       MachinePointerInfo());
1338
1339       InFlag = Chain.getValue(1);
1340     }
1341     ++paramCount;
1342   }
1343
1344   GlobalAddressSDNode *Func = dyn_cast<GlobalAddressSDNode>(Callee.getNode());
1345   unsigned retAlignment = 0;
1346
1347   // Handle Result
1348   if (Ins.size() > 0) {
1349     SmallVector<EVT, 16> resvtparts;
1350     ComputeValueVTs(*this, retTy, resvtparts);
1351
1352     // Declare
1353     //  .param .align 16 .b8 retval0[<size-in-bytes>], or
1354     //  .param .b<size-in-bits> retval0
1355     unsigned resultsz = TD->getTypeAllocSizeInBits(retTy);
1356     // Emit ".param .b<size-in-bits> retval0" instead of byte arrays only for
1357     // these three types to match the logic in
1358     // NVPTXAsmPrinter::printReturnValStr and NVPTXTargetLowering::getPrototype.
1359     // Plus, this behavior is consistent with nvcc's.
1360     if (retTy->isFloatingPointTy() || retTy->isIntegerTy() ||
1361         retTy->isPointerTy()) {
1362       // Scalar needs to be at least 32bit wide
1363       if (resultsz < 32)
1364         resultsz = 32;
1365       SDVTList DeclareRetVTs = DAG.getVTList(MVT::Other, MVT::Glue);
1366       SDValue DeclareRetOps[] = { Chain, DAG.getConstant(1, MVT::i32),
1367                                   DAG.getConstant(resultsz, MVT::i32),
1368                                   DAG.getConstant(0, MVT::i32), InFlag };
1369       Chain = DAG.getNode(NVPTXISD::DeclareRet, dl, DeclareRetVTs,
1370                           DeclareRetOps);
1371       InFlag = Chain.getValue(1);
1372     } else {
1373       retAlignment = getArgumentAlignment(Callee, CS, retTy, 0);
1374       SDVTList DeclareRetVTs = DAG.getVTList(MVT::Other, MVT::Glue);
1375       SDValue DeclareRetOps[] = { Chain,
1376                                   DAG.getConstant(retAlignment, MVT::i32),
1377                                   DAG.getConstant(resultsz / 8, MVT::i32),
1378                                   DAG.getConstant(0, MVT::i32), InFlag };
1379       Chain = DAG.getNode(NVPTXISD::DeclareRetParam, dl, DeclareRetVTs,
1380                           DeclareRetOps);
1381       InFlag = Chain.getValue(1);
1382     }
1383   }
1384
1385   if (!Func) {
1386     // This is indirect function call case : PTX requires a prototype of the
1387     // form
1388     // proto_0 : .callprototype(.param .b32 _) _ (.param .b32 _);
1389     // to be emitted, and the label has to used as the last arg of call
1390     // instruction.
1391     // The prototype is embedded in a string and put as the operand for a
1392     // CallPrototype SDNode which will print out to the value of the string.
1393     SDVTList ProtoVTs = DAG.getVTList(MVT::Other, MVT::Glue);
1394     std::string Proto = getPrototype(retTy, Args, Outs, retAlignment, CS);
1395     const char *ProtoStr =
1396       nvTM->getManagedStrPool()->getManagedString(Proto.c_str())->c_str();
1397     SDValue ProtoOps[] = {
1398       Chain, DAG.getTargetExternalSymbol(ProtoStr, MVT::i32), InFlag,
1399     };
1400     Chain = DAG.getNode(NVPTXISD::CallPrototype, dl, ProtoVTs, ProtoOps);
1401     InFlag = Chain.getValue(1);
1402   }
1403   // Op to just print "call"
1404   SDVTList PrintCallVTs = DAG.getVTList(MVT::Other, MVT::Glue);
1405   SDValue PrintCallOps[] = {
1406     Chain, DAG.getConstant((Ins.size() == 0) ? 0 : 1, MVT::i32), InFlag
1407   };
1408   Chain = DAG.getNode(Func ? (NVPTXISD::PrintCallUni) : (NVPTXISD::PrintCall),
1409                       dl, PrintCallVTs, PrintCallOps);
1410   InFlag = Chain.getValue(1);
1411
1412   // Ops to print out the function name
1413   SDVTList CallVoidVTs = DAG.getVTList(MVT::Other, MVT::Glue);
1414   SDValue CallVoidOps[] = { Chain, Callee, InFlag };
1415   Chain = DAG.getNode(NVPTXISD::CallVoid, dl, CallVoidVTs, CallVoidOps);
1416   InFlag = Chain.getValue(1);
1417
1418   // Ops to print out the param list
1419   SDVTList CallArgBeginVTs = DAG.getVTList(MVT::Other, MVT::Glue);
1420   SDValue CallArgBeginOps[] = { Chain, InFlag };
1421   Chain = DAG.getNode(NVPTXISD::CallArgBegin, dl, CallArgBeginVTs,
1422                       CallArgBeginOps);
1423   InFlag = Chain.getValue(1);
1424
1425   for (unsigned i = 0, e = paramCount; i != e; ++i) {
1426     unsigned opcode;
1427     if (i == (e - 1))
1428       opcode = NVPTXISD::LastCallArg;
1429     else
1430       opcode = NVPTXISD::CallArg;
1431     SDVTList CallArgVTs = DAG.getVTList(MVT::Other, MVT::Glue);
1432     SDValue CallArgOps[] = { Chain, DAG.getConstant(1, MVT::i32),
1433                              DAG.getConstant(i, MVT::i32), InFlag };
1434     Chain = DAG.getNode(opcode, dl, CallArgVTs, CallArgOps);
1435     InFlag = Chain.getValue(1);
1436   }
1437   SDVTList CallArgEndVTs = DAG.getVTList(MVT::Other, MVT::Glue);
1438   SDValue CallArgEndOps[] = { Chain, DAG.getConstant(Func ? 1 : 0, MVT::i32),
1439                               InFlag };
1440   Chain = DAG.getNode(NVPTXISD::CallArgEnd, dl, CallArgEndVTs, CallArgEndOps);
1441   InFlag = Chain.getValue(1);
1442
1443   if (!Func) {
1444     SDVTList PrototypeVTs = DAG.getVTList(MVT::Other, MVT::Glue);
1445     SDValue PrototypeOps[] = { Chain, DAG.getConstant(uniqueCallSite, MVT::i32),
1446                                InFlag };
1447     Chain = DAG.getNode(NVPTXISD::Prototype, dl, PrototypeVTs, PrototypeOps);
1448     InFlag = Chain.getValue(1);
1449   }
1450
1451   // Generate loads from param memory/moves from registers for result
1452   if (Ins.size() > 0) {
1453     if (retTy && retTy->isVectorTy()) {
1454       EVT ObjectVT = getValueType(retTy);
1455       unsigned NumElts = ObjectVT.getVectorNumElements();
1456       EVT EltVT = ObjectVT.getVectorElementType();
1457       assert(nvTM->getSubtargetImpl()->getTargetLowering()->getNumRegisters(
1458                  F->getContext(), ObjectVT) == NumElts &&
1459              "Vector was not scalarized");
1460       unsigned sz = EltVT.getSizeInBits();
1461       bool needTruncate = sz < 8 ? true : false;
1462
1463       if (NumElts == 1) {
1464         // Just a simple load
1465         SmallVector<EVT, 4> LoadRetVTs;
1466         if (EltVT == MVT::i1 || EltVT == MVT::i8) {
1467           // If loading i1/i8 result, generate
1468           //   load.b8 i16
1469           //   if i1
1470           //   trunc i16 to i1
1471           LoadRetVTs.push_back(MVT::i16);
1472         } else
1473           LoadRetVTs.push_back(EltVT);
1474         LoadRetVTs.push_back(MVT::Other);
1475         LoadRetVTs.push_back(MVT::Glue);
1476         SmallVector<SDValue, 4> LoadRetOps;
1477         LoadRetOps.push_back(Chain);
1478         LoadRetOps.push_back(DAG.getConstant(1, MVT::i32));
1479         LoadRetOps.push_back(DAG.getConstant(0, MVT::i32));
1480         LoadRetOps.push_back(InFlag);
1481         SDValue retval = DAG.getMemIntrinsicNode(
1482             NVPTXISD::LoadParam, dl,
1483             DAG.getVTList(LoadRetVTs), LoadRetOps, EltVT, MachinePointerInfo());
1484         Chain = retval.getValue(1);
1485         InFlag = retval.getValue(2);
1486         SDValue Ret0 = retval;
1487         if (needTruncate)
1488           Ret0 = DAG.getNode(ISD::TRUNCATE, dl, EltVT, Ret0);
1489         InVals.push_back(Ret0);
1490       } else if (NumElts == 2) {
1491         // LoadV2
1492         SmallVector<EVT, 4> LoadRetVTs;
1493         if (EltVT == MVT::i1 || EltVT == MVT::i8) {
1494           // If loading i1/i8 result, generate
1495           //   load.b8 i16
1496           //   if i1
1497           //   trunc i16 to i1
1498           LoadRetVTs.push_back(MVT::i16);
1499           LoadRetVTs.push_back(MVT::i16);
1500         } else {
1501           LoadRetVTs.push_back(EltVT);
1502           LoadRetVTs.push_back(EltVT);
1503         }
1504         LoadRetVTs.push_back(MVT::Other);
1505         LoadRetVTs.push_back(MVT::Glue);
1506         SmallVector<SDValue, 4> LoadRetOps;
1507         LoadRetOps.push_back(Chain);
1508         LoadRetOps.push_back(DAG.getConstant(1, MVT::i32));
1509         LoadRetOps.push_back(DAG.getConstant(0, MVT::i32));
1510         LoadRetOps.push_back(InFlag);
1511         SDValue retval = DAG.getMemIntrinsicNode(
1512             NVPTXISD::LoadParamV2, dl,
1513             DAG.getVTList(LoadRetVTs), LoadRetOps, EltVT, MachinePointerInfo());
1514         Chain = retval.getValue(2);
1515         InFlag = retval.getValue(3);
1516         SDValue Ret0 = retval.getValue(0);
1517         SDValue Ret1 = retval.getValue(1);
1518         if (needTruncate) {
1519           Ret0 = DAG.getNode(ISD::TRUNCATE, dl, MVT::i1, Ret0);
1520           InVals.push_back(Ret0);
1521           Ret1 = DAG.getNode(ISD::TRUNCATE, dl, MVT::i1, Ret1);
1522           InVals.push_back(Ret1);
1523         } else {
1524           InVals.push_back(Ret0);
1525           InVals.push_back(Ret1);
1526         }
1527       } else {
1528         // Split into N LoadV4
1529         unsigned Ofst = 0;
1530         unsigned VecSize = 4;
1531         unsigned Opc = NVPTXISD::LoadParamV4;
1532         if (EltVT.getSizeInBits() == 64) {
1533           VecSize = 2;
1534           Opc = NVPTXISD::LoadParamV2;
1535         }
1536         EVT VecVT = EVT::getVectorVT(F->getContext(), EltVT, VecSize);
1537         for (unsigned i = 0; i < NumElts; i += VecSize) {
1538           SmallVector<EVT, 8> LoadRetVTs;
1539           if (EltVT == MVT::i1 || EltVT == MVT::i8) {
1540             // If loading i1/i8 result, generate
1541             //   load.b8 i16
1542             //   if i1
1543             //   trunc i16 to i1
1544             for (unsigned j = 0; j < VecSize; ++j)
1545               LoadRetVTs.push_back(MVT::i16);
1546           } else {
1547             for (unsigned j = 0; j < VecSize; ++j)
1548               LoadRetVTs.push_back(EltVT);
1549           }
1550           LoadRetVTs.push_back(MVT::Other);
1551           LoadRetVTs.push_back(MVT::Glue);
1552           SmallVector<SDValue, 4> LoadRetOps;
1553           LoadRetOps.push_back(Chain);
1554           LoadRetOps.push_back(DAG.getConstant(1, MVT::i32));
1555           LoadRetOps.push_back(DAG.getConstant(Ofst, MVT::i32));
1556           LoadRetOps.push_back(InFlag);
1557           SDValue retval = DAG.getMemIntrinsicNode(
1558               Opc, dl, DAG.getVTList(LoadRetVTs),
1559               LoadRetOps, EltVT, MachinePointerInfo());
1560           if (VecSize == 2) {
1561             Chain = retval.getValue(2);
1562             InFlag = retval.getValue(3);
1563           } else {
1564             Chain = retval.getValue(4);
1565             InFlag = retval.getValue(5);
1566           }
1567
1568           for (unsigned j = 0; j < VecSize; ++j) {
1569             if (i + j >= NumElts)
1570               break;
1571             SDValue Elt = retval.getValue(j);
1572             if (needTruncate)
1573               Elt = DAG.getNode(ISD::TRUNCATE, dl, EltVT, Elt);
1574             InVals.push_back(Elt);
1575           }
1576           Ofst += TD->getTypeAllocSize(VecVT.getTypeForEVT(F->getContext()));
1577         }
1578       }
1579     } else {
1580       SmallVector<EVT, 16> VTs;
1581       SmallVector<uint64_t, 16> Offsets;
1582       ComputePTXValueVTs(*this, retTy, VTs, &Offsets, 0);
1583       assert(VTs.size() == Ins.size() && "Bad value decomposition");
1584       unsigned RetAlign = getArgumentAlignment(Callee, CS, retTy, 0);
1585       for (unsigned i = 0, e = Ins.size(); i != e; ++i) {
1586         unsigned sz = VTs[i].getSizeInBits();
1587         unsigned AlignI = GreatestCommonDivisor64(RetAlign, Offsets[i]);
1588         bool needTruncate = sz < 8 ? true : false;
1589         if (VTs[i].isInteger() && (sz < 8))
1590           sz = 8;
1591
1592         SmallVector<EVT, 4> LoadRetVTs;
1593         EVT TheLoadType = VTs[i];
1594         if (retTy->isIntegerTy() &&
1595             TD->getTypeAllocSizeInBits(retTy) < 32) {
1596           // This is for integer types only, and specifically not for
1597           // aggregates.
1598           LoadRetVTs.push_back(MVT::i32);
1599           TheLoadType = MVT::i32;
1600         } else if (sz < 16) {
1601           // If loading i1/i8 result, generate
1602           //   load i8 (-> i16)
1603           //   trunc i16 to i1/i8
1604           LoadRetVTs.push_back(MVT::i16);
1605         } else
1606           LoadRetVTs.push_back(Ins[i].VT);
1607         LoadRetVTs.push_back(MVT::Other);
1608         LoadRetVTs.push_back(MVT::Glue);
1609
1610         SmallVector<SDValue, 4> LoadRetOps;
1611         LoadRetOps.push_back(Chain);
1612         LoadRetOps.push_back(DAG.getConstant(1, MVT::i32));
1613         LoadRetOps.push_back(DAG.getConstant(Offsets[i], MVT::i32));
1614         LoadRetOps.push_back(InFlag);
1615         SDValue retval = DAG.getMemIntrinsicNode(
1616             NVPTXISD::LoadParam, dl,
1617             DAG.getVTList(LoadRetVTs), LoadRetOps,
1618             TheLoadType, MachinePointerInfo(), AlignI);
1619         Chain = retval.getValue(1);
1620         InFlag = retval.getValue(2);
1621         SDValue Ret0 = retval.getValue(0);
1622         if (needTruncate)
1623           Ret0 = DAG.getNode(ISD::TRUNCATE, dl, Ins[i].VT, Ret0);
1624         InVals.push_back(Ret0);
1625       }
1626     }
1627   }
1628
1629   Chain = DAG.getCALLSEQ_END(Chain, DAG.getIntPtrConstant(uniqueCallSite, true),
1630                              DAG.getIntPtrConstant(uniqueCallSite + 1, true),
1631                              InFlag, dl);
1632   uniqueCallSite++;
1633
1634   // set isTailCall to false for now, until we figure out how to express
1635   // tail call optimization in PTX
1636   isTailCall = false;
1637   return Chain;
1638 }
1639
1640 // By default CONCAT_VECTORS is lowered by ExpandVectorBuildThroughStack()
1641 // (see LegalizeDAG.cpp). This is slow and uses local memory.
1642 // We use extract/insert/build vector just as what LegalizeOp() does in llvm 2.5
1643 SDValue
1644 NVPTXTargetLowering::LowerCONCAT_VECTORS(SDValue Op, SelectionDAG &DAG) const {
1645   SDNode *Node = Op.getNode();
1646   SDLoc dl(Node);
1647   SmallVector<SDValue, 8> Ops;
1648   unsigned NumOperands = Node->getNumOperands();
1649   for (unsigned i = 0; i < NumOperands; ++i) {
1650     SDValue SubOp = Node->getOperand(i);
1651     EVT VVT = SubOp.getNode()->getValueType(0);
1652     EVT EltVT = VVT.getVectorElementType();
1653     unsigned NumSubElem = VVT.getVectorNumElements();
1654     for (unsigned j = 0; j < NumSubElem; ++j) {
1655       Ops.push_back(DAG.getNode(ISD::EXTRACT_VECTOR_ELT, dl, EltVT, SubOp,
1656                                 DAG.getIntPtrConstant(j)));
1657     }
1658   }
1659   return DAG.getNode(ISD::BUILD_VECTOR, dl, Node->getValueType(0), Ops);
1660 }
1661
1662 /// LowerShiftRightParts - Lower SRL_PARTS, SRA_PARTS, which
1663 /// 1) returns two i32 values and take a 2 x i32 value to shift plus a shift
1664 ///    amount, or
1665 /// 2) returns two i64 values and take a 2 x i64 value to shift plus a shift
1666 ///    amount.
1667 SDValue NVPTXTargetLowering::LowerShiftRightParts(SDValue Op,
1668                                                   SelectionDAG &DAG) const {
1669   assert(Op.getNumOperands() == 3 && "Not a double-shift!");
1670   assert(Op.getOpcode() == ISD::SRA_PARTS || Op.getOpcode() == ISD::SRL_PARTS);
1671
1672   EVT VT = Op.getValueType();
1673   unsigned VTBits = VT.getSizeInBits();
1674   SDLoc dl(Op);
1675   SDValue ShOpLo = Op.getOperand(0);
1676   SDValue ShOpHi = Op.getOperand(1);
1677   SDValue ShAmt  = Op.getOperand(2);
1678   unsigned Opc = (Op.getOpcode() == ISD::SRA_PARTS) ? ISD::SRA : ISD::SRL;
1679
1680   if (VTBits == 32 && nvptxSubtarget.getSmVersion() >= 35) {
1681
1682     // For 32bit and sm35, we can use the funnel shift 'shf' instruction.
1683     // {dHi, dLo} = {aHi, aLo} >> Amt
1684     //   dHi = aHi >> Amt
1685     //   dLo = shf.r.clamp aLo, aHi, Amt
1686
1687     SDValue Hi = DAG.getNode(Opc, dl, VT, ShOpHi, ShAmt);
1688     SDValue Lo = DAG.getNode(NVPTXISD::FUN_SHFR_CLAMP, dl, VT, ShOpLo, ShOpHi,
1689                              ShAmt);
1690
1691     SDValue Ops[2] = { Lo, Hi };
1692     return DAG.getMergeValues(Ops, dl);
1693   }
1694   else {
1695
1696     // {dHi, dLo} = {aHi, aLo} >> Amt
1697     // - if (Amt>=size) then
1698     //      dLo = aHi >> (Amt-size)
1699     //      dHi = aHi >> Amt (this is either all 0 or all 1)
1700     //   else
1701     //      dLo = (aLo >>logic Amt) | (aHi << (size-Amt))
1702     //      dHi = aHi >> Amt
1703
1704     SDValue RevShAmt = DAG.getNode(ISD::SUB, dl, MVT::i32,
1705                                    DAG.getConstant(VTBits, MVT::i32), ShAmt);
1706     SDValue Tmp1 = DAG.getNode(ISD::SRL, dl, VT, ShOpLo, ShAmt);
1707     SDValue ExtraShAmt = DAG.getNode(ISD::SUB, dl, MVT::i32, ShAmt,
1708                                      DAG.getConstant(VTBits, MVT::i32));
1709     SDValue Tmp2 = DAG.getNode(ISD::SHL, dl, VT, ShOpHi, RevShAmt);
1710     SDValue FalseVal = DAG.getNode(ISD::OR, dl, VT, Tmp1, Tmp2);
1711     SDValue TrueVal = DAG.getNode(Opc, dl, VT, ShOpHi, ExtraShAmt);
1712
1713     SDValue Cmp = DAG.getSetCC(dl, MVT::i1, ShAmt,
1714                                DAG.getConstant(VTBits, MVT::i32), ISD::SETGE);
1715     SDValue Hi = DAG.getNode(Opc, dl, VT, ShOpHi, ShAmt);
1716     SDValue Lo = DAG.getNode(ISD::SELECT, dl, VT, Cmp, TrueVal, FalseVal);
1717
1718     SDValue Ops[2] = { Lo, Hi };
1719     return DAG.getMergeValues(Ops, dl);
1720   }
1721 }
1722
1723 /// LowerShiftLeftParts - Lower SHL_PARTS, which
1724 /// 1) returns two i32 values and take a 2 x i32 value to shift plus a shift
1725 ///    amount, or
1726 /// 2) returns two i64 values and take a 2 x i64 value to shift plus a shift
1727 ///    amount.
1728 SDValue NVPTXTargetLowering::LowerShiftLeftParts(SDValue Op,
1729                                                  SelectionDAG &DAG) const {
1730   assert(Op.getNumOperands() == 3 && "Not a double-shift!");
1731   assert(Op.getOpcode() == ISD::SHL_PARTS);
1732
1733   EVT VT = Op.getValueType();
1734   unsigned VTBits = VT.getSizeInBits();
1735   SDLoc dl(Op);
1736   SDValue ShOpLo = Op.getOperand(0);
1737   SDValue ShOpHi = Op.getOperand(1);
1738   SDValue ShAmt  = Op.getOperand(2);
1739
1740   if (VTBits == 32 && nvptxSubtarget.getSmVersion() >= 35) {
1741
1742     // For 32bit and sm35, we can use the funnel shift 'shf' instruction.
1743     // {dHi, dLo} = {aHi, aLo} << Amt
1744     //   dHi = shf.l.clamp aLo, aHi, Amt
1745     //   dLo = aLo << Amt
1746
1747     SDValue Hi = DAG.getNode(NVPTXISD::FUN_SHFL_CLAMP, dl, VT, ShOpLo, ShOpHi,
1748                              ShAmt);
1749     SDValue Lo = DAG.getNode(ISD::SHL, dl, VT, ShOpLo, ShAmt);
1750
1751     SDValue Ops[2] = { Lo, Hi };
1752     return DAG.getMergeValues(Ops, dl);
1753   }
1754   else {
1755
1756     // {dHi, dLo} = {aHi, aLo} << Amt
1757     // - if (Amt>=size) then
1758     //      dLo = aLo << Amt (all 0)
1759     //      dLo = aLo << (Amt-size)
1760     //   else
1761     //      dLo = aLo << Amt
1762     //      dHi = (aHi << Amt) | (aLo >> (size-Amt))
1763
1764     SDValue RevShAmt = DAG.getNode(ISD::SUB, dl, MVT::i32,
1765                                    DAG.getConstant(VTBits, MVT::i32), ShAmt);
1766     SDValue Tmp1 = DAG.getNode(ISD::SHL, dl, VT, ShOpHi, ShAmt);
1767     SDValue ExtraShAmt = DAG.getNode(ISD::SUB, dl, MVT::i32, ShAmt,
1768                                      DAG.getConstant(VTBits, MVT::i32));
1769     SDValue Tmp2 = DAG.getNode(ISD::SRL, dl, VT, ShOpLo, RevShAmt);
1770     SDValue FalseVal = DAG.getNode(ISD::OR, dl, VT, Tmp1, Tmp2);
1771     SDValue TrueVal = DAG.getNode(ISD::SHL, dl, VT, ShOpLo, ExtraShAmt);
1772
1773     SDValue Cmp = DAG.getSetCC(dl, MVT::i1, ShAmt,
1774                                DAG.getConstant(VTBits, MVT::i32), ISD::SETGE);
1775     SDValue Lo = DAG.getNode(ISD::SHL, dl, VT, ShOpLo, ShAmt);
1776     SDValue Hi = DAG.getNode(ISD::SELECT, dl, VT, Cmp, TrueVal, FalseVal);
1777
1778     SDValue Ops[2] = { Lo, Hi };
1779     return DAG.getMergeValues(Ops, dl);
1780   }
1781 }
1782
1783 SDValue
1784 NVPTXTargetLowering::LowerOperation(SDValue Op, SelectionDAG &DAG) const {
1785   switch (Op.getOpcode()) {
1786   case ISD::RETURNADDR:
1787     return SDValue();
1788   case ISD::FRAMEADDR:
1789     return SDValue();
1790   case ISD::GlobalAddress:
1791     return LowerGlobalAddress(Op, DAG);
1792   case ISD::INTRINSIC_W_CHAIN:
1793     return Op;
1794   case ISD::BUILD_VECTOR:
1795   case ISD::EXTRACT_SUBVECTOR:
1796     return Op;
1797   case ISD::CONCAT_VECTORS:
1798     return LowerCONCAT_VECTORS(Op, DAG);
1799   case ISD::STORE:
1800     return LowerSTORE(Op, DAG);
1801   case ISD::LOAD:
1802     return LowerLOAD(Op, DAG);
1803   case ISD::SHL_PARTS:
1804     return LowerShiftLeftParts(Op, DAG);
1805   case ISD::SRA_PARTS:
1806   case ISD::SRL_PARTS:
1807     return LowerShiftRightParts(Op, DAG);
1808   default:
1809     llvm_unreachable("Custom lowering not defined for operation");
1810   }
1811 }
1812
1813 SDValue NVPTXTargetLowering::LowerLOAD(SDValue Op, SelectionDAG &DAG) const {
1814   if (Op.getValueType() == MVT::i1)
1815     return LowerLOADi1(Op, DAG);
1816   else
1817     return SDValue();
1818 }
1819
1820 // v = ld i1* addr
1821 //   =>
1822 // v1 = ld i8* addr (-> i16)
1823 // v = trunc i16 to i1
1824 SDValue NVPTXTargetLowering::LowerLOADi1(SDValue Op, SelectionDAG &DAG) const {
1825   SDNode *Node = Op.getNode();
1826   LoadSDNode *LD = cast<LoadSDNode>(Node);
1827   SDLoc dl(Node);
1828   assert(LD->getExtensionType() == ISD::NON_EXTLOAD);
1829   assert(Node->getValueType(0) == MVT::i1 &&
1830          "Custom lowering for i1 load only");
1831   SDValue newLD =
1832       DAG.getLoad(MVT::i16, dl, LD->getChain(), LD->getBasePtr(),
1833                   LD->getPointerInfo(), LD->isVolatile(), LD->isNonTemporal(),
1834                   LD->isInvariant(), LD->getAlignment());
1835   SDValue result = DAG.getNode(ISD::TRUNCATE, dl, MVT::i1, newLD);
1836   // The legalizer (the caller) is expecting two values from the legalized
1837   // load, so we build a MergeValues node for it. See ExpandUnalignedLoad()
1838   // in LegalizeDAG.cpp which also uses MergeValues.
1839   SDValue Ops[] = { result, LD->getChain() };
1840   return DAG.getMergeValues(Ops, dl);
1841 }
1842
1843 SDValue NVPTXTargetLowering::LowerSTORE(SDValue Op, SelectionDAG &DAG) const {
1844   EVT ValVT = Op.getOperand(1).getValueType();
1845   if (ValVT == MVT::i1)
1846     return LowerSTOREi1(Op, DAG);
1847   else if (ValVT.isVector())
1848     return LowerSTOREVector(Op, DAG);
1849   else
1850     return SDValue();
1851 }
1852
1853 SDValue
1854 NVPTXTargetLowering::LowerSTOREVector(SDValue Op, SelectionDAG &DAG) const {
1855   SDNode *N = Op.getNode();
1856   SDValue Val = N->getOperand(1);
1857   SDLoc DL(N);
1858   EVT ValVT = Val.getValueType();
1859
1860   if (ValVT.isVector()) {
1861     // We only handle "native" vector sizes for now, e.g. <4 x double> is not
1862     // legal.  We can (and should) split that into 2 stores of <2 x double> here
1863     // but I'm leaving that as a TODO for now.
1864     if (!ValVT.isSimple())
1865       return SDValue();
1866     switch (ValVT.getSimpleVT().SimpleTy) {
1867     default:
1868       return SDValue();
1869     case MVT::v2i8:
1870     case MVT::v2i16:
1871     case MVT::v2i32:
1872     case MVT::v2i64:
1873     case MVT::v2f32:
1874     case MVT::v2f64:
1875     case MVT::v4i8:
1876     case MVT::v4i16:
1877     case MVT::v4i32:
1878     case MVT::v4f32:
1879       // This is a "native" vector type
1880       break;
1881     }
1882
1883     MemSDNode *MemSD = cast<MemSDNode>(N);
1884     const DataLayout *TD = getDataLayout();
1885
1886     unsigned Align = MemSD->getAlignment();
1887     unsigned PrefAlign =
1888       TD->getPrefTypeAlignment(ValVT.getTypeForEVT(*DAG.getContext()));
1889     if (Align < PrefAlign) {
1890       // This store is not sufficiently aligned, so bail out and let this vector
1891       // store be scalarized.  Note that we may still be able to emit smaller
1892       // vector stores.  For example, if we are storing a <4 x float> with an
1893       // alignment of 8, this check will fail but the legalizer will try again
1894       // with 2 x <2 x float>, which will succeed with an alignment of 8.
1895       return SDValue();
1896     }
1897
1898     unsigned Opcode = 0;
1899     EVT EltVT = ValVT.getVectorElementType();
1900     unsigned NumElts = ValVT.getVectorNumElements();
1901
1902     // Since StoreV2 is a target node, we cannot rely on DAG type legalization.
1903     // Therefore, we must ensure the type is legal.  For i1 and i8, we set the
1904     // stored type to i16 and propagate the "real" type as the memory type.
1905     bool NeedExt = false;
1906     if (EltVT.getSizeInBits() < 16)
1907       NeedExt = true;
1908
1909     switch (NumElts) {
1910     default:
1911       return SDValue();
1912     case 2:
1913       Opcode = NVPTXISD::StoreV2;
1914       break;
1915     case 4: {
1916       Opcode = NVPTXISD::StoreV4;
1917       break;
1918     }
1919     }
1920
1921     SmallVector<SDValue, 8> Ops;
1922
1923     // First is the chain
1924     Ops.push_back(N->getOperand(0));
1925
1926     // Then the split values
1927     for (unsigned i = 0; i < NumElts; ++i) {
1928       SDValue ExtVal = DAG.getNode(ISD::EXTRACT_VECTOR_ELT, DL, EltVT, Val,
1929                                    DAG.getIntPtrConstant(i));
1930       if (NeedExt)
1931         ExtVal = DAG.getNode(ISD::ANY_EXTEND, DL, MVT::i16, ExtVal);
1932       Ops.push_back(ExtVal);
1933     }
1934
1935     // Then any remaining arguments
1936     for (unsigned i = 2, e = N->getNumOperands(); i != e; ++i) {
1937       Ops.push_back(N->getOperand(i));
1938     }
1939
1940     SDValue NewSt = DAG.getMemIntrinsicNode(
1941         Opcode, DL, DAG.getVTList(MVT::Other), Ops,
1942         MemSD->getMemoryVT(), MemSD->getMemOperand());
1943
1944     //return DCI.CombineTo(N, NewSt, true);
1945     return NewSt;
1946   }
1947
1948   return SDValue();
1949 }
1950
1951 // st i1 v, addr
1952 //    =>
1953 // v1 = zxt v to i16
1954 // st.u8 i16, addr
1955 SDValue NVPTXTargetLowering::LowerSTOREi1(SDValue Op, SelectionDAG &DAG) const {
1956   SDNode *Node = Op.getNode();
1957   SDLoc dl(Node);
1958   StoreSDNode *ST = cast<StoreSDNode>(Node);
1959   SDValue Tmp1 = ST->getChain();
1960   SDValue Tmp2 = ST->getBasePtr();
1961   SDValue Tmp3 = ST->getValue();
1962   assert(Tmp3.getValueType() == MVT::i1 && "Custom lowering for i1 store only");
1963   unsigned Alignment = ST->getAlignment();
1964   bool isVolatile = ST->isVolatile();
1965   bool isNonTemporal = ST->isNonTemporal();
1966   Tmp3 = DAG.getNode(ISD::ZERO_EXTEND, dl, MVT::i16, Tmp3);
1967   SDValue Result = DAG.getTruncStore(Tmp1, dl, Tmp3, Tmp2,
1968                                      ST->getPointerInfo(), MVT::i8, isNonTemporal,
1969                                      isVolatile, Alignment);
1970   return Result;
1971 }
1972
1973 SDValue NVPTXTargetLowering::getExtSymb(SelectionDAG &DAG, const char *inname,
1974                                         int idx, EVT v) const {
1975   std::string *name = nvTM->getManagedStrPool()->getManagedString(inname);
1976   std::stringstream suffix;
1977   suffix << idx;
1978   *name += suffix.str();
1979   return DAG.getTargetExternalSymbol(name->c_str(), v);
1980 }
1981
1982 SDValue
1983 NVPTXTargetLowering::getParamSymbol(SelectionDAG &DAG, int idx, EVT v) const {
1984   std::string ParamSym;
1985   raw_string_ostream ParamStr(ParamSym);
1986
1987   ParamStr << DAG.getMachineFunction().getName() << "_param_" << idx;
1988   ParamStr.flush();
1989
1990   std::string *SavedStr =
1991     nvTM->getManagedStrPool()->getManagedString(ParamSym.c_str());
1992   return DAG.getTargetExternalSymbol(SavedStr->c_str(), v);
1993 }
1994
1995 SDValue NVPTXTargetLowering::getParamHelpSymbol(SelectionDAG &DAG, int idx) {
1996   return getExtSymb(DAG, ".HLPPARAM", idx);
1997 }
1998
1999 // Check to see if the kernel argument is image*_t or sampler_t
2000
2001 bool llvm::isImageOrSamplerVal(const Value *arg, const Module *context) {
2002   static const char *const specialTypes[] = { "struct._image2d_t",
2003                                               "struct._image3d_t",
2004                                               "struct._sampler_t" };
2005
2006   const Type *Ty = arg->getType();
2007   const PointerType *PTy = dyn_cast<PointerType>(Ty);
2008
2009   if (!PTy)
2010     return false;
2011
2012   if (!context)
2013     return false;
2014
2015   const StructType *STy = dyn_cast<StructType>(PTy->getElementType());
2016   const std::string TypeName = STy && !STy->isLiteral() ? STy->getName() : "";
2017
2018   for (int i = 0, e = array_lengthof(specialTypes); i != e; ++i)
2019     if (TypeName == specialTypes[i])
2020       return true;
2021
2022   return false;
2023 }
2024
2025 SDValue NVPTXTargetLowering::LowerFormalArguments(
2026     SDValue Chain, CallingConv::ID CallConv, bool isVarArg,
2027     const SmallVectorImpl<ISD::InputArg> &Ins, SDLoc dl, SelectionDAG &DAG,
2028     SmallVectorImpl<SDValue> &InVals) const {
2029   MachineFunction &MF = DAG.getMachineFunction();
2030   const DataLayout *TD = getDataLayout();
2031
2032   const Function *F = MF.getFunction();
2033   const AttributeSet &PAL = F->getAttributes();
2034   const TargetLowering *TLI = DAG.getSubtarget().getTargetLowering();
2035
2036   SDValue Root = DAG.getRoot();
2037   std::vector<SDValue> OutChains;
2038
2039   bool isKernel = llvm::isKernelFunction(*F);
2040   bool isABI = (nvptxSubtarget.getSmVersion() >= 20);
2041   assert(isABI && "Non-ABI compilation is not supported");
2042   if (!isABI)
2043     return Chain;
2044
2045   std::vector<Type *> argTypes;
2046   std::vector<const Argument *> theArgs;
2047   for (Function::const_arg_iterator I = F->arg_begin(), E = F->arg_end();
2048        I != E; ++I) {
2049     theArgs.push_back(I);
2050     argTypes.push_back(I->getType());
2051   }
2052   // argTypes.size() (or theArgs.size()) and Ins.size() need not match.
2053   // Ins.size() will be larger
2054   //   * if there is an aggregate argument with multiple fields (each field
2055   //     showing up separately in Ins)
2056   //   * if there is a vector argument with more than typical vector-length
2057   //     elements (generally if more than 4) where each vector element is
2058   //     individually present in Ins.
2059   // So a different index should be used for indexing into Ins.
2060   // See similar issue in LowerCall.
2061   unsigned InsIdx = 0;
2062
2063   int idx = 0;
2064   for (unsigned i = 0, e = theArgs.size(); i != e; ++i, ++idx, ++InsIdx) {
2065     Type *Ty = argTypes[i];
2066
2067     // If the kernel argument is image*_t or sampler_t, convert it to
2068     // a i32 constant holding the parameter position. This can later
2069     // matched in the AsmPrinter to output the correct mangled name.
2070     if (isImageOrSamplerVal(
2071             theArgs[i],
2072             (theArgs[i]->getParent() ? theArgs[i]->getParent()->getParent()
2073                                      : nullptr))) {
2074       assert(isKernel && "Only kernels can have image/sampler params");
2075       InVals.push_back(DAG.getConstant(i + 1, MVT::i32));
2076       continue;
2077     }
2078
2079     if (theArgs[i]->use_empty()) {
2080       // argument is dead
2081       if (Ty->isAggregateType()) {
2082         SmallVector<EVT, 16> vtparts;
2083
2084         ComputePTXValueVTs(*this, Ty, vtparts);
2085         assert(vtparts.size() > 0 && "empty aggregate type not expected");
2086         for (unsigned parti = 0, parte = vtparts.size(); parti != parte;
2087              ++parti) {
2088           InVals.push_back(DAG.getNode(ISD::UNDEF, dl, Ins[InsIdx].VT));
2089           ++InsIdx;
2090         }
2091         if (vtparts.size() > 0)
2092           --InsIdx;
2093         continue;
2094       }
2095       if (Ty->isVectorTy()) {
2096         EVT ObjectVT = getValueType(Ty);
2097         unsigned NumRegs = TLI->getNumRegisters(F->getContext(), ObjectVT);
2098         for (unsigned parti = 0; parti < NumRegs; ++parti) {
2099           InVals.push_back(DAG.getNode(ISD::UNDEF, dl, Ins[InsIdx].VT));
2100           ++InsIdx;
2101         }
2102         if (NumRegs > 0)
2103           --InsIdx;
2104         continue;
2105       }
2106       InVals.push_back(DAG.getNode(ISD::UNDEF, dl, Ins[InsIdx].VT));
2107       continue;
2108     }
2109
2110     // In the following cases, assign a node order of "idx+1"
2111     // to newly created nodes. The SDNodes for params have to
2112     // appear in the same order as their order of appearance
2113     // in the original function. "idx+1" holds that order.
2114     if (PAL.hasAttribute(i + 1, Attribute::ByVal) == false) {
2115       if (Ty->isAggregateType()) {
2116         SmallVector<EVT, 16> vtparts;
2117         SmallVector<uint64_t, 16> offsets;
2118
2119         // NOTE: Here, we lose the ability to issue vector loads for vectors
2120         // that are a part of a struct.  This should be investigated in the
2121         // future.
2122         ComputePTXValueVTs(*this, Ty, vtparts, &offsets, 0);
2123         assert(vtparts.size() > 0 && "empty aggregate type not expected");
2124         bool aggregateIsPacked = false;
2125         if (StructType *STy = llvm::dyn_cast<StructType>(Ty))
2126           aggregateIsPacked = STy->isPacked();
2127
2128         SDValue Arg = getParamSymbol(DAG, idx, getPointerTy());
2129         for (unsigned parti = 0, parte = vtparts.size(); parti != parte;
2130              ++parti) {
2131           EVT partVT = vtparts[parti];
2132           Value *srcValue = Constant::getNullValue(
2133               PointerType::get(partVT.getTypeForEVT(F->getContext()),
2134                                llvm::ADDRESS_SPACE_PARAM));
2135           SDValue srcAddr =
2136               DAG.getNode(ISD::ADD, dl, getPointerTy(), Arg,
2137                           DAG.getConstant(offsets[parti], getPointerTy()));
2138           unsigned partAlign =
2139               aggregateIsPacked ? 1
2140                                 : TD->getABITypeAlignment(
2141                                       partVT.getTypeForEVT(F->getContext()));
2142           SDValue p;
2143           if (Ins[InsIdx].VT.getSizeInBits() > partVT.getSizeInBits()) {
2144             ISD::LoadExtType ExtOp = Ins[InsIdx].Flags.isSExt() ?
2145                                      ISD::SEXTLOAD : ISD::ZEXTLOAD;
2146             p = DAG.getExtLoad(ExtOp, dl, Ins[InsIdx].VT, Root, srcAddr,
2147                                MachinePointerInfo(srcValue), partVT, false,
2148                                false, false, partAlign);
2149           } else {
2150             p = DAG.getLoad(partVT, dl, Root, srcAddr,
2151                             MachinePointerInfo(srcValue), false, false, false,
2152                             partAlign);
2153           }
2154           if (p.getNode())
2155             p.getNode()->setIROrder(idx + 1);
2156           InVals.push_back(p);
2157           ++InsIdx;
2158         }
2159         if (vtparts.size() > 0)
2160           --InsIdx;
2161         continue;
2162       }
2163       if (Ty->isVectorTy()) {
2164         EVT ObjectVT = getValueType(Ty);
2165         SDValue Arg = getParamSymbol(DAG, idx, getPointerTy());
2166         unsigned NumElts = ObjectVT.getVectorNumElements();
2167         assert(TLI->getNumRegisters(F->getContext(), ObjectVT) == NumElts &&
2168                "Vector was not scalarized");
2169         EVT EltVT = ObjectVT.getVectorElementType();
2170
2171         // V1 load
2172         // f32 = load ...
2173         if (NumElts == 1) {
2174           // We only have one element, so just directly load it
2175           Value *SrcValue = Constant::getNullValue(PointerType::get(
2176               EltVT.getTypeForEVT(F->getContext()), llvm::ADDRESS_SPACE_PARAM));
2177           SDValue P = DAG.getLoad(
2178               EltVT, dl, Root, Arg, MachinePointerInfo(SrcValue), false,
2179               false, true,
2180               TD->getABITypeAlignment(EltVT.getTypeForEVT(F->getContext())));
2181           if (P.getNode())
2182             P.getNode()->setIROrder(idx + 1);
2183
2184           if (Ins[InsIdx].VT.getSizeInBits() > EltVT.getSizeInBits())
2185             P = DAG.getNode(ISD::ANY_EXTEND, dl, Ins[InsIdx].VT, P);
2186           InVals.push_back(P);
2187           ++InsIdx;
2188         } else if (NumElts == 2) {
2189           // V2 load
2190           // f32,f32 = load ...
2191           EVT VecVT = EVT::getVectorVT(F->getContext(), EltVT, 2);
2192           Value *SrcValue = Constant::getNullValue(PointerType::get(
2193               VecVT.getTypeForEVT(F->getContext()), llvm::ADDRESS_SPACE_PARAM));
2194           SDValue P = DAG.getLoad(
2195               VecVT, dl, Root, Arg, MachinePointerInfo(SrcValue), false,
2196               false, true,
2197               TD->getABITypeAlignment(VecVT.getTypeForEVT(F->getContext())));
2198           if (P.getNode())
2199             P.getNode()->setIROrder(idx + 1);
2200
2201           SDValue Elt0 = DAG.getNode(ISD::EXTRACT_VECTOR_ELT, dl, EltVT, P,
2202                                      DAG.getIntPtrConstant(0));
2203           SDValue Elt1 = DAG.getNode(ISD::EXTRACT_VECTOR_ELT, dl, EltVT, P,
2204                                      DAG.getIntPtrConstant(1));
2205
2206           if (Ins[InsIdx].VT.getSizeInBits() > EltVT.getSizeInBits()) {
2207             Elt0 = DAG.getNode(ISD::ANY_EXTEND, dl, Ins[InsIdx].VT, Elt0);
2208             Elt1 = DAG.getNode(ISD::ANY_EXTEND, dl, Ins[InsIdx].VT, Elt1);
2209           }
2210
2211           InVals.push_back(Elt0);
2212           InVals.push_back(Elt1);
2213           InsIdx += 2;
2214         } else {
2215           // V4 loads
2216           // We have at least 4 elements (<3 x Ty> expands to 4 elements) and
2217           // the
2218           // vector will be expanded to a power of 2 elements, so we know we can
2219           // always round up to the next multiple of 4 when creating the vector
2220           // loads.
2221           // e.g.  4 elem => 1 ld.v4
2222           //       6 elem => 2 ld.v4
2223           //       8 elem => 2 ld.v4
2224           //      11 elem => 3 ld.v4
2225           unsigned VecSize = 4;
2226           if (EltVT.getSizeInBits() == 64) {
2227             VecSize = 2;
2228           }
2229           EVT VecVT = EVT::getVectorVT(F->getContext(), EltVT, VecSize);
2230           unsigned Ofst = 0;
2231           for (unsigned i = 0; i < NumElts; i += VecSize) {
2232             Value *SrcValue = Constant::getNullValue(
2233                 PointerType::get(VecVT.getTypeForEVT(F->getContext()),
2234                                  llvm::ADDRESS_SPACE_PARAM));
2235             SDValue SrcAddr =
2236                 DAG.getNode(ISD::ADD, dl, getPointerTy(), Arg,
2237                             DAG.getConstant(Ofst, getPointerTy()));
2238             SDValue P = DAG.getLoad(
2239                 VecVT, dl, Root, SrcAddr, MachinePointerInfo(SrcValue), false,
2240                 false, true,
2241                 TD->getABITypeAlignment(VecVT.getTypeForEVT(F->getContext())));
2242             if (P.getNode())
2243               P.getNode()->setIROrder(idx + 1);
2244
2245             for (unsigned j = 0; j < VecSize; ++j) {
2246               if (i + j >= NumElts)
2247                 break;
2248               SDValue Elt = DAG.getNode(ISD::EXTRACT_VECTOR_ELT, dl, EltVT, P,
2249                                         DAG.getIntPtrConstant(j));
2250               if (Ins[InsIdx].VT.getSizeInBits() > EltVT.getSizeInBits())
2251                 Elt = DAG.getNode(ISD::ANY_EXTEND, dl, Ins[InsIdx].VT, Elt);
2252               InVals.push_back(Elt);
2253             }
2254             Ofst += TD->getTypeAllocSize(VecVT.getTypeForEVT(F->getContext()));
2255           }
2256           InsIdx += NumElts;
2257         }
2258
2259         if (NumElts > 0)
2260           --InsIdx;
2261         continue;
2262       }
2263       // A plain scalar.
2264       EVT ObjectVT = getValueType(Ty);
2265       // If ABI, load from the param symbol
2266       SDValue Arg = getParamSymbol(DAG, idx, getPointerTy());
2267       Value *srcValue = Constant::getNullValue(PointerType::get(
2268           ObjectVT.getTypeForEVT(F->getContext()), llvm::ADDRESS_SPACE_PARAM));
2269       SDValue p;
2270        if (ObjectVT.getSizeInBits() < Ins[InsIdx].VT.getSizeInBits()) {
2271         ISD::LoadExtType ExtOp = Ins[InsIdx].Flags.isSExt() ?
2272                                        ISD::SEXTLOAD : ISD::ZEXTLOAD;
2273         p = DAG.getExtLoad(ExtOp, dl, Ins[InsIdx].VT, Root, Arg,
2274                            MachinePointerInfo(srcValue), ObjectVT, false, false,
2275                            false,
2276         TD->getABITypeAlignment(ObjectVT.getTypeForEVT(F->getContext())));
2277       } else {
2278         p = DAG.getLoad(Ins[InsIdx].VT, dl, Root, Arg,
2279                         MachinePointerInfo(srcValue), false, false, false,
2280         TD->getABITypeAlignment(ObjectVT.getTypeForEVT(F->getContext())));
2281       }
2282       if (p.getNode())
2283         p.getNode()->setIROrder(idx + 1);
2284       InVals.push_back(p);
2285       continue;
2286     }
2287
2288     // Param has ByVal attribute
2289     // Return MoveParam(param symbol).
2290     // Ideally, the param symbol can be returned directly,
2291     // but when SDNode builder decides to use it in a CopyToReg(),
2292     // machine instruction fails because TargetExternalSymbol
2293     // (not lowered) is target dependent, and CopyToReg assumes
2294     // the source is lowered.
2295     EVT ObjectVT = getValueType(Ty);
2296     assert(ObjectVT == Ins[InsIdx].VT &&
2297            "Ins type did not match function type");
2298     SDValue Arg = getParamSymbol(DAG, idx, getPointerTy());
2299     SDValue p = DAG.getNode(NVPTXISD::MoveParam, dl, ObjectVT, Arg);
2300     if (p.getNode())
2301       p.getNode()->setIROrder(idx + 1);
2302     if (isKernel)
2303       InVals.push_back(p);
2304     else {
2305       SDValue p2 = DAG.getNode(
2306           ISD::INTRINSIC_WO_CHAIN, dl, ObjectVT,
2307           DAG.getConstant(Intrinsic::nvvm_ptr_local_to_gen, MVT::i32), p);
2308       InVals.push_back(p2);
2309     }
2310   }
2311
2312   // Clang will check explicit VarArg and issue error if any. However, Clang
2313   // will let code with
2314   // implicit var arg like f() pass. See bug 617733.
2315   // We treat this case as if the arg list is empty.
2316   // if (F.isVarArg()) {
2317   // assert(0 && "VarArg not supported yet!");
2318   //}
2319
2320   if (!OutChains.empty())
2321     DAG.setRoot(DAG.getNode(ISD::TokenFactor, dl, MVT::Other, OutChains));
2322
2323   return Chain;
2324 }
2325
2326
2327 SDValue
2328 NVPTXTargetLowering::LowerReturn(SDValue Chain, CallingConv::ID CallConv,
2329                                  bool isVarArg,
2330                                  const SmallVectorImpl<ISD::OutputArg> &Outs,
2331                                  const SmallVectorImpl<SDValue> &OutVals,
2332                                  SDLoc dl, SelectionDAG &DAG) const {
2333   MachineFunction &MF = DAG.getMachineFunction();
2334   const Function *F = MF.getFunction();
2335   Type *RetTy = F->getReturnType();
2336   const DataLayout *TD = getDataLayout();
2337
2338   bool isABI = (nvptxSubtarget.getSmVersion() >= 20);
2339   assert(isABI && "Non-ABI compilation is not supported");
2340   if (!isABI)
2341     return Chain;
2342
2343   if (VectorType *VTy = dyn_cast<VectorType>(RetTy)) {
2344     // If we have a vector type, the OutVals array will be the scalarized
2345     // components and we have combine them into 1 or more vector stores.
2346     unsigned NumElts = VTy->getNumElements();
2347     assert(NumElts == Outs.size() && "Bad scalarization of return value");
2348
2349     // const_cast can be removed in later LLVM versions
2350     EVT EltVT = getValueType(RetTy).getVectorElementType();
2351     bool NeedExtend = false;
2352     if (EltVT.getSizeInBits() < 16)
2353       NeedExtend = true;
2354
2355     // V1 store
2356     if (NumElts == 1) {
2357       SDValue StoreVal = OutVals[0];
2358       // We only have one element, so just directly store it
2359       if (NeedExtend)
2360         StoreVal = DAG.getNode(ISD::ZERO_EXTEND, dl, MVT::i16, StoreVal);
2361       SDValue Ops[] = { Chain, DAG.getConstant(0, MVT::i32), StoreVal };
2362       Chain = DAG.getMemIntrinsicNode(NVPTXISD::StoreRetval, dl,
2363                                       DAG.getVTList(MVT::Other), Ops,
2364                                       EltVT, MachinePointerInfo());
2365
2366     } else if (NumElts == 2) {
2367       // V2 store
2368       SDValue StoreVal0 = OutVals[0];
2369       SDValue StoreVal1 = OutVals[1];
2370
2371       if (NeedExtend) {
2372         StoreVal0 = DAG.getNode(ISD::ZERO_EXTEND, dl, MVT::i16, StoreVal0);
2373         StoreVal1 = DAG.getNode(ISD::ZERO_EXTEND, dl, MVT::i16, StoreVal1);
2374       }
2375
2376       SDValue Ops[] = { Chain, DAG.getConstant(0, MVT::i32), StoreVal0,
2377                         StoreVal1 };
2378       Chain = DAG.getMemIntrinsicNode(NVPTXISD::StoreRetvalV2, dl,
2379                                       DAG.getVTList(MVT::Other), Ops,
2380                                       EltVT, MachinePointerInfo());
2381     } else {
2382       // V4 stores
2383       // We have at least 4 elements (<3 x Ty> expands to 4 elements) and the
2384       // vector will be expanded to a power of 2 elements, so we know we can
2385       // always round up to the next multiple of 4 when creating the vector
2386       // stores.
2387       // e.g.  4 elem => 1 st.v4
2388       //       6 elem => 2 st.v4
2389       //       8 elem => 2 st.v4
2390       //      11 elem => 3 st.v4
2391
2392       unsigned VecSize = 4;
2393       if (OutVals[0].getValueType().getSizeInBits() == 64)
2394         VecSize = 2;
2395
2396       unsigned Offset = 0;
2397
2398       EVT VecVT =
2399           EVT::getVectorVT(F->getContext(), EltVT, VecSize);
2400       unsigned PerStoreOffset =
2401           TD->getTypeAllocSize(VecVT.getTypeForEVT(F->getContext()));
2402
2403       for (unsigned i = 0; i < NumElts; i += VecSize) {
2404         // Get values
2405         SDValue StoreVal;
2406         SmallVector<SDValue, 8> Ops;
2407         Ops.push_back(Chain);
2408         Ops.push_back(DAG.getConstant(Offset, MVT::i32));
2409         unsigned Opc = NVPTXISD::StoreRetvalV2;
2410         EVT ExtendedVT = (NeedExtend) ? MVT::i16 : OutVals[0].getValueType();
2411
2412         StoreVal = OutVals[i];
2413         if (NeedExtend)
2414           StoreVal = DAG.getNode(ISD::ZERO_EXTEND, dl, ExtendedVT, StoreVal);
2415         Ops.push_back(StoreVal);
2416
2417         if (i + 1 < NumElts) {
2418           StoreVal = OutVals[i + 1];
2419           if (NeedExtend)
2420             StoreVal = DAG.getNode(ISD::ZERO_EXTEND, dl, ExtendedVT, StoreVal);
2421         } else {
2422           StoreVal = DAG.getUNDEF(ExtendedVT);
2423         }
2424         Ops.push_back(StoreVal);
2425
2426         if (VecSize == 4) {
2427           Opc = NVPTXISD::StoreRetvalV4;
2428           if (i + 2 < NumElts) {
2429             StoreVal = OutVals[i + 2];
2430             if (NeedExtend)
2431               StoreVal =
2432                   DAG.getNode(ISD::ZERO_EXTEND, dl, ExtendedVT, StoreVal);
2433           } else {
2434             StoreVal = DAG.getUNDEF(ExtendedVT);
2435           }
2436           Ops.push_back(StoreVal);
2437
2438           if (i + 3 < NumElts) {
2439             StoreVal = OutVals[i + 3];
2440             if (NeedExtend)
2441               StoreVal =
2442                   DAG.getNode(ISD::ZERO_EXTEND, dl, ExtendedVT, StoreVal);
2443           } else {
2444             StoreVal = DAG.getUNDEF(ExtendedVT);
2445           }
2446           Ops.push_back(StoreVal);
2447         }
2448
2449         // Chain = DAG.getNode(Opc, dl, MVT::Other, &Ops[0], Ops.size());
2450         Chain =
2451             DAG.getMemIntrinsicNode(Opc, dl, DAG.getVTList(MVT::Other), Ops,
2452                                     EltVT, MachinePointerInfo());
2453         Offset += PerStoreOffset;
2454       }
2455     }
2456   } else {
2457     SmallVector<EVT, 16> ValVTs;
2458     SmallVector<uint64_t, 16> Offsets;
2459     ComputePTXValueVTs(*this, RetTy, ValVTs, &Offsets, 0);
2460     assert(ValVTs.size() == OutVals.size() && "Bad return value decomposition");
2461
2462     for (unsigned i = 0, e = Outs.size(); i != e; ++i) {
2463       SDValue theVal = OutVals[i];
2464       EVT TheValType = theVal.getValueType();
2465       unsigned numElems = 1;
2466       if (TheValType.isVector())
2467         numElems = TheValType.getVectorNumElements();
2468       for (unsigned j = 0, je = numElems; j != je; ++j) {
2469         SDValue TmpVal = theVal;
2470         if (TheValType.isVector())
2471           TmpVal = DAG.getNode(ISD::EXTRACT_VECTOR_ELT, dl,
2472                                TheValType.getVectorElementType(), TmpVal,
2473                                DAG.getIntPtrConstant(j));
2474         EVT TheStoreType = ValVTs[i];
2475         if (RetTy->isIntegerTy() &&
2476             TD->getTypeAllocSizeInBits(RetTy) < 32) {
2477           // The following zero-extension is for integer types only, and
2478           // specifically not for aggregates.
2479           TmpVal = DAG.getNode(ISD::ZERO_EXTEND, dl, MVT::i32, TmpVal);
2480           TheStoreType = MVT::i32;
2481         }
2482         else if (TmpVal.getValueType().getSizeInBits() < 16)
2483           TmpVal = DAG.getNode(ISD::ANY_EXTEND, dl, MVT::i16, TmpVal);
2484
2485         SDValue Ops[] = {
2486           Chain,
2487           DAG.getConstant(Offsets[i], MVT::i32),
2488           TmpVal };
2489         Chain = DAG.getMemIntrinsicNode(NVPTXISD::StoreRetval, dl,
2490                                         DAG.getVTList(MVT::Other), Ops,
2491                                         TheStoreType,
2492                                         MachinePointerInfo());
2493       }
2494     }
2495   }
2496
2497   return DAG.getNode(NVPTXISD::RET_FLAG, dl, MVT::Other, Chain);
2498 }
2499
2500
2501 void NVPTXTargetLowering::LowerAsmOperandForConstraint(
2502     SDValue Op, std::string &Constraint, std::vector<SDValue> &Ops,
2503     SelectionDAG &DAG) const {
2504   if (Constraint.length() > 1)
2505     return;
2506   else
2507     TargetLowering::LowerAsmOperandForConstraint(Op, Constraint, Ops, DAG);
2508 }
2509
2510 // NVPTX suuport vector of legal types of any length in Intrinsics because the
2511 // NVPTX specific type legalizer
2512 // will legalize them to the PTX supported length.
2513 bool NVPTXTargetLowering::isTypeSupportedInIntrinsic(MVT VT) const {
2514   if (isTypeLegal(VT))
2515     return true;
2516   if (VT.isVector()) {
2517     MVT eVT = VT.getVectorElementType();
2518     if (isTypeLegal(eVT))
2519       return true;
2520   }
2521   return false;
2522 }
2523
2524 static unsigned getOpcForTextureInstr(unsigned Intrinsic) {
2525   switch (Intrinsic) {
2526   default:
2527     return 0;
2528
2529   case Intrinsic::nvvm_tex_1d_v4f32_s32:
2530     return NVPTXISD::Tex1DFloatS32;
2531   case Intrinsic::nvvm_tex_1d_v4f32_f32:
2532     return NVPTXISD::Tex1DFloatFloat;
2533   case Intrinsic::nvvm_tex_1d_level_v4f32_f32:
2534     return NVPTXISD::Tex1DFloatFloatLevel;
2535   case Intrinsic::nvvm_tex_1d_grad_v4f32_f32:
2536     return NVPTXISD::Tex1DFloatFloatGrad;
2537   case Intrinsic::nvvm_tex_1d_v4s32_s32:
2538     return NVPTXISD::Tex1DS32S32;
2539   case Intrinsic::nvvm_tex_1d_v4s32_f32:
2540     return NVPTXISD::Tex1DS32Float;
2541   case Intrinsic::nvvm_tex_1d_level_v4s32_f32:
2542     return NVPTXISD::Tex1DS32FloatLevel;
2543   case Intrinsic::nvvm_tex_1d_grad_v4s32_f32:
2544     return NVPTXISD::Tex1DS32FloatGrad;
2545   case Intrinsic::nvvm_tex_1d_v4u32_s32:
2546     return NVPTXISD::Tex1DU32S32;
2547   case Intrinsic::nvvm_tex_1d_v4u32_f32:
2548     return NVPTXISD::Tex1DU32Float;
2549   case Intrinsic::nvvm_tex_1d_level_v4u32_f32:
2550     return NVPTXISD::Tex1DU32FloatLevel;
2551   case Intrinsic::nvvm_tex_1d_grad_v4u32_f32:
2552     return NVPTXISD::Tex1DU32FloatGrad;
2553
2554   case Intrinsic::nvvm_tex_1d_array_v4f32_s32:
2555     return NVPTXISD::Tex1DArrayFloatS32;
2556   case Intrinsic::nvvm_tex_1d_array_v4f32_f32:
2557     return NVPTXISD::Tex1DArrayFloatFloat;
2558   case Intrinsic::nvvm_tex_1d_array_level_v4f32_f32:
2559     return NVPTXISD::Tex1DArrayFloatFloatLevel;
2560   case Intrinsic::nvvm_tex_1d_array_grad_v4f32_f32:
2561     return NVPTXISD::Tex1DArrayFloatFloatGrad;
2562   case Intrinsic::nvvm_tex_1d_array_v4s32_s32:
2563     return NVPTXISD::Tex1DArrayS32S32;
2564   case Intrinsic::nvvm_tex_1d_array_v4s32_f32:
2565     return NVPTXISD::Tex1DArrayS32Float;
2566   case Intrinsic::nvvm_tex_1d_array_level_v4s32_f32:
2567     return NVPTXISD::Tex1DArrayS32FloatLevel;
2568   case Intrinsic::nvvm_tex_1d_array_grad_v4s32_f32:
2569     return NVPTXISD::Tex1DArrayS32FloatGrad;
2570   case Intrinsic::nvvm_tex_1d_array_v4u32_s32:
2571     return NVPTXISD::Tex1DArrayU32S32;
2572   case Intrinsic::nvvm_tex_1d_array_v4u32_f32:
2573     return NVPTXISD::Tex1DArrayU32Float;
2574   case Intrinsic::nvvm_tex_1d_array_level_v4u32_f32:
2575     return NVPTXISD::Tex1DArrayU32FloatLevel;
2576   case Intrinsic::nvvm_tex_1d_array_grad_v4u32_f32:
2577     return NVPTXISD::Tex1DArrayU32FloatGrad;
2578
2579   case Intrinsic::nvvm_tex_2d_v4f32_s32:
2580     return NVPTXISD::Tex2DFloatS32;
2581   case Intrinsic::nvvm_tex_2d_v4f32_f32:
2582     return NVPTXISD::Tex2DFloatFloat;
2583   case Intrinsic::nvvm_tex_2d_level_v4f32_f32:
2584     return NVPTXISD::Tex2DFloatFloatLevel;
2585   case Intrinsic::nvvm_tex_2d_grad_v4f32_f32:
2586     return NVPTXISD::Tex2DFloatFloatGrad;
2587   case Intrinsic::nvvm_tex_2d_v4s32_s32:
2588     return NVPTXISD::Tex2DS32S32;
2589   case Intrinsic::nvvm_tex_2d_v4s32_f32:
2590     return NVPTXISD::Tex2DS32Float;
2591   case Intrinsic::nvvm_tex_2d_level_v4s32_f32:
2592     return NVPTXISD::Tex2DS32FloatLevel;
2593   case Intrinsic::nvvm_tex_2d_grad_v4s32_f32:
2594     return NVPTXISD::Tex2DS32FloatGrad;
2595   case Intrinsic::nvvm_tex_2d_v4u32_s32:
2596     return NVPTXISD::Tex2DU32S32;
2597   case Intrinsic::nvvm_tex_2d_v4u32_f32:
2598     return NVPTXISD::Tex2DU32Float;
2599   case Intrinsic::nvvm_tex_2d_level_v4u32_f32:
2600     return NVPTXISD::Tex2DU32FloatLevel;
2601   case Intrinsic::nvvm_tex_2d_grad_v4u32_f32:
2602     return NVPTXISD::Tex2DU32FloatGrad;
2603
2604   case Intrinsic::nvvm_tex_2d_array_v4f32_s32:
2605     return NVPTXISD::Tex2DArrayFloatS32;
2606   case Intrinsic::nvvm_tex_2d_array_v4f32_f32:
2607     return NVPTXISD::Tex2DArrayFloatFloat;
2608   case Intrinsic::nvvm_tex_2d_array_level_v4f32_f32:
2609     return NVPTXISD::Tex2DArrayFloatFloatLevel;
2610   case Intrinsic::nvvm_tex_2d_array_grad_v4f32_f32:
2611     return NVPTXISD::Tex2DArrayFloatFloatGrad;
2612   case Intrinsic::nvvm_tex_2d_array_v4s32_s32:
2613     return NVPTXISD::Tex2DArrayS32S32;
2614   case Intrinsic::nvvm_tex_2d_array_v4s32_f32:
2615     return NVPTXISD::Tex2DArrayS32Float;
2616   case Intrinsic::nvvm_tex_2d_array_level_v4s32_f32:
2617     return NVPTXISD::Tex2DArrayS32FloatLevel;
2618   case Intrinsic::nvvm_tex_2d_array_grad_v4s32_f32:
2619     return NVPTXISD::Tex2DArrayS32FloatGrad;
2620   case Intrinsic::nvvm_tex_2d_array_v4u32_s32:
2621     return NVPTXISD::Tex2DArrayU32S32;
2622   case Intrinsic::nvvm_tex_2d_array_v4u32_f32:
2623     return NVPTXISD::Tex2DArrayU32Float;
2624   case Intrinsic::nvvm_tex_2d_array_level_v4u32_f32:
2625     return NVPTXISD::Tex2DArrayU32FloatLevel;
2626   case Intrinsic::nvvm_tex_2d_array_grad_v4u32_f32:
2627     return NVPTXISD::Tex2DArrayU32FloatGrad;
2628
2629   case Intrinsic::nvvm_tex_3d_v4f32_s32:
2630     return NVPTXISD::Tex3DFloatS32;
2631   case Intrinsic::nvvm_tex_3d_v4f32_f32:
2632     return NVPTXISD::Tex3DFloatFloat;
2633   case Intrinsic::nvvm_tex_3d_level_v4f32_f32:
2634     return NVPTXISD::Tex3DFloatFloatLevel;
2635   case Intrinsic::nvvm_tex_3d_grad_v4f32_f32:
2636     return NVPTXISD::Tex3DFloatFloatGrad;
2637   case Intrinsic::nvvm_tex_3d_v4s32_s32:
2638     return NVPTXISD::Tex3DS32S32;
2639   case Intrinsic::nvvm_tex_3d_v4s32_f32:
2640     return NVPTXISD::Tex3DS32Float;
2641   case Intrinsic::nvvm_tex_3d_level_v4s32_f32:
2642     return NVPTXISD::Tex3DS32FloatLevel;
2643   case Intrinsic::nvvm_tex_3d_grad_v4s32_f32:
2644     return NVPTXISD::Tex3DS32FloatGrad;
2645   case Intrinsic::nvvm_tex_3d_v4u32_s32:
2646     return NVPTXISD::Tex3DU32S32;
2647   case Intrinsic::nvvm_tex_3d_v4u32_f32:
2648     return NVPTXISD::Tex3DU32Float;
2649   case Intrinsic::nvvm_tex_3d_level_v4u32_f32:
2650     return NVPTXISD::Tex3DU32FloatLevel;
2651   case Intrinsic::nvvm_tex_3d_grad_v4u32_f32:
2652     return NVPTXISD::Tex3DU32FloatGrad;
2653
2654   case Intrinsic::nvvm_tex_cube_v4f32_f32:
2655     return NVPTXISD::TexCubeFloatFloat;
2656   case Intrinsic::nvvm_tex_cube_level_v4f32_f32:
2657     return NVPTXISD::TexCubeFloatFloatLevel;
2658   case Intrinsic::nvvm_tex_cube_v4s32_f32:
2659     return NVPTXISD::TexCubeS32Float;
2660   case Intrinsic::nvvm_tex_cube_level_v4s32_f32:
2661     return NVPTXISD::TexCubeS32FloatLevel;
2662   case Intrinsic::nvvm_tex_cube_v4u32_f32:
2663     return NVPTXISD::TexCubeU32Float;
2664   case Intrinsic::nvvm_tex_cube_level_v4u32_f32:
2665     return NVPTXISD::TexCubeU32FloatLevel;
2666
2667   case Intrinsic::nvvm_tex_cube_array_v4f32_f32:
2668     return NVPTXISD::TexCubeArrayFloatFloat;
2669   case Intrinsic::nvvm_tex_cube_array_level_v4f32_f32:
2670     return NVPTXISD::TexCubeArrayFloatFloatLevel;
2671   case Intrinsic::nvvm_tex_cube_array_v4s32_f32:
2672     return NVPTXISD::TexCubeArrayS32Float;
2673   case Intrinsic::nvvm_tex_cube_array_level_v4s32_f32:
2674     return NVPTXISD::TexCubeArrayS32FloatLevel;
2675   case Intrinsic::nvvm_tex_cube_array_v4u32_f32:
2676     return NVPTXISD::TexCubeArrayU32Float;
2677   case Intrinsic::nvvm_tex_cube_array_level_v4u32_f32:
2678     return NVPTXISD::TexCubeArrayU32FloatLevel;
2679
2680   case Intrinsic::nvvm_tld4_r_2d_v4f32_f32:
2681     return NVPTXISD::Tld4R2DFloatFloat;
2682   case Intrinsic::nvvm_tld4_g_2d_v4f32_f32:
2683     return NVPTXISD::Tld4G2DFloatFloat;
2684   case Intrinsic::nvvm_tld4_b_2d_v4f32_f32:
2685     return NVPTXISD::Tld4B2DFloatFloat;
2686   case Intrinsic::nvvm_tld4_a_2d_v4f32_f32:
2687     return NVPTXISD::Tld4A2DFloatFloat;
2688   case Intrinsic::nvvm_tld4_r_2d_v4s32_f32:
2689     return NVPTXISD::Tld4R2DS64Float;
2690   case Intrinsic::nvvm_tld4_g_2d_v4s32_f32:
2691     return NVPTXISD::Tld4G2DS64Float;
2692   case Intrinsic::nvvm_tld4_b_2d_v4s32_f32:
2693     return NVPTXISD::Tld4B2DS64Float;
2694   case Intrinsic::nvvm_tld4_a_2d_v4s32_f32:
2695     return NVPTXISD::Tld4A2DS64Float;
2696   case Intrinsic::nvvm_tld4_r_2d_v4u32_f32:
2697     return NVPTXISD::Tld4R2DU64Float;
2698   case Intrinsic::nvvm_tld4_g_2d_v4u32_f32:
2699     return NVPTXISD::Tld4G2DU64Float;
2700   case Intrinsic::nvvm_tld4_b_2d_v4u32_f32:
2701     return NVPTXISD::Tld4B2DU64Float;
2702   case Intrinsic::nvvm_tld4_a_2d_v4u32_f32:
2703     return NVPTXISD::Tld4A2DU64Float;
2704
2705   case Intrinsic::nvvm_tex_unified_1d_v4f32_s32:
2706     return NVPTXISD::TexUnified1DFloatS32;
2707   case Intrinsic::nvvm_tex_unified_1d_v4f32_f32:
2708     return NVPTXISD::TexUnified1DFloatFloat;
2709   case Intrinsic::nvvm_tex_unified_1d_level_v4f32_f32:
2710     return NVPTXISD::TexUnified1DFloatFloatLevel;
2711   case Intrinsic::nvvm_tex_unified_1d_grad_v4f32_f32:
2712     return NVPTXISD::TexUnified1DFloatFloatGrad;
2713   case Intrinsic::nvvm_tex_unified_1d_v4s32_s32:
2714     return NVPTXISD::TexUnified1DS32S32;
2715   case Intrinsic::nvvm_tex_unified_1d_v4s32_f32:
2716     return NVPTXISD::TexUnified1DS32Float;
2717   case Intrinsic::nvvm_tex_unified_1d_level_v4s32_f32:
2718     return NVPTXISD::TexUnified1DS32FloatLevel;
2719   case Intrinsic::nvvm_tex_unified_1d_grad_v4s32_f32:
2720     return NVPTXISD::TexUnified1DS32FloatGrad;
2721   case Intrinsic::nvvm_tex_unified_1d_v4u32_s32:
2722     return NVPTXISD::TexUnified1DU32S32;
2723   case Intrinsic::nvvm_tex_unified_1d_v4u32_f32:
2724     return NVPTXISD::TexUnified1DU32Float;
2725   case Intrinsic::nvvm_tex_unified_1d_level_v4u32_f32:
2726     return NVPTXISD::TexUnified1DU32FloatLevel;
2727   case Intrinsic::nvvm_tex_unified_1d_grad_v4u32_f32:
2728     return NVPTXISD::TexUnified1DU32FloatGrad;
2729
2730   case Intrinsic::nvvm_tex_unified_1d_array_v4f32_s32:
2731     return NVPTXISD::TexUnified1DArrayFloatS32;
2732   case Intrinsic::nvvm_tex_unified_1d_array_v4f32_f32:
2733     return NVPTXISD::TexUnified1DArrayFloatFloat;
2734   case Intrinsic::nvvm_tex_unified_1d_array_level_v4f32_f32:
2735     return NVPTXISD::TexUnified1DArrayFloatFloatLevel;
2736   case Intrinsic::nvvm_tex_unified_1d_array_grad_v4f32_f32:
2737     return NVPTXISD::TexUnified1DArrayFloatFloatGrad;
2738   case Intrinsic::nvvm_tex_unified_1d_array_v4s32_s32:
2739     return NVPTXISD::TexUnified1DArrayS32S32;
2740   case Intrinsic::nvvm_tex_unified_1d_array_v4s32_f32:
2741     return NVPTXISD::TexUnified1DArrayS32Float;
2742   case Intrinsic::nvvm_tex_unified_1d_array_level_v4s32_f32:
2743     return NVPTXISD::TexUnified1DArrayS32FloatLevel;
2744   case Intrinsic::nvvm_tex_unified_1d_array_grad_v4s32_f32:
2745     return NVPTXISD::TexUnified1DArrayS32FloatGrad;
2746   case Intrinsic::nvvm_tex_unified_1d_array_v4u32_s32:
2747     return NVPTXISD::TexUnified1DArrayU32S32;
2748   case Intrinsic::nvvm_tex_unified_1d_array_v4u32_f32:
2749     return NVPTXISD::TexUnified1DArrayU32Float;
2750   case Intrinsic::nvvm_tex_unified_1d_array_level_v4u32_f32:
2751     return NVPTXISD::TexUnified1DArrayU32FloatLevel;
2752   case Intrinsic::nvvm_tex_unified_1d_array_grad_v4u32_f32:
2753     return NVPTXISD::TexUnified1DArrayU32FloatGrad;
2754
2755   case Intrinsic::nvvm_tex_unified_2d_v4f32_s32:
2756     return NVPTXISD::TexUnified2DFloatS32;
2757   case Intrinsic::nvvm_tex_unified_2d_v4f32_f32:
2758     return NVPTXISD::TexUnified2DFloatFloat;
2759   case Intrinsic::nvvm_tex_unified_2d_level_v4f32_f32:
2760     return NVPTXISD::TexUnified2DFloatFloatLevel;
2761   case Intrinsic::nvvm_tex_unified_2d_grad_v4f32_f32:
2762     return NVPTXISD::TexUnified2DFloatFloatGrad;
2763   case Intrinsic::nvvm_tex_unified_2d_v4s32_s32:
2764     return NVPTXISD::TexUnified2DS32S32;
2765   case Intrinsic::nvvm_tex_unified_2d_v4s32_f32:
2766     return NVPTXISD::TexUnified2DS32Float;
2767   case Intrinsic::nvvm_tex_unified_2d_level_v4s32_f32:
2768     return NVPTXISD::TexUnified2DS32FloatLevel;
2769   case Intrinsic::nvvm_tex_unified_2d_grad_v4s32_f32:
2770     return NVPTXISD::TexUnified2DS32FloatGrad;
2771   case Intrinsic::nvvm_tex_unified_2d_v4u32_s32:
2772     return NVPTXISD::TexUnified2DU32S32;
2773   case Intrinsic::nvvm_tex_unified_2d_v4u32_f32:
2774     return NVPTXISD::TexUnified2DU32Float;
2775   case Intrinsic::nvvm_tex_unified_2d_level_v4u32_f32:
2776     return NVPTXISD::TexUnified2DU32FloatLevel;
2777   case Intrinsic::nvvm_tex_unified_2d_grad_v4u32_f32:
2778     return NVPTXISD::TexUnified2DU32FloatGrad;
2779
2780   case Intrinsic::nvvm_tex_unified_2d_array_v4f32_s32:
2781     return NVPTXISD::TexUnified2DArrayFloatS32;
2782   case Intrinsic::nvvm_tex_unified_2d_array_v4f32_f32:
2783     return NVPTXISD::TexUnified2DArrayFloatFloat;
2784   case Intrinsic::nvvm_tex_unified_2d_array_level_v4f32_f32:
2785     return NVPTXISD::TexUnified2DArrayFloatFloatLevel;
2786   case Intrinsic::nvvm_tex_unified_2d_array_grad_v4f32_f32:
2787     return NVPTXISD::TexUnified2DArrayFloatFloatGrad;
2788   case Intrinsic::nvvm_tex_unified_2d_array_v4s32_s32:
2789     return NVPTXISD::TexUnified2DArrayS32S32;
2790   case Intrinsic::nvvm_tex_unified_2d_array_v4s32_f32:
2791     return NVPTXISD::TexUnified2DArrayS32Float;
2792   case Intrinsic::nvvm_tex_unified_2d_array_level_v4s32_f32:
2793     return NVPTXISD::TexUnified2DArrayS32FloatLevel;
2794   case Intrinsic::nvvm_tex_unified_2d_array_grad_v4s32_f32:
2795     return NVPTXISD::TexUnified2DArrayS32FloatGrad;
2796   case Intrinsic::nvvm_tex_unified_2d_array_v4u32_s32:
2797     return NVPTXISD::TexUnified2DArrayU32S32;
2798   case Intrinsic::nvvm_tex_unified_2d_array_v4u32_f32:
2799     return NVPTXISD::TexUnified2DArrayU32Float;
2800   case Intrinsic::nvvm_tex_unified_2d_array_level_v4u32_f32:
2801     return NVPTXISD::TexUnified2DArrayU32FloatLevel;
2802   case Intrinsic::nvvm_tex_unified_2d_array_grad_v4u32_f32:
2803     return NVPTXISD::TexUnified2DArrayU32FloatGrad;
2804
2805   case Intrinsic::nvvm_tex_unified_3d_v4f32_s32:
2806     return NVPTXISD::TexUnified3DFloatS32;
2807   case Intrinsic::nvvm_tex_unified_3d_v4f32_f32:
2808     return NVPTXISD::TexUnified3DFloatFloat;
2809   case Intrinsic::nvvm_tex_unified_3d_level_v4f32_f32:
2810     return NVPTXISD::TexUnified3DFloatFloatLevel;
2811   case Intrinsic::nvvm_tex_unified_3d_grad_v4f32_f32:
2812     return NVPTXISD::TexUnified3DFloatFloatGrad;
2813   case Intrinsic::nvvm_tex_unified_3d_v4s32_s32:
2814     return NVPTXISD::TexUnified3DS32S32;
2815   case Intrinsic::nvvm_tex_unified_3d_v4s32_f32:
2816     return NVPTXISD::TexUnified3DS32Float;
2817   case Intrinsic::nvvm_tex_unified_3d_level_v4s32_f32:
2818     return NVPTXISD::TexUnified3DS32FloatLevel;
2819   case Intrinsic::nvvm_tex_unified_3d_grad_v4s32_f32:
2820     return NVPTXISD::TexUnified3DS32FloatGrad;
2821   case Intrinsic::nvvm_tex_unified_3d_v4u32_s32:
2822     return NVPTXISD::TexUnified3DU32S32;
2823   case Intrinsic::nvvm_tex_unified_3d_v4u32_f32:
2824     return NVPTXISD::TexUnified3DU32Float;
2825   case Intrinsic::nvvm_tex_unified_3d_level_v4u32_f32:
2826     return NVPTXISD::TexUnified3DU32FloatLevel;
2827   case Intrinsic::nvvm_tex_unified_3d_grad_v4u32_f32:
2828     return NVPTXISD::TexUnified3DU32FloatGrad;
2829
2830   case Intrinsic::nvvm_tex_unified_cube_v4f32_f32:
2831     return NVPTXISD::TexUnifiedCubeFloatFloat;
2832   case Intrinsic::nvvm_tex_unified_cube_level_v4f32_f32:
2833     return NVPTXISD::TexUnifiedCubeFloatFloatLevel;
2834   case Intrinsic::nvvm_tex_unified_cube_v4s32_f32:
2835     return NVPTXISD::TexUnifiedCubeS32Float;
2836   case Intrinsic::nvvm_tex_unified_cube_level_v4s32_f32:
2837     return NVPTXISD::TexUnifiedCubeS32FloatLevel;
2838   case Intrinsic::nvvm_tex_unified_cube_v4u32_f32:
2839     return NVPTXISD::TexUnifiedCubeU32Float;
2840   case Intrinsic::nvvm_tex_unified_cube_level_v4u32_f32:
2841     return NVPTXISD::TexUnifiedCubeU32FloatLevel;
2842
2843   case Intrinsic::nvvm_tex_unified_cube_array_v4f32_f32:
2844     return NVPTXISD::TexUnifiedCubeArrayFloatFloat;
2845   case Intrinsic::nvvm_tex_unified_cube_array_level_v4f32_f32:
2846     return NVPTXISD::TexUnifiedCubeArrayFloatFloatLevel;
2847   case Intrinsic::nvvm_tex_unified_cube_array_v4s32_f32:
2848     return NVPTXISD::TexUnifiedCubeArrayS32Float;
2849   case Intrinsic::nvvm_tex_unified_cube_array_level_v4s32_f32:
2850     return NVPTXISD::TexUnifiedCubeArrayS32FloatLevel;
2851   case Intrinsic::nvvm_tex_unified_cube_array_v4u32_f32:
2852     return NVPTXISD::TexUnifiedCubeArrayU32Float;
2853   case Intrinsic::nvvm_tex_unified_cube_array_level_v4u32_f32:
2854     return NVPTXISD::TexUnifiedCubeArrayU32FloatLevel;
2855
2856   case Intrinsic::nvvm_tld4_unified_r_2d_v4f32_f32:
2857     return NVPTXISD::Tld4UnifiedR2DFloatFloat;
2858   case Intrinsic::nvvm_tld4_unified_g_2d_v4f32_f32:
2859     return NVPTXISD::Tld4UnifiedG2DFloatFloat;
2860   case Intrinsic::nvvm_tld4_unified_b_2d_v4f32_f32:
2861     return NVPTXISD::Tld4UnifiedB2DFloatFloat;
2862   case Intrinsic::nvvm_tld4_unified_a_2d_v4f32_f32:
2863     return NVPTXISD::Tld4UnifiedA2DFloatFloat;
2864   case Intrinsic::nvvm_tld4_unified_r_2d_v4s32_f32:
2865     return NVPTXISD::Tld4UnifiedR2DS64Float;
2866   case Intrinsic::nvvm_tld4_unified_g_2d_v4s32_f32:
2867     return NVPTXISD::Tld4UnifiedG2DS64Float;
2868   case Intrinsic::nvvm_tld4_unified_b_2d_v4s32_f32:
2869     return NVPTXISD::Tld4UnifiedB2DS64Float;
2870   case Intrinsic::nvvm_tld4_unified_a_2d_v4s32_f32:
2871     return NVPTXISD::Tld4UnifiedA2DS64Float;
2872   case Intrinsic::nvvm_tld4_unified_r_2d_v4u32_f32:
2873     return NVPTXISD::Tld4UnifiedR2DU64Float;
2874   case Intrinsic::nvvm_tld4_unified_g_2d_v4u32_f32:
2875     return NVPTXISD::Tld4UnifiedG2DU64Float;
2876   case Intrinsic::nvvm_tld4_unified_b_2d_v4u32_f32:
2877     return NVPTXISD::Tld4UnifiedB2DU64Float;
2878   case Intrinsic::nvvm_tld4_unified_a_2d_v4u32_f32:
2879     return NVPTXISD::Tld4UnifiedA2DU64Float;
2880   }
2881 }
2882
2883 static unsigned getOpcForSurfaceInstr(unsigned Intrinsic) {
2884   switch (Intrinsic) {
2885   default:
2886     return 0;
2887   case Intrinsic::nvvm_suld_1d_i8_clamp:
2888     return NVPTXISD::Suld1DI8Clamp;
2889   case Intrinsic::nvvm_suld_1d_i16_clamp:
2890     return NVPTXISD::Suld1DI16Clamp;
2891   case Intrinsic::nvvm_suld_1d_i32_clamp:
2892     return NVPTXISD::Suld1DI32Clamp;
2893   case Intrinsic::nvvm_suld_1d_i64_clamp:
2894     return NVPTXISD::Suld1DI64Clamp;
2895   case Intrinsic::nvvm_suld_1d_v2i8_clamp:
2896     return NVPTXISD::Suld1DV2I8Clamp;
2897   case Intrinsic::nvvm_suld_1d_v2i16_clamp:
2898     return NVPTXISD::Suld1DV2I16Clamp;
2899   case Intrinsic::nvvm_suld_1d_v2i32_clamp:
2900     return NVPTXISD::Suld1DV2I32Clamp;
2901   case Intrinsic::nvvm_suld_1d_v2i64_clamp:
2902     return NVPTXISD::Suld1DV2I64Clamp;
2903   case Intrinsic::nvvm_suld_1d_v4i8_clamp:
2904     return NVPTXISD::Suld1DV4I8Clamp;
2905   case Intrinsic::nvvm_suld_1d_v4i16_clamp:
2906     return NVPTXISD::Suld1DV4I16Clamp;
2907   case Intrinsic::nvvm_suld_1d_v4i32_clamp:
2908     return NVPTXISD::Suld1DV4I32Clamp;
2909   case Intrinsic::nvvm_suld_1d_array_i8_clamp:
2910     return NVPTXISD::Suld1DArrayI8Clamp;
2911   case Intrinsic::nvvm_suld_1d_array_i16_clamp:
2912     return NVPTXISD::Suld1DArrayI16Clamp;
2913   case Intrinsic::nvvm_suld_1d_array_i32_clamp:
2914     return NVPTXISD::Suld1DArrayI32Clamp;
2915   case Intrinsic::nvvm_suld_1d_array_i64_clamp:
2916     return NVPTXISD::Suld1DArrayI64Clamp;
2917   case Intrinsic::nvvm_suld_1d_array_v2i8_clamp:
2918     return NVPTXISD::Suld1DArrayV2I8Clamp;
2919   case Intrinsic::nvvm_suld_1d_array_v2i16_clamp:
2920     return NVPTXISD::Suld1DArrayV2I16Clamp;
2921   case Intrinsic::nvvm_suld_1d_array_v2i32_clamp:
2922     return NVPTXISD::Suld1DArrayV2I32Clamp;
2923   case Intrinsic::nvvm_suld_1d_array_v2i64_clamp:
2924     return NVPTXISD::Suld1DArrayV2I64Clamp;
2925   case Intrinsic::nvvm_suld_1d_array_v4i8_clamp:
2926     return NVPTXISD::Suld1DArrayV4I8Clamp;
2927   case Intrinsic::nvvm_suld_1d_array_v4i16_clamp:
2928     return NVPTXISD::Suld1DArrayV4I16Clamp;
2929   case Intrinsic::nvvm_suld_1d_array_v4i32_clamp:
2930     return NVPTXISD::Suld1DArrayV4I32Clamp;
2931   case Intrinsic::nvvm_suld_2d_i8_clamp:
2932     return NVPTXISD::Suld2DI8Clamp;
2933   case Intrinsic::nvvm_suld_2d_i16_clamp:
2934     return NVPTXISD::Suld2DI16Clamp;
2935   case Intrinsic::nvvm_suld_2d_i32_clamp:
2936     return NVPTXISD::Suld2DI32Clamp;
2937   case Intrinsic::nvvm_suld_2d_i64_clamp:
2938     return NVPTXISD::Suld2DI64Clamp;
2939   case Intrinsic::nvvm_suld_2d_v2i8_clamp:
2940     return NVPTXISD::Suld2DV2I8Clamp;
2941   case Intrinsic::nvvm_suld_2d_v2i16_clamp:
2942     return NVPTXISD::Suld2DV2I16Clamp;
2943   case Intrinsic::nvvm_suld_2d_v2i32_clamp:
2944     return NVPTXISD::Suld2DV2I32Clamp;
2945   case Intrinsic::nvvm_suld_2d_v2i64_clamp:
2946     return NVPTXISD::Suld2DV2I64Clamp;
2947   case Intrinsic::nvvm_suld_2d_v4i8_clamp:
2948     return NVPTXISD::Suld2DV4I8Clamp;
2949   case Intrinsic::nvvm_suld_2d_v4i16_clamp:
2950     return NVPTXISD::Suld2DV4I16Clamp;
2951   case Intrinsic::nvvm_suld_2d_v4i32_clamp:
2952     return NVPTXISD::Suld2DV4I32Clamp;
2953   case Intrinsic::nvvm_suld_2d_array_i8_clamp:
2954     return NVPTXISD::Suld2DArrayI8Clamp;
2955   case Intrinsic::nvvm_suld_2d_array_i16_clamp:
2956     return NVPTXISD::Suld2DArrayI16Clamp;
2957   case Intrinsic::nvvm_suld_2d_array_i32_clamp:
2958     return NVPTXISD::Suld2DArrayI32Clamp;
2959   case Intrinsic::nvvm_suld_2d_array_i64_clamp:
2960     return NVPTXISD::Suld2DArrayI64Clamp;
2961   case Intrinsic::nvvm_suld_2d_array_v2i8_clamp:
2962     return NVPTXISD::Suld2DArrayV2I8Clamp;
2963   case Intrinsic::nvvm_suld_2d_array_v2i16_clamp:
2964     return NVPTXISD::Suld2DArrayV2I16Clamp;
2965   case Intrinsic::nvvm_suld_2d_array_v2i32_clamp:
2966     return NVPTXISD::Suld2DArrayV2I32Clamp;
2967   case Intrinsic::nvvm_suld_2d_array_v2i64_clamp:
2968     return NVPTXISD::Suld2DArrayV2I64Clamp;
2969   case Intrinsic::nvvm_suld_2d_array_v4i8_clamp:
2970     return NVPTXISD::Suld2DArrayV4I8Clamp;
2971   case Intrinsic::nvvm_suld_2d_array_v4i16_clamp:
2972     return NVPTXISD::Suld2DArrayV4I16Clamp;
2973   case Intrinsic::nvvm_suld_2d_array_v4i32_clamp:
2974     return NVPTXISD::Suld2DArrayV4I32Clamp;
2975   case Intrinsic::nvvm_suld_3d_i8_clamp:
2976     return NVPTXISD::Suld3DI8Clamp;
2977   case Intrinsic::nvvm_suld_3d_i16_clamp:
2978     return NVPTXISD::Suld3DI16Clamp;
2979   case Intrinsic::nvvm_suld_3d_i32_clamp:
2980     return NVPTXISD::Suld3DI32Clamp;
2981   case Intrinsic::nvvm_suld_3d_i64_clamp:
2982     return NVPTXISD::Suld3DI64Clamp;
2983   case Intrinsic::nvvm_suld_3d_v2i8_clamp:
2984     return NVPTXISD::Suld3DV2I8Clamp;
2985   case Intrinsic::nvvm_suld_3d_v2i16_clamp:
2986     return NVPTXISD::Suld3DV2I16Clamp;
2987   case Intrinsic::nvvm_suld_3d_v2i32_clamp:
2988     return NVPTXISD::Suld3DV2I32Clamp;
2989   case Intrinsic::nvvm_suld_3d_v2i64_clamp:
2990     return NVPTXISD::Suld3DV2I64Clamp;
2991   case Intrinsic::nvvm_suld_3d_v4i8_clamp:
2992     return NVPTXISD::Suld3DV4I8Clamp;
2993   case Intrinsic::nvvm_suld_3d_v4i16_clamp:
2994     return NVPTXISD::Suld3DV4I16Clamp;
2995   case Intrinsic::nvvm_suld_3d_v4i32_clamp:
2996     return NVPTXISD::Suld3DV4I32Clamp;
2997   case Intrinsic::nvvm_suld_1d_i8_trap:
2998     return NVPTXISD::Suld1DI8Trap;
2999   case Intrinsic::nvvm_suld_1d_i16_trap:
3000     return NVPTXISD::Suld1DI16Trap;
3001   case Intrinsic::nvvm_suld_1d_i32_trap:
3002     return NVPTXISD::Suld1DI32Trap;
3003   case Intrinsic::nvvm_suld_1d_i64_trap:
3004     return NVPTXISD::Suld1DI64Trap;
3005   case Intrinsic::nvvm_suld_1d_v2i8_trap:
3006     return NVPTXISD::Suld1DV2I8Trap;
3007   case Intrinsic::nvvm_suld_1d_v2i16_trap:
3008     return NVPTXISD::Suld1DV2I16Trap;
3009   case Intrinsic::nvvm_suld_1d_v2i32_trap:
3010     return NVPTXISD::Suld1DV2I32Trap;
3011   case Intrinsic::nvvm_suld_1d_v2i64_trap:
3012     return NVPTXISD::Suld1DV2I64Trap;
3013   case Intrinsic::nvvm_suld_1d_v4i8_trap:
3014     return NVPTXISD::Suld1DV4I8Trap;
3015   case Intrinsic::nvvm_suld_1d_v4i16_trap:
3016     return NVPTXISD::Suld1DV4I16Trap;
3017   case Intrinsic::nvvm_suld_1d_v4i32_trap:
3018     return NVPTXISD::Suld1DV4I32Trap;
3019   case Intrinsic::nvvm_suld_1d_array_i8_trap:
3020     return NVPTXISD::Suld1DArrayI8Trap;
3021   case Intrinsic::nvvm_suld_1d_array_i16_trap:
3022     return NVPTXISD::Suld1DArrayI16Trap;
3023   case Intrinsic::nvvm_suld_1d_array_i32_trap:
3024     return NVPTXISD::Suld1DArrayI32Trap;
3025   case Intrinsic::nvvm_suld_1d_array_i64_trap:
3026     return NVPTXISD::Suld1DArrayI64Trap;
3027   case Intrinsic::nvvm_suld_1d_array_v2i8_trap:
3028     return NVPTXISD::Suld1DArrayV2I8Trap;
3029   case Intrinsic::nvvm_suld_1d_array_v2i16_trap:
3030     return NVPTXISD::Suld1DArrayV2I16Trap;
3031   case Intrinsic::nvvm_suld_1d_array_v2i32_trap:
3032     return NVPTXISD::Suld1DArrayV2I32Trap;
3033   case Intrinsic::nvvm_suld_1d_array_v2i64_trap:
3034     return NVPTXISD::Suld1DArrayV2I64Trap;
3035   case Intrinsic::nvvm_suld_1d_array_v4i8_trap:
3036     return NVPTXISD::Suld1DArrayV4I8Trap;
3037   case Intrinsic::nvvm_suld_1d_array_v4i16_trap:
3038     return NVPTXISD::Suld1DArrayV4I16Trap;
3039   case Intrinsic::nvvm_suld_1d_array_v4i32_trap:
3040     return NVPTXISD::Suld1DArrayV4I32Trap;
3041   case Intrinsic::nvvm_suld_2d_i8_trap:
3042     return NVPTXISD::Suld2DI8Trap;
3043   case Intrinsic::nvvm_suld_2d_i16_trap:
3044     return NVPTXISD::Suld2DI16Trap;
3045   case Intrinsic::nvvm_suld_2d_i32_trap:
3046     return NVPTXISD::Suld2DI32Trap;
3047   case Intrinsic::nvvm_suld_2d_i64_trap:
3048     return NVPTXISD::Suld2DI64Trap;
3049   case Intrinsic::nvvm_suld_2d_v2i8_trap:
3050     return NVPTXISD::Suld2DV2I8Trap;
3051   case Intrinsic::nvvm_suld_2d_v2i16_trap:
3052     return NVPTXISD::Suld2DV2I16Trap;
3053   case Intrinsic::nvvm_suld_2d_v2i32_trap:
3054     return NVPTXISD::Suld2DV2I32Trap;
3055   case Intrinsic::nvvm_suld_2d_v2i64_trap:
3056     return NVPTXISD::Suld2DV2I64Trap;
3057   case Intrinsic::nvvm_suld_2d_v4i8_trap:
3058     return NVPTXISD::Suld2DV4I8Trap;
3059   case Intrinsic::nvvm_suld_2d_v4i16_trap:
3060     return NVPTXISD::Suld2DV4I16Trap;
3061   case Intrinsic::nvvm_suld_2d_v4i32_trap:
3062     return NVPTXISD::Suld2DV4I32Trap;
3063   case Intrinsic::nvvm_suld_2d_array_i8_trap:
3064     return NVPTXISD::Suld2DArrayI8Trap;
3065   case Intrinsic::nvvm_suld_2d_array_i16_trap:
3066     return NVPTXISD::Suld2DArrayI16Trap;
3067   case Intrinsic::nvvm_suld_2d_array_i32_trap:
3068     return NVPTXISD::Suld2DArrayI32Trap;
3069   case Intrinsic::nvvm_suld_2d_array_i64_trap:
3070     return NVPTXISD::Suld2DArrayI64Trap;
3071   case Intrinsic::nvvm_suld_2d_array_v2i8_trap:
3072     return NVPTXISD::Suld2DArrayV2I8Trap;
3073   case Intrinsic::nvvm_suld_2d_array_v2i16_trap:
3074     return NVPTXISD::Suld2DArrayV2I16Trap;
3075   case Intrinsic::nvvm_suld_2d_array_v2i32_trap:
3076     return NVPTXISD::Suld2DArrayV2I32Trap;
3077   case Intrinsic::nvvm_suld_2d_array_v2i64_trap:
3078     return NVPTXISD::Suld2DArrayV2I64Trap;
3079   case Intrinsic::nvvm_suld_2d_array_v4i8_trap:
3080     return NVPTXISD::Suld2DArrayV4I8Trap;
3081   case Intrinsic::nvvm_suld_2d_array_v4i16_trap:
3082     return NVPTXISD::Suld2DArrayV4I16Trap;
3083   case Intrinsic::nvvm_suld_2d_array_v4i32_trap:
3084     return NVPTXISD::Suld2DArrayV4I32Trap;
3085   case Intrinsic::nvvm_suld_3d_i8_trap:
3086     return NVPTXISD::Suld3DI8Trap;
3087   case Intrinsic::nvvm_suld_3d_i16_trap:
3088     return NVPTXISD::Suld3DI16Trap;
3089   case Intrinsic::nvvm_suld_3d_i32_trap:
3090     return NVPTXISD::Suld3DI32Trap;
3091   case Intrinsic::nvvm_suld_3d_i64_trap:
3092     return NVPTXISD::Suld3DI64Trap;
3093   case Intrinsic::nvvm_suld_3d_v2i8_trap:
3094     return NVPTXISD::Suld3DV2I8Trap;
3095   case Intrinsic::nvvm_suld_3d_v2i16_trap:
3096     return NVPTXISD::Suld3DV2I16Trap;
3097   case Intrinsic::nvvm_suld_3d_v2i32_trap:
3098     return NVPTXISD::Suld3DV2I32Trap;
3099   case Intrinsic::nvvm_suld_3d_v2i64_trap:
3100     return NVPTXISD::Suld3DV2I64Trap;
3101   case Intrinsic::nvvm_suld_3d_v4i8_trap:
3102     return NVPTXISD::Suld3DV4I8Trap;
3103   case Intrinsic::nvvm_suld_3d_v4i16_trap:
3104     return NVPTXISD::Suld3DV4I16Trap;
3105   case Intrinsic::nvvm_suld_3d_v4i32_trap:
3106     return NVPTXISD::Suld3DV4I32Trap;
3107   case Intrinsic::nvvm_suld_1d_i8_zero:
3108     return NVPTXISD::Suld1DI8Zero;
3109   case Intrinsic::nvvm_suld_1d_i16_zero:
3110     return NVPTXISD::Suld1DI16Zero;
3111   case Intrinsic::nvvm_suld_1d_i32_zero:
3112     return NVPTXISD::Suld1DI32Zero;
3113   case Intrinsic::nvvm_suld_1d_i64_zero:
3114     return NVPTXISD::Suld1DI64Zero;
3115   case Intrinsic::nvvm_suld_1d_v2i8_zero:
3116     return NVPTXISD::Suld1DV2I8Zero;
3117   case Intrinsic::nvvm_suld_1d_v2i16_zero:
3118     return NVPTXISD::Suld1DV2I16Zero;
3119   case Intrinsic::nvvm_suld_1d_v2i32_zero:
3120     return NVPTXISD::Suld1DV2I32Zero;
3121   case Intrinsic::nvvm_suld_1d_v2i64_zero:
3122     return NVPTXISD::Suld1DV2I64Zero;
3123   case Intrinsic::nvvm_suld_1d_v4i8_zero:
3124     return NVPTXISD::Suld1DV4I8Zero;
3125   case Intrinsic::nvvm_suld_1d_v4i16_zero:
3126     return NVPTXISD::Suld1DV4I16Zero;
3127   case Intrinsic::nvvm_suld_1d_v4i32_zero:
3128     return NVPTXISD::Suld1DV4I32Zero;
3129   case Intrinsic::nvvm_suld_1d_array_i8_zero:
3130     return NVPTXISD::Suld1DArrayI8Zero;
3131   case Intrinsic::nvvm_suld_1d_array_i16_zero:
3132     return NVPTXISD::Suld1DArrayI16Zero;
3133   case Intrinsic::nvvm_suld_1d_array_i32_zero:
3134     return NVPTXISD::Suld1DArrayI32Zero;
3135   case Intrinsic::nvvm_suld_1d_array_i64_zero:
3136     return NVPTXISD::Suld1DArrayI64Zero;
3137   case Intrinsic::nvvm_suld_1d_array_v2i8_zero:
3138     return NVPTXISD::Suld1DArrayV2I8Zero;
3139   case Intrinsic::nvvm_suld_1d_array_v2i16_zero:
3140     return NVPTXISD::Suld1DArrayV2I16Zero;
3141   case Intrinsic::nvvm_suld_1d_array_v2i32_zero:
3142     return NVPTXISD::Suld1DArrayV2I32Zero;
3143   case Intrinsic::nvvm_suld_1d_array_v2i64_zero:
3144     return NVPTXISD::Suld1DArrayV2I64Zero;
3145   case Intrinsic::nvvm_suld_1d_array_v4i8_zero:
3146     return NVPTXISD::Suld1DArrayV4I8Zero;
3147   case Intrinsic::nvvm_suld_1d_array_v4i16_zero:
3148     return NVPTXISD::Suld1DArrayV4I16Zero;
3149   case Intrinsic::nvvm_suld_1d_array_v4i32_zero:
3150     return NVPTXISD::Suld1DArrayV4I32Zero;
3151   case Intrinsic::nvvm_suld_2d_i8_zero:
3152     return NVPTXISD::Suld2DI8Zero;
3153   case Intrinsic::nvvm_suld_2d_i16_zero:
3154     return NVPTXISD::Suld2DI16Zero;
3155   case Intrinsic::nvvm_suld_2d_i32_zero:
3156     return NVPTXISD::Suld2DI32Zero;
3157   case Intrinsic::nvvm_suld_2d_i64_zero:
3158     return NVPTXISD::Suld2DI64Zero;
3159   case Intrinsic::nvvm_suld_2d_v2i8_zero:
3160     return NVPTXISD::Suld2DV2I8Zero;
3161   case Intrinsic::nvvm_suld_2d_v2i16_zero:
3162     return NVPTXISD::Suld2DV2I16Zero;
3163   case Intrinsic::nvvm_suld_2d_v2i32_zero:
3164     return NVPTXISD::Suld2DV2I32Zero;
3165   case Intrinsic::nvvm_suld_2d_v2i64_zero:
3166     return NVPTXISD::Suld2DV2I64Zero;
3167   case Intrinsic::nvvm_suld_2d_v4i8_zero:
3168     return NVPTXISD::Suld2DV4I8Zero;
3169   case Intrinsic::nvvm_suld_2d_v4i16_zero:
3170     return NVPTXISD::Suld2DV4I16Zero;
3171   case Intrinsic::nvvm_suld_2d_v4i32_zero:
3172     return NVPTXISD::Suld2DV4I32Zero;
3173   case Intrinsic::nvvm_suld_2d_array_i8_zero:
3174     return NVPTXISD::Suld2DArrayI8Zero;
3175   case Intrinsic::nvvm_suld_2d_array_i16_zero:
3176     return NVPTXISD::Suld2DArrayI16Zero;
3177   case Intrinsic::nvvm_suld_2d_array_i32_zero:
3178     return NVPTXISD::Suld2DArrayI32Zero;
3179   case Intrinsic::nvvm_suld_2d_array_i64_zero:
3180     return NVPTXISD::Suld2DArrayI64Zero;
3181   case Intrinsic::nvvm_suld_2d_array_v2i8_zero:
3182     return NVPTXISD::Suld2DArrayV2I8Zero;
3183   case Intrinsic::nvvm_suld_2d_array_v2i16_zero:
3184     return NVPTXISD::Suld2DArrayV2I16Zero;
3185   case Intrinsic::nvvm_suld_2d_array_v2i32_zero:
3186     return NVPTXISD::Suld2DArrayV2I32Zero;
3187   case Intrinsic::nvvm_suld_2d_array_v2i64_zero:
3188     return NVPTXISD::Suld2DArrayV2I64Zero;
3189   case Intrinsic::nvvm_suld_2d_array_v4i8_zero:
3190     return NVPTXISD::Suld2DArrayV4I8Zero;
3191   case Intrinsic::nvvm_suld_2d_array_v4i16_zero:
3192     return NVPTXISD::Suld2DArrayV4I16Zero;
3193   case Intrinsic::nvvm_suld_2d_array_v4i32_zero:
3194     return NVPTXISD::Suld2DArrayV4I32Zero;
3195   case Intrinsic::nvvm_suld_3d_i8_zero:
3196     return NVPTXISD::Suld3DI8Zero;
3197   case Intrinsic::nvvm_suld_3d_i16_zero:
3198     return NVPTXISD::Suld3DI16Zero;
3199   case Intrinsic::nvvm_suld_3d_i32_zero:
3200     return NVPTXISD::Suld3DI32Zero;
3201   case Intrinsic::nvvm_suld_3d_i64_zero:
3202     return NVPTXISD::Suld3DI64Zero;
3203   case Intrinsic::nvvm_suld_3d_v2i8_zero:
3204     return NVPTXISD::Suld3DV2I8Zero;
3205   case Intrinsic::nvvm_suld_3d_v2i16_zero:
3206     return NVPTXISD::Suld3DV2I16Zero;
3207   case Intrinsic::nvvm_suld_3d_v2i32_zero:
3208     return NVPTXISD::Suld3DV2I32Zero;
3209   case Intrinsic::nvvm_suld_3d_v2i64_zero:
3210     return NVPTXISD::Suld3DV2I64Zero;
3211   case Intrinsic::nvvm_suld_3d_v4i8_zero:
3212     return NVPTXISD::Suld3DV4I8Zero;
3213   case Intrinsic::nvvm_suld_3d_v4i16_zero:
3214     return NVPTXISD::Suld3DV4I16Zero;
3215   case Intrinsic::nvvm_suld_3d_v4i32_zero:
3216     return NVPTXISD::Suld3DV4I32Zero;
3217   }
3218 }
3219
3220 // llvm.ptx.memcpy.const and llvm.ptx.memmove.const need to be modeled as
3221 // TgtMemIntrinsic
3222 // because we need the information that is only available in the "Value" type
3223 // of destination
3224 // pointer. In particular, the address space information.
3225 bool NVPTXTargetLowering::getTgtMemIntrinsic(
3226     IntrinsicInfo &Info, const CallInst &I, unsigned Intrinsic) const {
3227   switch (Intrinsic) {
3228   default:
3229     return false;
3230
3231   case Intrinsic::nvvm_atomic_load_add_f32:
3232     Info.opc = ISD::INTRINSIC_W_CHAIN;
3233     Info.memVT = MVT::f32;
3234     Info.ptrVal = I.getArgOperand(0);
3235     Info.offset = 0;
3236     Info.vol = 0;
3237     Info.readMem = true;
3238     Info.writeMem = true;
3239     Info.align = 0;
3240     return true;
3241
3242   case Intrinsic::nvvm_atomic_load_inc_32:
3243   case Intrinsic::nvvm_atomic_load_dec_32:
3244     Info.opc = ISD::INTRINSIC_W_CHAIN;
3245     Info.memVT = MVT::i32;
3246     Info.ptrVal = I.getArgOperand(0);
3247     Info.offset = 0;
3248     Info.vol = 0;
3249     Info.readMem = true;
3250     Info.writeMem = true;
3251     Info.align = 0;
3252     return true;
3253
3254   case Intrinsic::nvvm_ldu_global_i:
3255   case Intrinsic::nvvm_ldu_global_f:
3256   case Intrinsic::nvvm_ldu_global_p: {
3257
3258     Info.opc = ISD::INTRINSIC_W_CHAIN;
3259     if (Intrinsic == Intrinsic::nvvm_ldu_global_i)
3260       Info.memVT = getValueType(I.getType());
3261     else if(Intrinsic == Intrinsic::nvvm_ldu_global_p)
3262       Info.memVT = getPointerTy();
3263     else
3264       Info.memVT = getValueType(I.getType());
3265     Info.ptrVal = I.getArgOperand(0);
3266     Info.offset = 0;
3267     Info.vol = 0;
3268     Info.readMem = true;
3269     Info.writeMem = false;
3270     Info.align = cast<ConstantInt>(I.getArgOperand(1))->getZExtValue();
3271
3272     return true;
3273   }
3274   case Intrinsic::nvvm_ldg_global_i:
3275   case Intrinsic::nvvm_ldg_global_f:
3276   case Intrinsic::nvvm_ldg_global_p: {
3277
3278     Info.opc = ISD::INTRINSIC_W_CHAIN;
3279     if (Intrinsic == Intrinsic::nvvm_ldg_global_i)
3280       Info.memVT = getValueType(I.getType());
3281     else if(Intrinsic == Intrinsic::nvvm_ldg_global_p)
3282       Info.memVT = getPointerTy();
3283     else
3284       Info.memVT = getValueType(I.getType());
3285     Info.ptrVal = I.getArgOperand(0);
3286     Info.offset = 0;
3287     Info.vol = 0;
3288     Info.readMem = true;
3289     Info.writeMem = false;
3290     Info.align = cast<ConstantInt>(I.getArgOperand(1))->getZExtValue();
3291
3292     return true;
3293   }
3294
3295   case Intrinsic::nvvm_tex_1d_v4f32_s32:
3296   case Intrinsic::nvvm_tex_1d_v4f32_f32:
3297   case Intrinsic::nvvm_tex_1d_level_v4f32_f32:
3298   case Intrinsic::nvvm_tex_1d_grad_v4f32_f32:
3299   case Intrinsic::nvvm_tex_1d_array_v4f32_s32:
3300   case Intrinsic::nvvm_tex_1d_array_v4f32_f32:
3301   case Intrinsic::nvvm_tex_1d_array_level_v4f32_f32:
3302   case Intrinsic::nvvm_tex_1d_array_grad_v4f32_f32:
3303   case Intrinsic::nvvm_tex_2d_v4f32_s32:
3304   case Intrinsic::nvvm_tex_2d_v4f32_f32:
3305   case Intrinsic::nvvm_tex_2d_level_v4f32_f32:
3306   case Intrinsic::nvvm_tex_2d_grad_v4f32_f32:
3307   case Intrinsic::nvvm_tex_2d_array_v4f32_s32:
3308   case Intrinsic::nvvm_tex_2d_array_v4f32_f32:
3309   case Intrinsic::nvvm_tex_2d_array_level_v4f32_f32:
3310   case Intrinsic::nvvm_tex_2d_array_grad_v4f32_f32:
3311   case Intrinsic::nvvm_tex_3d_v4f32_s32:
3312   case Intrinsic::nvvm_tex_3d_v4f32_f32:
3313   case Intrinsic::nvvm_tex_3d_level_v4f32_f32:
3314   case Intrinsic::nvvm_tex_3d_grad_v4f32_f32:
3315   case Intrinsic::nvvm_tex_cube_v4f32_f32:
3316   case Intrinsic::nvvm_tex_cube_level_v4f32_f32:
3317   case Intrinsic::nvvm_tex_cube_array_v4f32_f32:
3318   case Intrinsic::nvvm_tex_cube_array_level_v4f32_f32:
3319   case Intrinsic::nvvm_tld4_r_2d_v4f32_f32:
3320   case Intrinsic::nvvm_tld4_g_2d_v4f32_f32:
3321   case Intrinsic::nvvm_tld4_b_2d_v4f32_f32:
3322   case Intrinsic::nvvm_tld4_a_2d_v4f32_f32:
3323   case Intrinsic::nvvm_tex_unified_1d_v4f32_s32:
3324   case Intrinsic::nvvm_tex_unified_1d_v4f32_f32:
3325   case Intrinsic::nvvm_tex_unified_1d_level_v4f32_f32:
3326   case Intrinsic::nvvm_tex_unified_1d_grad_v4f32_f32:
3327   case Intrinsic::nvvm_tex_unified_1d_array_v4f32_s32:
3328   case Intrinsic::nvvm_tex_unified_1d_array_v4f32_f32:
3329   case Intrinsic::nvvm_tex_unified_1d_array_level_v4f32_f32:
3330   case Intrinsic::nvvm_tex_unified_1d_array_grad_v4f32_f32:
3331   case Intrinsic::nvvm_tex_unified_2d_v4f32_s32:
3332   case Intrinsic::nvvm_tex_unified_2d_v4f32_f32:
3333   case Intrinsic::nvvm_tex_unified_2d_level_v4f32_f32:
3334   case Intrinsic::nvvm_tex_unified_2d_grad_v4f32_f32:
3335   case Intrinsic::nvvm_tex_unified_2d_array_v4f32_s32:
3336   case Intrinsic::nvvm_tex_unified_2d_array_v4f32_f32:
3337   case Intrinsic::nvvm_tex_unified_2d_array_level_v4f32_f32:
3338   case Intrinsic::nvvm_tex_unified_2d_array_grad_v4f32_f32:
3339   case Intrinsic::nvvm_tex_unified_3d_v4f32_s32:
3340   case Intrinsic::nvvm_tex_unified_3d_v4f32_f32:
3341   case Intrinsic::nvvm_tex_unified_3d_level_v4f32_f32:
3342   case Intrinsic::nvvm_tex_unified_3d_grad_v4f32_f32:
3343   case Intrinsic::nvvm_tex_unified_cube_v4f32_f32:
3344   case Intrinsic::nvvm_tex_unified_cube_level_v4f32_f32:
3345   case Intrinsic::nvvm_tex_unified_cube_array_v4f32_f32:
3346   case Intrinsic::nvvm_tex_unified_cube_array_level_v4f32_f32:
3347   case Intrinsic::nvvm_tld4_unified_r_2d_v4f32_f32:
3348   case Intrinsic::nvvm_tld4_unified_g_2d_v4f32_f32:
3349   case Intrinsic::nvvm_tld4_unified_b_2d_v4f32_f32:
3350   case Intrinsic::nvvm_tld4_unified_a_2d_v4f32_f32: {
3351     Info.opc = getOpcForTextureInstr(Intrinsic);
3352     Info.memVT = MVT::v4f32;
3353     Info.ptrVal = nullptr;
3354     Info.offset = 0;
3355     Info.vol = 0;
3356     Info.readMem = true;
3357     Info.writeMem = false;
3358     Info.align = 16;
3359     return true;
3360   }
3361   case Intrinsic::nvvm_tex_1d_v4s32_s32:
3362   case Intrinsic::nvvm_tex_1d_v4s32_f32:
3363   case Intrinsic::nvvm_tex_1d_level_v4s32_f32:
3364   case Intrinsic::nvvm_tex_1d_grad_v4s32_f32:
3365   case Intrinsic::nvvm_tex_1d_array_v4s32_s32:
3366   case Intrinsic::nvvm_tex_1d_array_v4s32_f32:
3367   case Intrinsic::nvvm_tex_1d_array_level_v4s32_f32:
3368   case Intrinsic::nvvm_tex_1d_array_grad_v4s32_f32:
3369   case Intrinsic::nvvm_tex_2d_v4s32_s32:
3370   case Intrinsic::nvvm_tex_2d_v4s32_f32:
3371   case Intrinsic::nvvm_tex_2d_level_v4s32_f32:
3372   case Intrinsic::nvvm_tex_2d_grad_v4s32_f32:
3373   case Intrinsic::nvvm_tex_2d_array_v4s32_s32:
3374   case Intrinsic::nvvm_tex_2d_array_v4s32_f32:
3375   case Intrinsic::nvvm_tex_2d_array_level_v4s32_f32:
3376   case Intrinsic::nvvm_tex_2d_array_grad_v4s32_f32:
3377   case Intrinsic::nvvm_tex_3d_v4s32_s32:
3378   case Intrinsic::nvvm_tex_3d_v4s32_f32:
3379   case Intrinsic::nvvm_tex_3d_level_v4s32_f32:
3380   case Intrinsic::nvvm_tex_3d_grad_v4s32_f32:
3381   case Intrinsic::nvvm_tex_cube_v4s32_f32:
3382   case Intrinsic::nvvm_tex_cube_level_v4s32_f32:
3383   case Intrinsic::nvvm_tex_cube_array_v4s32_f32:
3384   case Intrinsic::nvvm_tex_cube_array_level_v4s32_f32:
3385   case Intrinsic::nvvm_tex_cube_v4u32_f32:
3386   case Intrinsic::nvvm_tex_cube_level_v4u32_f32:
3387   case Intrinsic::nvvm_tex_cube_array_v4u32_f32:
3388   case Intrinsic::nvvm_tex_cube_array_level_v4u32_f32:
3389   case Intrinsic::nvvm_tex_1d_v4u32_s32:
3390   case Intrinsic::nvvm_tex_1d_v4u32_f32:
3391   case Intrinsic::nvvm_tex_1d_level_v4u32_f32:
3392   case Intrinsic::nvvm_tex_1d_grad_v4u32_f32:
3393   case Intrinsic::nvvm_tex_1d_array_v4u32_s32:
3394   case Intrinsic::nvvm_tex_1d_array_v4u32_f32:
3395   case Intrinsic::nvvm_tex_1d_array_level_v4u32_f32:
3396   case Intrinsic::nvvm_tex_1d_array_grad_v4u32_f32:
3397   case Intrinsic::nvvm_tex_2d_v4u32_s32:
3398   case Intrinsic::nvvm_tex_2d_v4u32_f32:
3399   case Intrinsic::nvvm_tex_2d_level_v4u32_f32:
3400   case Intrinsic::nvvm_tex_2d_grad_v4u32_f32:
3401   case Intrinsic::nvvm_tex_2d_array_v4u32_s32:
3402   case Intrinsic::nvvm_tex_2d_array_v4u32_f32:
3403   case Intrinsic::nvvm_tex_2d_array_level_v4u32_f32:
3404   case Intrinsic::nvvm_tex_2d_array_grad_v4u32_f32:
3405   case Intrinsic::nvvm_tex_3d_v4u32_s32:
3406   case Intrinsic::nvvm_tex_3d_v4u32_f32:
3407   case Intrinsic::nvvm_tex_3d_level_v4u32_f32:
3408   case Intrinsic::nvvm_tex_3d_grad_v4u32_f32:
3409   case Intrinsic::nvvm_tld4_r_2d_v4s32_f32:
3410   case Intrinsic::nvvm_tld4_g_2d_v4s32_f32:
3411   case Intrinsic::nvvm_tld4_b_2d_v4s32_f32:
3412   case Intrinsic::nvvm_tld4_a_2d_v4s32_f32:
3413   case Intrinsic::nvvm_tld4_r_2d_v4u32_f32:
3414   case Intrinsic::nvvm_tld4_g_2d_v4u32_f32:
3415   case Intrinsic::nvvm_tld4_b_2d_v4u32_f32:
3416   case Intrinsic::nvvm_tld4_a_2d_v4u32_f32:
3417   case Intrinsic::nvvm_tex_unified_1d_v4s32_s32:
3418   case Intrinsic::nvvm_tex_unified_1d_v4s32_f32:
3419   case Intrinsic::nvvm_tex_unified_1d_level_v4s32_f32:
3420   case Intrinsic::nvvm_tex_unified_1d_grad_v4s32_f32:
3421   case Intrinsic::nvvm_tex_unified_1d_array_v4s32_s32:
3422   case Intrinsic::nvvm_tex_unified_1d_array_v4s32_f32:
3423   case Intrinsic::nvvm_tex_unified_1d_array_level_v4s32_f32:
3424   case Intrinsic::nvvm_tex_unified_1d_array_grad_v4s32_f32:
3425   case Intrinsic::nvvm_tex_unified_2d_v4s32_s32:
3426   case Intrinsic::nvvm_tex_unified_2d_v4s32_f32:
3427   case Intrinsic::nvvm_tex_unified_2d_level_v4s32_f32:
3428   case Intrinsic::nvvm_tex_unified_2d_grad_v4s32_f32:
3429   case Intrinsic::nvvm_tex_unified_2d_array_v4s32_s32:
3430   case Intrinsic::nvvm_tex_unified_2d_array_v4s32_f32:
3431   case Intrinsic::nvvm_tex_unified_2d_array_level_v4s32_f32:
3432   case Intrinsic::nvvm_tex_unified_2d_array_grad_v4s32_f32:
3433   case Intrinsic::nvvm_tex_unified_3d_v4s32_s32:
3434   case Intrinsic::nvvm_tex_unified_3d_v4s32_f32:
3435   case Intrinsic::nvvm_tex_unified_3d_level_v4s32_f32:
3436   case Intrinsic::nvvm_tex_unified_3d_grad_v4s32_f32:
3437   case Intrinsic::nvvm_tex_unified_1d_v4u32_s32:
3438   case Intrinsic::nvvm_tex_unified_1d_v4u32_f32:
3439   case Intrinsic::nvvm_tex_unified_1d_level_v4u32_f32:
3440   case Intrinsic::nvvm_tex_unified_1d_grad_v4u32_f32:
3441   case Intrinsic::nvvm_tex_unified_1d_array_v4u32_s32:
3442   case Intrinsic::nvvm_tex_unified_1d_array_v4u32_f32:
3443   case Intrinsic::nvvm_tex_unified_1d_array_level_v4u32_f32:
3444   case Intrinsic::nvvm_tex_unified_1d_array_grad_v4u32_f32:
3445   case Intrinsic::nvvm_tex_unified_2d_v4u32_s32:
3446   case Intrinsic::nvvm_tex_unified_2d_v4u32_f32:
3447   case Intrinsic::nvvm_tex_unified_2d_level_v4u32_f32:
3448   case Intrinsic::nvvm_tex_unified_2d_grad_v4u32_f32:
3449   case Intrinsic::nvvm_tex_unified_2d_array_v4u32_s32:
3450   case Intrinsic::nvvm_tex_unified_2d_array_v4u32_f32:
3451   case Intrinsic::nvvm_tex_unified_2d_array_level_v4u32_f32:
3452   case Intrinsic::nvvm_tex_unified_2d_array_grad_v4u32_f32:
3453   case Intrinsic::nvvm_tex_unified_3d_v4u32_s32:
3454   case Intrinsic::nvvm_tex_unified_3d_v4u32_f32:
3455   case Intrinsic::nvvm_tex_unified_3d_level_v4u32_f32:
3456   case Intrinsic::nvvm_tex_unified_3d_grad_v4u32_f32:
3457   case Intrinsic::nvvm_tex_unified_cube_v4s32_f32:
3458   case Intrinsic::nvvm_tex_unified_cube_level_v4s32_f32:
3459   case Intrinsic::nvvm_tex_unified_cube_array_v4s32_f32:
3460   case Intrinsic::nvvm_tex_unified_cube_array_level_v4s32_f32:
3461   case Intrinsic::nvvm_tex_unified_cube_v4u32_f32:
3462   case Intrinsic::nvvm_tex_unified_cube_level_v4u32_f32:
3463   case Intrinsic::nvvm_tex_unified_cube_array_v4u32_f32:
3464   case Intrinsic::nvvm_tex_unified_cube_array_level_v4u32_f32:
3465   case Intrinsic::nvvm_tld4_unified_r_2d_v4s32_f32:
3466   case Intrinsic::nvvm_tld4_unified_g_2d_v4s32_f32:
3467   case Intrinsic::nvvm_tld4_unified_b_2d_v4s32_f32:
3468   case Intrinsic::nvvm_tld4_unified_a_2d_v4s32_f32:
3469   case Intrinsic::nvvm_tld4_unified_r_2d_v4u32_f32:
3470   case Intrinsic::nvvm_tld4_unified_g_2d_v4u32_f32:
3471   case Intrinsic::nvvm_tld4_unified_b_2d_v4u32_f32:
3472   case Intrinsic::nvvm_tld4_unified_a_2d_v4u32_f32: {
3473     Info.opc = getOpcForTextureInstr(Intrinsic);
3474     Info.memVT = MVT::v4i32;
3475     Info.ptrVal = nullptr;
3476     Info.offset = 0;
3477     Info.vol = 0;
3478     Info.readMem = true;
3479     Info.writeMem = false;
3480     Info.align = 16;
3481     return true;
3482   }
3483   case Intrinsic::nvvm_suld_1d_i8_clamp:
3484   case Intrinsic::nvvm_suld_1d_v2i8_clamp:
3485   case Intrinsic::nvvm_suld_1d_v4i8_clamp:
3486   case Intrinsic::nvvm_suld_1d_array_i8_clamp:
3487   case Intrinsic::nvvm_suld_1d_array_v2i8_clamp:
3488   case Intrinsic::nvvm_suld_1d_array_v4i8_clamp:
3489   case Intrinsic::nvvm_suld_2d_i8_clamp:
3490   case Intrinsic::nvvm_suld_2d_v2i8_clamp:
3491   case Intrinsic::nvvm_suld_2d_v4i8_clamp:
3492   case Intrinsic::nvvm_suld_2d_array_i8_clamp:
3493   case Intrinsic::nvvm_suld_2d_array_v2i8_clamp:
3494   case Intrinsic::nvvm_suld_2d_array_v4i8_clamp:
3495   case Intrinsic::nvvm_suld_3d_i8_clamp:
3496   case Intrinsic::nvvm_suld_3d_v2i8_clamp:
3497   case Intrinsic::nvvm_suld_3d_v4i8_clamp:
3498   case Intrinsic::nvvm_suld_1d_i8_trap:
3499   case Intrinsic::nvvm_suld_1d_v2i8_trap:
3500   case Intrinsic::nvvm_suld_1d_v4i8_trap:
3501   case Intrinsic::nvvm_suld_1d_array_i8_trap:
3502   case Intrinsic::nvvm_suld_1d_array_v2i8_trap:
3503   case Intrinsic::nvvm_suld_1d_array_v4i8_trap:
3504   case Intrinsic::nvvm_suld_2d_i8_trap:
3505   case Intrinsic::nvvm_suld_2d_v2i8_trap:
3506   case Intrinsic::nvvm_suld_2d_v4i8_trap:
3507   case Intrinsic::nvvm_suld_2d_array_i8_trap:
3508   case Intrinsic::nvvm_suld_2d_array_v2i8_trap:
3509   case Intrinsic::nvvm_suld_2d_array_v4i8_trap:
3510   case Intrinsic::nvvm_suld_3d_i8_trap:
3511   case Intrinsic::nvvm_suld_3d_v2i8_trap:
3512   case Intrinsic::nvvm_suld_3d_v4i8_trap:
3513   case Intrinsic::nvvm_suld_1d_i8_zero:
3514   case Intrinsic::nvvm_suld_1d_v2i8_zero:
3515   case Intrinsic::nvvm_suld_1d_v4i8_zero:
3516   case Intrinsic::nvvm_suld_1d_array_i8_zero:
3517   case Intrinsic::nvvm_suld_1d_array_v2i8_zero:
3518   case Intrinsic::nvvm_suld_1d_array_v4i8_zero:
3519   case Intrinsic::nvvm_suld_2d_i8_zero:
3520   case Intrinsic::nvvm_suld_2d_v2i8_zero:
3521   case Intrinsic::nvvm_suld_2d_v4i8_zero:
3522   case Intrinsic::nvvm_suld_2d_array_i8_zero:
3523   case Intrinsic::nvvm_suld_2d_array_v2i8_zero:
3524   case Intrinsic::nvvm_suld_2d_array_v4i8_zero:
3525   case Intrinsic::nvvm_suld_3d_i8_zero:
3526   case Intrinsic::nvvm_suld_3d_v2i8_zero:
3527   case Intrinsic::nvvm_suld_3d_v4i8_zero: {
3528     Info.opc = getOpcForSurfaceInstr(Intrinsic);
3529     Info.memVT = MVT::i8;
3530     Info.ptrVal = nullptr;
3531     Info.offset = 0;
3532     Info.vol = 0;
3533     Info.readMem = true;
3534     Info.writeMem = false;
3535     Info.align = 16;
3536     return true;
3537   }
3538   case Intrinsic::nvvm_suld_1d_i16_clamp:
3539   case Intrinsic::nvvm_suld_1d_v2i16_clamp:
3540   case Intrinsic::nvvm_suld_1d_v4i16_clamp:
3541   case Intrinsic::nvvm_suld_1d_array_i16_clamp:
3542   case Intrinsic::nvvm_suld_1d_array_v2i16_clamp:
3543   case Intrinsic::nvvm_suld_1d_array_v4i16_clamp:
3544   case Intrinsic::nvvm_suld_2d_i16_clamp:
3545   case Intrinsic::nvvm_suld_2d_v2i16_clamp:
3546   case Intrinsic::nvvm_suld_2d_v4i16_clamp:
3547   case Intrinsic::nvvm_suld_2d_array_i16_clamp:
3548   case Intrinsic::nvvm_suld_2d_array_v2i16_clamp:
3549   case Intrinsic::nvvm_suld_2d_array_v4i16_clamp:
3550   case Intrinsic::nvvm_suld_3d_i16_clamp:
3551   case Intrinsic::nvvm_suld_3d_v2i16_clamp:
3552   case Intrinsic::nvvm_suld_3d_v4i16_clamp:
3553   case Intrinsic::nvvm_suld_1d_i16_trap:
3554   case Intrinsic::nvvm_suld_1d_v2i16_trap:
3555   case Intrinsic::nvvm_suld_1d_v4i16_trap:
3556   case Intrinsic::nvvm_suld_1d_array_i16_trap:
3557   case Intrinsic::nvvm_suld_1d_array_v2i16_trap:
3558   case Intrinsic::nvvm_suld_1d_array_v4i16_trap:
3559   case Intrinsic::nvvm_suld_2d_i16_trap:
3560   case Intrinsic::nvvm_suld_2d_v2i16_trap:
3561   case Intrinsic::nvvm_suld_2d_v4i16_trap:
3562   case Intrinsic::nvvm_suld_2d_array_i16_trap:
3563   case Intrinsic::nvvm_suld_2d_array_v2i16_trap:
3564   case Intrinsic::nvvm_suld_2d_array_v4i16_trap:
3565   case Intrinsic::nvvm_suld_3d_i16_trap:
3566   case Intrinsic::nvvm_suld_3d_v2i16_trap:
3567   case Intrinsic::nvvm_suld_3d_v4i16_trap:
3568   case Intrinsic::nvvm_suld_1d_i16_zero:
3569   case Intrinsic::nvvm_suld_1d_v2i16_zero:
3570   case Intrinsic::nvvm_suld_1d_v4i16_zero:
3571   case Intrinsic::nvvm_suld_1d_array_i16_zero:
3572   case Intrinsic::nvvm_suld_1d_array_v2i16_zero:
3573   case Intrinsic::nvvm_suld_1d_array_v4i16_zero:
3574   case Intrinsic::nvvm_suld_2d_i16_zero:
3575   case Intrinsic::nvvm_suld_2d_v2i16_zero:
3576   case Intrinsic::nvvm_suld_2d_v4i16_zero:
3577   case Intrinsic::nvvm_suld_2d_array_i16_zero:
3578   case Intrinsic::nvvm_suld_2d_array_v2i16_zero:
3579   case Intrinsic::nvvm_suld_2d_array_v4i16_zero:
3580   case Intrinsic::nvvm_suld_3d_i16_zero:
3581   case Intrinsic::nvvm_suld_3d_v2i16_zero:
3582   case Intrinsic::nvvm_suld_3d_v4i16_zero: {
3583     Info.opc = getOpcForSurfaceInstr(Intrinsic);
3584     Info.memVT = MVT::i16;
3585     Info.ptrVal = nullptr;
3586     Info.offset = 0;
3587     Info.vol = 0;
3588     Info.readMem = true;
3589     Info.writeMem = false;
3590     Info.align = 16;
3591     return true;
3592   }
3593   case Intrinsic::nvvm_suld_1d_i32_clamp:
3594   case Intrinsic::nvvm_suld_1d_v2i32_clamp:
3595   case Intrinsic::nvvm_suld_1d_v4i32_clamp:
3596   case Intrinsic::nvvm_suld_1d_array_i32_clamp:
3597   case Intrinsic::nvvm_suld_1d_array_v2i32_clamp:
3598   case Intrinsic::nvvm_suld_1d_array_v4i32_clamp:
3599   case Intrinsic::nvvm_suld_2d_i32_clamp:
3600   case Intrinsic::nvvm_suld_2d_v2i32_clamp:
3601   case Intrinsic::nvvm_suld_2d_v4i32_clamp:
3602   case Intrinsic::nvvm_suld_2d_array_i32_clamp:
3603   case Intrinsic::nvvm_suld_2d_array_v2i32_clamp:
3604   case Intrinsic::nvvm_suld_2d_array_v4i32_clamp:
3605   case Intrinsic::nvvm_suld_3d_i32_clamp:
3606   case Intrinsic::nvvm_suld_3d_v2i32_clamp:
3607   case Intrinsic::nvvm_suld_3d_v4i32_clamp:
3608   case Intrinsic::nvvm_suld_1d_i32_trap:
3609   case Intrinsic::nvvm_suld_1d_v2i32_trap:
3610   case Intrinsic::nvvm_suld_1d_v4i32_trap:
3611   case Intrinsic::nvvm_suld_1d_array_i32_trap:
3612   case Intrinsic::nvvm_suld_1d_array_v2i32_trap:
3613   case Intrinsic::nvvm_suld_1d_array_v4i32_trap:
3614   case Intrinsic::nvvm_suld_2d_i32_trap:
3615   case Intrinsic::nvvm_suld_2d_v2i32_trap:
3616   case Intrinsic::nvvm_suld_2d_v4i32_trap:
3617   case Intrinsic::nvvm_suld_2d_array_i32_trap:
3618   case Intrinsic::nvvm_suld_2d_array_v2i32_trap:
3619   case Intrinsic::nvvm_suld_2d_array_v4i32_trap:
3620   case Intrinsic::nvvm_suld_3d_i32_trap:
3621   case Intrinsic::nvvm_suld_3d_v2i32_trap:
3622   case Intrinsic::nvvm_suld_3d_v4i32_trap:
3623   case Intrinsic::nvvm_suld_1d_i32_zero:
3624   case Intrinsic::nvvm_suld_1d_v2i32_zero:
3625   case Intrinsic::nvvm_suld_1d_v4i32_zero:
3626   case Intrinsic::nvvm_suld_1d_array_i32_zero:
3627   case Intrinsic::nvvm_suld_1d_array_v2i32_zero:
3628   case Intrinsic::nvvm_suld_1d_array_v4i32_zero:
3629   case Intrinsic::nvvm_suld_2d_i32_zero:
3630   case Intrinsic::nvvm_suld_2d_v2i32_zero:
3631   case Intrinsic::nvvm_suld_2d_v4i32_zero:
3632   case Intrinsic::nvvm_suld_2d_array_i32_zero:
3633   case Intrinsic::nvvm_suld_2d_array_v2i32_zero:
3634   case Intrinsic::nvvm_suld_2d_array_v4i32_zero:
3635   case Intrinsic::nvvm_suld_3d_i32_zero:
3636   case Intrinsic::nvvm_suld_3d_v2i32_zero:
3637   case Intrinsic::nvvm_suld_3d_v4i32_zero: {
3638     Info.opc = getOpcForSurfaceInstr(Intrinsic);
3639     Info.memVT = MVT::i32;
3640     Info.ptrVal = nullptr;
3641     Info.offset = 0;
3642     Info.vol = 0;
3643     Info.readMem = true;
3644     Info.writeMem = false;
3645     Info.align = 16;
3646     return true;
3647   }
3648   case Intrinsic::nvvm_suld_1d_i64_clamp:
3649   case Intrinsic::nvvm_suld_1d_v2i64_clamp:
3650   case Intrinsic::nvvm_suld_1d_array_i64_clamp:
3651   case Intrinsic::nvvm_suld_1d_array_v2i64_clamp:
3652   case Intrinsic::nvvm_suld_2d_i64_clamp:
3653   case Intrinsic::nvvm_suld_2d_v2i64_clamp:
3654   case Intrinsic::nvvm_suld_2d_array_i64_clamp:
3655   case Intrinsic::nvvm_suld_2d_array_v2i64_clamp:
3656   case Intrinsic::nvvm_suld_3d_i64_clamp:
3657   case Intrinsic::nvvm_suld_3d_v2i64_clamp:
3658   case Intrinsic::nvvm_suld_1d_i64_trap:
3659   case Intrinsic::nvvm_suld_1d_v2i64_trap:
3660   case Intrinsic::nvvm_suld_1d_array_i64_trap:
3661   case Intrinsic::nvvm_suld_1d_array_v2i64_trap:
3662   case Intrinsic::nvvm_suld_2d_i64_trap:
3663   case Intrinsic::nvvm_suld_2d_v2i64_trap:
3664   case Intrinsic::nvvm_suld_2d_array_i64_trap:
3665   case Intrinsic::nvvm_suld_2d_array_v2i64_trap:
3666   case Intrinsic::nvvm_suld_3d_i64_trap:
3667   case Intrinsic::nvvm_suld_3d_v2i64_trap:
3668   case Intrinsic::nvvm_suld_1d_i64_zero:
3669   case Intrinsic::nvvm_suld_1d_v2i64_zero:
3670   case Intrinsic::nvvm_suld_1d_array_i64_zero:
3671   case Intrinsic::nvvm_suld_1d_array_v2i64_zero:
3672   case Intrinsic::nvvm_suld_2d_i64_zero:
3673   case Intrinsic::nvvm_suld_2d_v2i64_zero:
3674   case Intrinsic::nvvm_suld_2d_array_i64_zero:
3675   case Intrinsic::nvvm_suld_2d_array_v2i64_zero:
3676   case Intrinsic::nvvm_suld_3d_i64_zero:
3677   case Intrinsic::nvvm_suld_3d_v2i64_zero: {
3678     Info.opc = getOpcForSurfaceInstr(Intrinsic);
3679     Info.memVT = MVT::i64;
3680     Info.ptrVal = nullptr;
3681     Info.offset = 0;
3682     Info.vol = 0;
3683     Info.readMem = true;
3684     Info.writeMem = false;
3685     Info.align = 16;
3686     return true;
3687   }
3688   }
3689   return false;
3690 }
3691
3692 /// isLegalAddressingMode - Return true if the addressing mode represented
3693 /// by AM is legal for this target, for a load/store of the specified type.
3694 /// Used to guide target specific optimizations, like loop strength reduction
3695 /// (LoopStrengthReduce.cpp) and memory optimization for address mode
3696 /// (CodeGenPrepare.cpp)
3697 bool NVPTXTargetLowering::isLegalAddressingMode(const AddrMode &AM,
3698                                                 Type *Ty) const {
3699
3700   // AddrMode - This represents an addressing mode of:
3701   //    BaseGV + BaseOffs + BaseReg + Scale*ScaleReg
3702   //
3703   // The legal address modes are
3704   // - [avar]
3705   // - [areg]
3706   // - [areg+immoff]
3707   // - [immAddr]
3708
3709   if (AM.BaseGV) {
3710     if (AM.BaseOffs || AM.HasBaseReg || AM.Scale)
3711       return false;
3712     return true;
3713   }
3714
3715   switch (AM.Scale) {
3716   case 0: // "r", "r+i" or "i" is allowed
3717     break;
3718   case 1:
3719     if (AM.HasBaseReg) // "r+r+i" or "r+r" is not allowed.
3720       return false;
3721     // Otherwise we have r+i.
3722     break;
3723   default:
3724     // No scale > 1 is allowed
3725     return false;
3726   }
3727   return true;
3728 }
3729
3730 //===----------------------------------------------------------------------===//
3731 //                         NVPTX Inline Assembly Support
3732 //===----------------------------------------------------------------------===//
3733
3734 /// getConstraintType - Given a constraint letter, return the type of
3735 /// constraint it is for this target.
3736 NVPTXTargetLowering::ConstraintType
3737 NVPTXTargetLowering::getConstraintType(const std::string &Constraint) const {
3738   if (Constraint.size() == 1) {
3739     switch (Constraint[0]) {
3740     default:
3741       break;
3742     case 'b':
3743     case 'r':
3744     case 'h':
3745     case 'c':
3746     case 'l':
3747     case 'f':
3748     case 'd':
3749     case '0':
3750     case 'N':
3751       return C_RegisterClass;
3752     }
3753   }
3754   return TargetLowering::getConstraintType(Constraint);
3755 }
3756
3757 std::pair<unsigned, const TargetRegisterClass *>
3758 NVPTXTargetLowering::getRegForInlineAsmConstraint(const std::string &Constraint,
3759                                                   MVT VT) const {
3760   if (Constraint.size() == 1) {
3761     switch (Constraint[0]) {
3762     case 'b':
3763       return std::make_pair(0U, &NVPTX::Int1RegsRegClass);
3764     case 'c':
3765       return std::make_pair(0U, &NVPTX::Int16RegsRegClass);
3766     case 'h':
3767       return std::make_pair(0U, &NVPTX::Int16RegsRegClass);
3768     case 'r':
3769       return std::make_pair(0U, &NVPTX::Int32RegsRegClass);
3770     case 'l':
3771     case 'N':
3772       return std::make_pair(0U, &NVPTX::Int64RegsRegClass);
3773     case 'f':
3774       return std::make_pair(0U, &NVPTX::Float32RegsRegClass);
3775     case 'd':
3776       return std::make_pair(0U, &NVPTX::Float64RegsRegClass);
3777     }
3778   }
3779   return TargetLowering::getRegForInlineAsmConstraint(Constraint, VT);
3780 }
3781
3782 /// getFunctionAlignment - Return the Log2 alignment of this function.
3783 unsigned NVPTXTargetLowering::getFunctionAlignment(const Function *) const {
3784   return 4;
3785 }
3786
3787 //===----------------------------------------------------------------------===//
3788 //                         NVPTX DAG Combining
3789 //===----------------------------------------------------------------------===//
3790
3791 bool NVPTXTargetLowering::allowFMA(MachineFunction &MF,
3792                                    CodeGenOpt::Level OptLevel) const {
3793   const Function *F = MF.getFunction();
3794   const TargetOptions &TO = MF.getTarget().Options;
3795
3796   // Always honor command-line argument
3797   if (FMAContractLevelOpt.getNumOccurrences() > 0) {
3798     return FMAContractLevelOpt > 0;
3799   } else if (OptLevel == 0) {
3800     // Do not contract if we're not optimizing the code
3801     return false;
3802   } else if (TO.AllowFPOpFusion == FPOpFusion::Fast || TO.UnsafeFPMath) {
3803     // Honor TargetOptions flags that explicitly say fusion is okay
3804     return true;
3805   } else if (F->hasFnAttribute("unsafe-fp-math")) {
3806     // Check for unsafe-fp-math=true coming from Clang
3807     Attribute Attr = F->getFnAttribute("unsafe-fp-math");
3808     StringRef Val = Attr.getValueAsString();
3809     if (Val == "true")
3810       return true;
3811   }
3812
3813   // We did not have a clear indication that fusion is allowed, so assume not
3814   return false;
3815 }
3816
3817 /// PerformADDCombineWithOperands - Try DAG combinations for an ADD with
3818 /// operands N0 and N1.  This is a helper for PerformADDCombine that is
3819 /// called with the default operands, and if that fails, with commuted
3820 /// operands.
3821 static SDValue PerformADDCombineWithOperands(SDNode *N, SDValue N0, SDValue N1,
3822                                            TargetLowering::DAGCombinerInfo &DCI,
3823                                              const NVPTXSubtarget &Subtarget,
3824                                              CodeGenOpt::Level OptLevel) {
3825   SelectionDAG  &DAG = DCI.DAG;
3826   // Skip non-integer, non-scalar case
3827   EVT VT=N0.getValueType();
3828   if (VT.isVector())
3829     return SDValue();
3830
3831   // fold (add (mul a, b), c) -> (mad a, b, c)
3832   //
3833   if (N0.getOpcode() == ISD::MUL) {
3834     assert (VT.isInteger());
3835     // For integer:
3836     // Since integer multiply-add costs the same as integer multiply
3837     // but is more costly than integer add, do the fusion only when
3838     // the mul is only used in the add.
3839     if (OptLevel==CodeGenOpt::None || VT != MVT::i32 ||
3840         !N0.getNode()->hasOneUse())
3841       return SDValue();
3842
3843     // Do the folding
3844     return DAG.getNode(NVPTXISD::IMAD, SDLoc(N), VT,
3845                        N0.getOperand(0), N0.getOperand(1), N1);
3846   }
3847   else if (N0.getOpcode() == ISD::FMUL) {
3848     if (VT == MVT::f32 || VT == MVT::f64) {
3849       const auto *TLI = static_cast<const NVPTXTargetLowering *>(
3850           &DAG.getTargetLoweringInfo());
3851       if (!TLI->allowFMA(DAG.getMachineFunction(), OptLevel))
3852         return SDValue();
3853
3854       // For floating point:
3855       // Do the fusion only when the mul has less than 5 uses and all
3856       // are add.
3857       // The heuristic is that if a use is not an add, then that use
3858       // cannot be fused into fma, therefore mul is still needed anyway.
3859       // If there are more than 4 uses, even if they are all add, fusing
3860       // them will increase register pressue.
3861       //
3862       int numUses = 0;
3863       int nonAddCount = 0;
3864       for (SDNode::use_iterator UI = N0.getNode()->use_begin(),
3865            UE = N0.getNode()->use_end();
3866            UI != UE; ++UI) {
3867         numUses++;
3868         SDNode *User = *UI;
3869         if (User->getOpcode() != ISD::FADD)
3870           ++nonAddCount;
3871       }
3872       if (numUses >= 5)
3873         return SDValue();
3874       if (nonAddCount) {
3875         int orderNo = N->getIROrder();
3876         int orderNo2 = N0.getNode()->getIROrder();
3877         // simple heuristics here for considering potential register
3878         // pressure, the logics here is that the differnce are used
3879         // to measure the distance between def and use, the longer distance
3880         // more likely cause register pressure.
3881         if (orderNo - orderNo2 < 500)
3882           return SDValue();
3883
3884         // Now, check if at least one of the FMUL's operands is live beyond the node N,
3885         // which guarantees that the FMA will not increase register pressure at node N.
3886         bool opIsLive = false;
3887         const SDNode *left = N0.getOperand(0).getNode();
3888         const SDNode *right = N0.getOperand(1).getNode();
3889
3890         if (dyn_cast<ConstantSDNode>(left) || dyn_cast<ConstantSDNode>(right))
3891           opIsLive = true;
3892
3893         if (!opIsLive)
3894           for (SDNode::use_iterator UI = left->use_begin(), UE = left->use_end(); UI != UE; ++UI) {
3895             SDNode *User = *UI;
3896             int orderNo3 = User->getIROrder();
3897             if (orderNo3 > orderNo) {
3898               opIsLive = true;
3899               break;
3900             }
3901           }
3902
3903         if (!opIsLive)
3904           for (SDNode::use_iterator UI = right->use_begin(), UE = right->use_end(); UI != UE; ++UI) {
3905             SDNode *User = *UI;
3906             int orderNo3 = User->getIROrder();
3907             if (orderNo3 > orderNo) {
3908               opIsLive = true;
3909               break;
3910             }
3911           }
3912
3913         if (!opIsLive)
3914           return SDValue();
3915       }
3916
3917       return DAG.getNode(ISD::FMA, SDLoc(N), VT,
3918                          N0.getOperand(0), N0.getOperand(1), N1);
3919     }
3920   }
3921
3922   return SDValue();
3923 }
3924
3925 /// PerformADDCombine - Target-specific dag combine xforms for ISD::ADD.
3926 ///
3927 static SDValue PerformADDCombine(SDNode *N,
3928                                  TargetLowering::DAGCombinerInfo &DCI,
3929                                  const NVPTXSubtarget &Subtarget,
3930                                  CodeGenOpt::Level OptLevel) {
3931   SDValue N0 = N->getOperand(0);
3932   SDValue N1 = N->getOperand(1);
3933
3934   // First try with the default operand order.
3935   SDValue Result = PerformADDCombineWithOperands(N, N0, N1, DCI, Subtarget,
3936                                                  OptLevel);
3937   if (Result.getNode())
3938     return Result;
3939
3940   // If that didn't work, try again with the operands commuted.
3941   return PerformADDCombineWithOperands(N, N1, N0, DCI, Subtarget, OptLevel);
3942 }
3943
3944 static SDValue PerformANDCombine(SDNode *N,
3945                                  TargetLowering::DAGCombinerInfo &DCI) {
3946   // The type legalizer turns a vector load of i8 values into a zextload to i16
3947   // registers, optionally ANY_EXTENDs it (if target type is integer),
3948   // and ANDs off the high 8 bits. Since we turn this load into a
3949   // target-specific DAG node, the DAG combiner fails to eliminate these AND
3950   // nodes. Do that here.
3951   SDValue Val = N->getOperand(0);
3952   SDValue Mask = N->getOperand(1);
3953
3954   if (isa<ConstantSDNode>(Val)) {
3955     std::swap(Val, Mask);
3956   }
3957
3958   SDValue AExt;
3959   // Generally, we will see zextload -> IMOV16rr -> ANY_EXTEND -> and
3960   if (Val.getOpcode() == ISD::ANY_EXTEND) {
3961     AExt = Val;
3962     Val = Val->getOperand(0);
3963   }
3964
3965   if (Val->isMachineOpcode() && Val->getMachineOpcode() == NVPTX::IMOV16rr) {
3966     Val = Val->getOperand(0);
3967   }
3968
3969   if (Val->getOpcode() == NVPTXISD::LoadV2 ||
3970       Val->getOpcode() == NVPTXISD::LoadV4) {
3971     ConstantSDNode *MaskCnst = dyn_cast<ConstantSDNode>(Mask);
3972     if (!MaskCnst) {
3973       // Not an AND with a constant
3974       return SDValue();
3975     }
3976
3977     uint64_t MaskVal = MaskCnst->getZExtValue();
3978     if (MaskVal != 0xff) {
3979       // Not an AND that chops off top 8 bits
3980       return SDValue();
3981     }
3982
3983     MemSDNode *Mem = dyn_cast<MemSDNode>(Val);
3984     if (!Mem) {
3985       // Not a MemSDNode?!?
3986       return SDValue();
3987     }
3988
3989     EVT MemVT = Mem->getMemoryVT();
3990     if (MemVT != MVT::v2i8 && MemVT != MVT::v4i8) {
3991       // We only handle the i8 case
3992       return SDValue();
3993     }
3994
3995     unsigned ExtType =
3996       cast<ConstantSDNode>(Val->getOperand(Val->getNumOperands()-1))->
3997         getZExtValue();
3998     if (ExtType == ISD::SEXTLOAD) {
3999       // If for some reason the load is a sextload, the and is needed to zero
4000       // out the high 8 bits
4001       return SDValue();
4002     }
4003
4004     bool AddTo = false;
4005     if (AExt.getNode() != 0) {
4006       // Re-insert the ext as a zext.
4007       Val = DCI.DAG.getNode(ISD::ZERO_EXTEND, SDLoc(N),
4008                             AExt.getValueType(), Val);
4009       AddTo = true;
4010     }
4011
4012     // If we get here, the AND is unnecessary.  Just replace it with the load
4013     DCI.CombineTo(N, Val, AddTo);
4014   }
4015
4016   return SDValue();
4017 }
4018
4019 enum OperandSignedness {
4020   Signed = 0,
4021   Unsigned,
4022   Unknown
4023 };
4024
4025 /// IsMulWideOperandDemotable - Checks if the provided DAG node is an operand
4026 /// that can be demoted to \p OptSize bits without loss of information. The
4027 /// signedness of the operand, if determinable, is placed in \p S.
4028 static bool IsMulWideOperandDemotable(SDValue Op,
4029                                       unsigned OptSize,
4030                                       OperandSignedness &S) {
4031   S = Unknown;
4032
4033   if (Op.getOpcode() == ISD::SIGN_EXTEND ||
4034       Op.getOpcode() == ISD::SIGN_EXTEND_INREG) {
4035     EVT OrigVT = Op.getOperand(0).getValueType();
4036     if (OrigVT.getSizeInBits() <= OptSize) {
4037       S = Signed;
4038       return true;
4039     }
4040   } else if (Op.getOpcode() == ISD::ZERO_EXTEND) {
4041     EVT OrigVT = Op.getOperand(0).getValueType();
4042     if (OrigVT.getSizeInBits() <= OptSize) {
4043       S = Unsigned;
4044       return true;
4045     }
4046   }
4047
4048   return false;
4049 }
4050
4051 /// AreMulWideOperandsDemotable - Checks if the given LHS and RHS operands can
4052 /// be demoted to \p OptSize bits without loss of information. If the operands
4053 /// contain a constant, it should appear as the RHS operand. The signedness of
4054 /// the operands is placed in \p IsSigned.
4055 static bool AreMulWideOperandsDemotable(SDValue LHS, SDValue RHS,
4056                                         unsigned OptSize,
4057                                         bool &IsSigned) {
4058
4059   OperandSignedness LHSSign;
4060
4061   // The LHS operand must be a demotable op
4062   if (!IsMulWideOperandDemotable(LHS, OptSize, LHSSign))
4063     return false;
4064
4065   // We should have been able to determine the signedness from the LHS
4066   if (LHSSign == Unknown)
4067     return false;
4068
4069   IsSigned = (LHSSign == Signed);
4070
4071   // The RHS can be a demotable op or a constant
4072   if (ConstantSDNode *CI = dyn_cast<ConstantSDNode>(RHS)) {
4073     APInt Val = CI->getAPIntValue();
4074     if (LHSSign == Unsigned) {
4075       if (Val.isIntN(OptSize)) {
4076         return true;
4077       }
4078       return false;
4079     } else {
4080       if (Val.isSignedIntN(OptSize)) {
4081         return true;
4082       }
4083       return false;
4084     }
4085   } else {
4086     OperandSignedness RHSSign;
4087     if (!IsMulWideOperandDemotable(RHS, OptSize, RHSSign))
4088       return false;
4089
4090     if (LHSSign != RHSSign)
4091       return false;
4092
4093     return true;
4094   }
4095 }
4096
4097 /// TryMULWIDECombine - Attempt to replace a multiply of M bits with a multiply
4098 /// of M/2 bits that produces an M-bit result (i.e. mul.wide). This transform
4099 /// works on both multiply DAG nodes and SHL DAG nodes with a constant shift
4100 /// amount.
4101 static SDValue TryMULWIDECombine(SDNode *N,
4102                                  TargetLowering::DAGCombinerInfo &DCI) {
4103   EVT MulType = N->getValueType(0);
4104   if (MulType != MVT::i32 && MulType != MVT::i64) {
4105     return SDValue();
4106   }
4107
4108   unsigned OptSize = MulType.getSizeInBits() >> 1;
4109   SDValue LHS = N->getOperand(0);
4110   SDValue RHS = N->getOperand(1);
4111
4112   // Canonicalize the multiply so the constant (if any) is on the right
4113   if (N->getOpcode() == ISD::MUL) {
4114     if (isa<ConstantSDNode>(LHS)) {
4115       std::swap(LHS, RHS);
4116     }
4117   }
4118
4119   // If we have a SHL, determine the actual multiply amount
4120   if (N->getOpcode() == ISD::SHL) {
4121     ConstantSDNode *ShlRHS = dyn_cast<ConstantSDNode>(RHS);
4122     if (!ShlRHS) {
4123       return SDValue();
4124     }
4125
4126     APInt ShiftAmt = ShlRHS->getAPIntValue();
4127     unsigned BitWidth = MulType.getSizeInBits();
4128     if (ShiftAmt.sge(0) && ShiftAmt.slt(BitWidth)) {
4129       APInt MulVal = APInt(BitWidth, 1) << ShiftAmt;
4130       RHS = DCI.DAG.getConstant(MulVal, MulType);
4131     } else {
4132       return SDValue();
4133     }
4134   }
4135
4136   bool Signed;
4137   // Verify that our operands are demotable
4138   if (!AreMulWideOperandsDemotable(LHS, RHS, OptSize, Signed)) {
4139     return SDValue();
4140   }
4141
4142   EVT DemotedVT;
4143   if (MulType == MVT::i32) {
4144     DemotedVT = MVT::i16;
4145   } else {
4146     DemotedVT = MVT::i32;
4147   }
4148
4149   // Truncate the operands to the correct size. Note that these are just for
4150   // type consistency and will (likely) be eliminated in later phases.
4151   SDValue TruncLHS =
4152     DCI.DAG.getNode(ISD::TRUNCATE, SDLoc(N), DemotedVT, LHS);
4153   SDValue TruncRHS =
4154     DCI.DAG.getNode(ISD::TRUNCATE, SDLoc(N), DemotedVT, RHS);
4155
4156   unsigned Opc;
4157   if (Signed) {
4158     Opc = NVPTXISD::MUL_WIDE_SIGNED;
4159   } else {
4160     Opc = NVPTXISD::MUL_WIDE_UNSIGNED;
4161   }
4162
4163   return DCI.DAG.getNode(Opc, SDLoc(N), MulType, TruncLHS, TruncRHS);
4164 }
4165
4166 /// PerformMULCombine - Runs PTX-specific DAG combine patterns on MUL nodes.
4167 static SDValue PerformMULCombine(SDNode *N,
4168                                  TargetLowering::DAGCombinerInfo &DCI,
4169                                  CodeGenOpt::Level OptLevel) {
4170   if (OptLevel > 0) {
4171     // Try mul.wide combining at OptLevel > 0
4172     SDValue Ret = TryMULWIDECombine(N, DCI);
4173     if (Ret.getNode())
4174       return Ret;
4175   }
4176
4177   return SDValue();
4178 }
4179
4180 /// PerformSHLCombine - Runs PTX-specific DAG combine patterns on SHL nodes.
4181 static SDValue PerformSHLCombine(SDNode *N,
4182                                  TargetLowering::DAGCombinerInfo &DCI,
4183                                  CodeGenOpt::Level OptLevel) {
4184   if (OptLevel > 0) {
4185     // Try mul.wide combining at OptLevel > 0
4186     SDValue Ret = TryMULWIDECombine(N, DCI);
4187     if (Ret.getNode())
4188       return Ret;
4189   }
4190
4191   return SDValue();
4192 }
4193
4194 SDValue NVPTXTargetLowering::PerformDAGCombine(SDNode *N,
4195                                                DAGCombinerInfo &DCI) const {
4196   CodeGenOpt::Level OptLevel = getTargetMachine().getOptLevel();
4197   switch (N->getOpcode()) {
4198     default: break;
4199     case ISD::ADD:
4200     case ISD::FADD:
4201       return PerformADDCombine(N, DCI, nvptxSubtarget, OptLevel);
4202     case ISD::MUL:
4203       return PerformMULCombine(N, DCI, OptLevel);
4204     case ISD::SHL:
4205       return PerformSHLCombine(N, DCI, OptLevel);
4206     case ISD::AND:
4207       return PerformANDCombine(N, DCI);
4208   }
4209   return SDValue();
4210 }
4211
4212 /// ReplaceVectorLoad - Convert vector loads into multi-output scalar loads.
4213 static void ReplaceLoadVector(SDNode *N, SelectionDAG &DAG,
4214                               const DataLayout *TD,
4215                               SmallVectorImpl<SDValue> &Results) {
4216   EVT ResVT = N->getValueType(0);
4217   SDLoc DL(N);
4218
4219   assert(ResVT.isVector() && "Vector load must have vector type");
4220
4221   // We only handle "native" vector sizes for now, e.g. <4 x double> is not
4222   // legal.  We can (and should) split that into 2 loads of <2 x double> here
4223   // but I'm leaving that as a TODO for now.
4224   assert(ResVT.isSimple() && "Can only handle simple types");
4225   switch (ResVT.getSimpleVT().SimpleTy) {
4226   default:
4227     return;
4228   case MVT::v2i8:
4229   case MVT::v2i16:
4230   case MVT::v2i32:
4231   case MVT::v2i64:
4232   case MVT::v2f32:
4233   case MVT::v2f64:
4234   case MVT::v4i8:
4235   case MVT::v4i16:
4236   case MVT::v4i32:
4237   case MVT::v4f32:
4238     // This is a "native" vector type
4239     break;
4240   }
4241
4242   LoadSDNode *LD = cast<LoadSDNode>(N);
4243
4244   unsigned Align = LD->getAlignment();
4245   unsigned PrefAlign =
4246     TD->getPrefTypeAlignment(ResVT.getTypeForEVT(*DAG.getContext()));
4247   if (Align < PrefAlign) {
4248     // This load is not sufficiently aligned, so bail out and let this vector
4249     // load be scalarized.  Note that we may still be able to emit smaller
4250     // vector loads.  For example, if we are loading a <4 x float> with an
4251     // alignment of 8, this check will fail but the legalizer will try again
4252     // with 2 x <2 x float>, which will succeed with an alignment of 8.
4253     return;
4254   }
4255
4256   EVT EltVT = ResVT.getVectorElementType();
4257   unsigned NumElts = ResVT.getVectorNumElements();
4258
4259   // Since LoadV2 is a target node, we cannot rely on DAG type legalization.
4260   // Therefore, we must ensure the type is legal.  For i1 and i8, we set the
4261   // loaded type to i16 and propagate the "real" type as the memory type.
4262   bool NeedTrunc = false;
4263   if (EltVT.getSizeInBits() < 16) {
4264     EltVT = MVT::i16;
4265     NeedTrunc = true;
4266   }
4267
4268   unsigned Opcode = 0;
4269   SDVTList LdResVTs;
4270
4271   switch (NumElts) {
4272   default:
4273     return;
4274   case 2:
4275     Opcode = NVPTXISD::LoadV2;
4276     LdResVTs = DAG.getVTList(EltVT, EltVT, MVT::Other);
4277     break;
4278   case 4: {
4279     Opcode = NVPTXISD::LoadV4;
4280     EVT ListVTs[] = { EltVT, EltVT, EltVT, EltVT, MVT::Other };
4281     LdResVTs = DAG.getVTList(ListVTs);
4282     break;
4283   }
4284   }
4285
4286   SmallVector<SDValue, 8> OtherOps;
4287
4288   // Copy regular operands
4289   for (unsigned i = 0, e = N->getNumOperands(); i != e; ++i)
4290     OtherOps.push_back(N->getOperand(i));
4291
4292   // The select routine does not have access to the LoadSDNode instance, so
4293   // pass along the extension information
4294   OtherOps.push_back(DAG.getIntPtrConstant(LD->getExtensionType()));
4295
4296   SDValue NewLD = DAG.getMemIntrinsicNode(Opcode, DL, LdResVTs, OtherOps,
4297                                           LD->getMemoryVT(),
4298                                           LD->getMemOperand());
4299
4300   SmallVector<SDValue, 4> ScalarRes;
4301
4302   for (unsigned i = 0; i < NumElts; ++i) {
4303     SDValue Res = NewLD.getValue(i);
4304     if (NeedTrunc)
4305       Res = DAG.getNode(ISD::TRUNCATE, DL, ResVT.getVectorElementType(), Res);
4306     ScalarRes.push_back(Res);
4307   }
4308
4309   SDValue LoadChain = NewLD.getValue(NumElts);
4310
4311   SDValue BuildVec = DAG.getNode(ISD::BUILD_VECTOR, DL, ResVT, ScalarRes);
4312
4313   Results.push_back(BuildVec);
4314   Results.push_back(LoadChain);
4315 }
4316
4317 static void ReplaceINTRINSIC_W_CHAIN(SDNode *N, SelectionDAG &DAG,
4318                                      SmallVectorImpl<SDValue> &Results) {
4319   SDValue Chain = N->getOperand(0);
4320   SDValue Intrin = N->getOperand(1);
4321   SDLoc DL(N);
4322
4323   // Get the intrinsic ID
4324   unsigned IntrinNo = cast<ConstantSDNode>(Intrin.getNode())->getZExtValue();
4325   switch (IntrinNo) {
4326   default:
4327     return;
4328   case Intrinsic::nvvm_ldg_global_i:
4329   case Intrinsic::nvvm_ldg_global_f:
4330   case Intrinsic::nvvm_ldg_global_p:
4331   case Intrinsic::nvvm_ldu_global_i:
4332   case Intrinsic::nvvm_ldu_global_f:
4333   case Intrinsic::nvvm_ldu_global_p: {
4334     EVT ResVT = N->getValueType(0);
4335
4336     if (ResVT.isVector()) {
4337       // Vector LDG/LDU
4338
4339       unsigned NumElts = ResVT.getVectorNumElements();
4340       EVT EltVT = ResVT.getVectorElementType();
4341
4342       // Since LDU/LDG are target nodes, we cannot rely on DAG type
4343       // legalization.
4344       // Therefore, we must ensure the type is legal.  For i1 and i8, we set the
4345       // loaded type to i16 and propagate the "real" type as the memory type.
4346       bool NeedTrunc = false;
4347       if (EltVT.getSizeInBits() < 16) {
4348         EltVT = MVT::i16;
4349         NeedTrunc = true;
4350       }
4351
4352       unsigned Opcode = 0;
4353       SDVTList LdResVTs;
4354
4355       switch (NumElts) {
4356       default:
4357         return;
4358       case 2:
4359         switch (IntrinNo) {
4360         default:
4361           return;
4362         case Intrinsic::nvvm_ldg_global_i:
4363         case Intrinsic::nvvm_ldg_global_f:
4364         case Intrinsic::nvvm_ldg_global_p:
4365           Opcode = NVPTXISD::LDGV2;
4366           break;
4367         case Intrinsic::nvvm_ldu_global_i:
4368         case Intrinsic::nvvm_ldu_global_f:
4369         case Intrinsic::nvvm_ldu_global_p:
4370           Opcode = NVPTXISD::LDUV2;
4371           break;
4372         }
4373         LdResVTs = DAG.getVTList(EltVT, EltVT, MVT::Other);
4374         break;
4375       case 4: {
4376         switch (IntrinNo) {
4377         default:
4378           return;
4379         case Intrinsic::nvvm_ldg_global_i:
4380         case Intrinsic::nvvm_ldg_global_f:
4381         case Intrinsic::nvvm_ldg_global_p:
4382           Opcode = NVPTXISD::LDGV4;
4383           break;
4384         case Intrinsic::nvvm_ldu_global_i:
4385         case Intrinsic::nvvm_ldu_global_f:
4386         case Intrinsic::nvvm_ldu_global_p:
4387           Opcode = NVPTXISD::LDUV4;
4388           break;
4389         }
4390         EVT ListVTs[] = { EltVT, EltVT, EltVT, EltVT, MVT::Other };
4391         LdResVTs = DAG.getVTList(ListVTs);
4392         break;
4393       }
4394       }
4395
4396       SmallVector<SDValue, 8> OtherOps;
4397
4398       // Copy regular operands
4399
4400       OtherOps.push_back(Chain); // Chain
4401                                  // Skip operand 1 (intrinsic ID)
4402       // Others
4403       for (unsigned i = 2, e = N->getNumOperands(); i != e; ++i)
4404         OtherOps.push_back(N->getOperand(i));
4405
4406       MemIntrinsicSDNode *MemSD = cast<MemIntrinsicSDNode>(N);
4407
4408       SDValue NewLD = DAG.getMemIntrinsicNode(Opcode, DL, LdResVTs, OtherOps,
4409                                               MemSD->getMemoryVT(),
4410                                               MemSD->getMemOperand());
4411
4412       SmallVector<SDValue, 4> ScalarRes;
4413
4414       for (unsigned i = 0; i < NumElts; ++i) {
4415         SDValue Res = NewLD.getValue(i);
4416         if (NeedTrunc)
4417           Res =
4418               DAG.getNode(ISD::TRUNCATE, DL, ResVT.getVectorElementType(), Res);
4419         ScalarRes.push_back(Res);
4420       }
4421
4422       SDValue LoadChain = NewLD.getValue(NumElts);
4423
4424       SDValue BuildVec =
4425           DAG.getNode(ISD::BUILD_VECTOR, DL, ResVT, ScalarRes);
4426
4427       Results.push_back(BuildVec);
4428       Results.push_back(LoadChain);
4429     } else {
4430       // i8 LDG/LDU
4431       assert(ResVT.isSimple() && ResVT.getSimpleVT().SimpleTy == MVT::i8 &&
4432              "Custom handling of non-i8 ldu/ldg?");
4433
4434       // Just copy all operands as-is
4435       SmallVector<SDValue, 4> Ops;
4436       for (unsigned i = 0, e = N->getNumOperands(); i != e; ++i)
4437         Ops.push_back(N->getOperand(i));
4438
4439       // Force output to i16
4440       SDVTList LdResVTs = DAG.getVTList(MVT::i16, MVT::Other);
4441
4442       MemIntrinsicSDNode *MemSD = cast<MemIntrinsicSDNode>(N);
4443
4444       // We make sure the memory type is i8, which will be used during isel
4445       // to select the proper instruction.
4446       SDValue NewLD =
4447           DAG.getMemIntrinsicNode(ISD::INTRINSIC_W_CHAIN, DL, LdResVTs, Ops,
4448                                   MVT::i8, MemSD->getMemOperand());
4449
4450       Results.push_back(DAG.getNode(ISD::TRUNCATE, DL, MVT::i8,
4451                                     NewLD.getValue(0)));
4452       Results.push_back(NewLD.getValue(1));
4453     }
4454   }
4455   }
4456 }
4457
4458 void NVPTXTargetLowering::ReplaceNodeResults(
4459     SDNode *N, SmallVectorImpl<SDValue> &Results, SelectionDAG &DAG) const {
4460   switch (N->getOpcode()) {
4461   default:
4462     report_fatal_error("Unhandled custom legalization");
4463   case ISD::LOAD:
4464     ReplaceLoadVector(N, DAG, getDataLayout(), Results);
4465     return;
4466   case ISD::INTRINSIC_W_CHAIN:
4467     ReplaceINTRINSIC_W_CHAIN(N, DAG, Results);
4468     return;
4469   }
4470 }
4471
4472 // Pin NVPTXSection's and NVPTXTargetObjectFile's vtables to this file.
4473 void NVPTXSection::anchor() {}
4474
4475 NVPTXTargetObjectFile::~NVPTXTargetObjectFile() {
4476   delete TextSection;
4477   delete DataSection;
4478   delete BSSSection;
4479   delete ReadOnlySection;
4480
4481   delete StaticCtorSection;
4482   delete StaticDtorSection;
4483   delete LSDASection;
4484   delete EHFrameSection;
4485   delete DwarfAbbrevSection;
4486   delete DwarfInfoSection;
4487   delete DwarfLineSection;
4488   delete DwarfFrameSection;
4489   delete DwarfPubTypesSection;
4490   delete DwarfDebugInlineSection;
4491   delete DwarfStrSection;
4492   delete DwarfLocSection;
4493   delete DwarfARangesSection;
4494   delete DwarfRangesSection;
4495   delete DwarfMacroInfoSection;
4496 }
4497
4498 const MCSection *
4499 NVPTXTargetObjectFile::SelectSectionForGlobal(const GlobalValue *GV,
4500                                               SectionKind Kind, Mangler &Mang,
4501                                               const TargetMachine &TM) const {
4502   return getDataSection();
4503 }