Fix a bunch of namespace pollution.
[oota-llvm.git] / lib / Target / CellSPU / SPUISelLowering.cpp
1 //
2 //===-- SPUISelLowering.cpp - Cell SPU DAG Lowering Implementation --------===//
3 //                     The LLVM Compiler Infrastructure
4 //
5 // This file is distributed under the University of Illinois Open Source
6 // License. See LICENSE.TXT for details.
7 //
8 //===----------------------------------------------------------------------===//
9 //
10 // This file implements the SPUTargetLowering class.
11 //
12 //===----------------------------------------------------------------------===//
13
14 #include "SPURegisterNames.h"
15 #include "SPUISelLowering.h"
16 #include "SPUTargetMachine.h"
17 #include "SPUFrameInfo.h"
18 #include "llvm/Constants.h"
19 #include "llvm/Function.h"
20 #include "llvm/Intrinsics.h"
21 #include "llvm/CallingConv.h"
22 #include "llvm/CodeGen/CallingConvLower.h"
23 #include "llvm/CodeGen/MachineFrameInfo.h"
24 #include "llvm/CodeGen/MachineFunction.h"
25 #include "llvm/CodeGen/MachineInstrBuilder.h"
26 #include "llvm/CodeGen/MachineRegisterInfo.h"
27 #include "llvm/CodeGen/SelectionDAG.h"
28 #include "llvm/Target/TargetLoweringObjectFile.h"
29 #include "llvm/Target/TargetOptions.h"
30 #include "llvm/ADT/VectorExtras.h"
31 #include "llvm/Support/Debug.h"
32 #include "llvm/Support/ErrorHandling.h"
33 #include "llvm/Support/MathExtras.h"
34 #include "llvm/Support/raw_ostream.h"
35 #include <map>
36
37 using namespace llvm;
38
39 // Used in getTargetNodeName() below
40 namespace {
41   std::map<unsigned, const char *> node_names;
42
43   //! MVT mapping to useful data for Cell SPU
44   struct valtype_map_s {
45     const MVT   valtype;
46     const int   prefslot_byte;
47   };
48
49   const valtype_map_s valtype_map[] = {
50     { MVT::i1,   3 },
51     { MVT::i8,   3 },
52     { MVT::i16,  2 },
53     { MVT::i32,  0 },
54     { MVT::f32,  0 },
55     { MVT::i64,  0 },
56     { MVT::f64,  0 },
57     { MVT::i128, 0 }
58   };
59
60   const size_t n_valtype_map = sizeof(valtype_map) / sizeof(valtype_map[0]);
61
62   const valtype_map_s *getValueTypeMapEntry(MVT VT) {
63     const valtype_map_s *retval = 0;
64
65     for (size_t i = 0; i < n_valtype_map; ++i) {
66       if (valtype_map[i].valtype == VT) {
67         retval = valtype_map + i;
68         break;
69       }
70     }
71
72 #ifndef NDEBUG
73     if (retval == 0) {
74       std::string msg;
75       raw_string_ostream Msg(msg);
76       Msg << "getValueTypeMapEntry returns NULL for "
77            << VT.getMVTString();
78       llvm_report_error(Msg.str());
79     }
80 #endif
81
82     return retval;
83   }
84
85   //! Expand a library call into an actual call DAG node
86   /*!
87    \note
88    This code is taken from SelectionDAGLegalize, since it is not exposed as
89    part of the LLVM SelectionDAG API.
90    */
91
92   SDValue
93   ExpandLibCall(RTLIB::Libcall LC, SDValue Op, SelectionDAG &DAG,
94                 bool isSigned, SDValue &Hi, SPUTargetLowering &TLI) {
95     // The input chain to this libcall is the entry node of the function.
96     // Legalizing the call will automatically add the previous call to the
97     // dependence.
98     SDValue InChain = DAG.getEntryNode();
99
100     TargetLowering::ArgListTy Args;
101     TargetLowering::ArgListEntry Entry;
102     for (unsigned i = 0, e = Op.getNumOperands(); i != e; ++i) {
103       MVT ArgVT = Op.getOperand(i).getValueType();
104       const Type *ArgTy = ArgVT.getTypeForMVT();
105       Entry.Node = Op.getOperand(i);
106       Entry.Ty = ArgTy;
107       Entry.isSExt = isSigned;
108       Entry.isZExt = !isSigned;
109       Args.push_back(Entry);
110     }
111     SDValue Callee = DAG.getExternalSymbol(TLI.getLibcallName(LC),
112                                            TLI.getPointerTy());
113
114     // Splice the libcall in wherever FindInputOutputChains tells us to.
115     const Type *RetTy = Op.getNode()->getValueType(0).getTypeForMVT();
116     std::pair<SDValue, SDValue> CallInfo =
117             TLI.LowerCallTo(InChain, RetTy, isSigned, !isSigned, false, false,
118                             0, CallingConv::C, false,
119                             /*isReturnValueUsed=*/true,
120                             Callee, Args, DAG,
121                             Op.getDebugLoc());
122
123     return CallInfo.first;
124   }
125 }
126
127 SPUTargetLowering::SPUTargetLowering(SPUTargetMachine &TM)
128   : TargetLowering(TM, new TargetLoweringObjectFileELF()),
129     SPUTM(TM) {
130   // Fold away setcc operations if possible.
131   setPow2DivIsCheap();
132
133   // Use _setjmp/_longjmp instead of setjmp/longjmp.
134   setUseUnderscoreSetJmp(true);
135   setUseUnderscoreLongJmp(true);
136
137   // Set RTLIB libcall names as used by SPU:
138   setLibcallName(RTLIB::DIV_F64, "__fast_divdf3");
139
140   // Set up the SPU's register classes:
141   addRegisterClass(MVT::i8,   SPU::R8CRegisterClass);
142   addRegisterClass(MVT::i16,  SPU::R16CRegisterClass);
143   addRegisterClass(MVT::i32,  SPU::R32CRegisterClass);
144   addRegisterClass(MVT::i64,  SPU::R64CRegisterClass);
145   addRegisterClass(MVT::f32,  SPU::R32FPRegisterClass);
146   addRegisterClass(MVT::f64,  SPU::R64FPRegisterClass);
147   addRegisterClass(MVT::i128, SPU::GPRCRegisterClass);
148
149   // SPU has no sign or zero extended loads for i1, i8, i16:
150   setLoadExtAction(ISD::EXTLOAD,  MVT::i1, Promote);
151   setLoadExtAction(ISD::SEXTLOAD, MVT::i1, Promote);
152   setLoadExtAction(ISD::ZEXTLOAD, MVT::i1, Promote);
153
154   setLoadExtAction(ISD::EXTLOAD,  MVT::f32, Expand);
155   setLoadExtAction(ISD::EXTLOAD,  MVT::f64, Expand);
156
157   setTruncStoreAction(MVT::i128, MVT::i64, Expand);
158   setTruncStoreAction(MVT::i128, MVT::i32, Expand);
159   setTruncStoreAction(MVT::i128, MVT::i16, Expand);
160   setTruncStoreAction(MVT::i128, MVT::i8, Expand);
161
162   setTruncStoreAction(MVT::f64, MVT::f32, Expand);
163
164   // SPU constant load actions are custom lowered:
165   setOperationAction(ISD::ConstantFP, MVT::f32, Legal);
166   setOperationAction(ISD::ConstantFP, MVT::f64, Custom);
167
168   // SPU's loads and stores have to be custom lowered:
169   for (unsigned sctype = (unsigned) MVT::i8; sctype < (unsigned) MVT::i128;
170        ++sctype) {
171     MVT VT = (MVT::SimpleValueType)sctype;
172
173     setOperationAction(ISD::LOAD,   VT, Custom);
174     setOperationAction(ISD::STORE,  VT, Custom);
175     setLoadExtAction(ISD::EXTLOAD,  VT, Custom);
176     setLoadExtAction(ISD::ZEXTLOAD, VT, Custom);
177     setLoadExtAction(ISD::SEXTLOAD, VT, Custom);
178
179     for (unsigned stype = sctype - 1; stype >= (unsigned) MVT::i8; --stype) {
180       MVT StoreVT = (MVT::SimpleValueType) stype;
181       setTruncStoreAction(VT, StoreVT, Expand);
182     }
183   }
184
185   for (unsigned sctype = (unsigned) MVT::f32; sctype < (unsigned) MVT::f64;
186        ++sctype) {
187     MVT VT = (MVT::SimpleValueType) sctype;
188
189     setOperationAction(ISD::LOAD,   VT, Custom);
190     setOperationAction(ISD::STORE,  VT, Custom);
191
192     for (unsigned stype = sctype - 1; stype >= (unsigned) MVT::f32; --stype) {
193       MVT StoreVT = (MVT::SimpleValueType) stype;
194       setTruncStoreAction(VT, StoreVT, Expand);
195     }
196   }
197
198   // Expand the jumptable branches
199   setOperationAction(ISD::BR_JT,        MVT::Other, Expand);
200   setOperationAction(ISD::BR_CC,        MVT::Other, Expand);
201
202   // Custom lower SELECT_CC for most cases, but expand by default
203   setOperationAction(ISD::SELECT_CC,    MVT::Other, Expand);
204   setOperationAction(ISD::SELECT_CC,    MVT::i8,    Custom);
205   setOperationAction(ISD::SELECT_CC,    MVT::i16,   Custom);
206   setOperationAction(ISD::SELECT_CC,    MVT::i32,   Custom);
207   setOperationAction(ISD::SELECT_CC,    MVT::i64,   Custom);
208
209   // SPU has no intrinsics for these particular operations:
210   setOperationAction(ISD::MEMBARRIER, MVT::Other, Expand);
211
212   // SPU has no division/remainder instructions
213   setOperationAction(ISD::SREM,    MVT::i8,   Expand);
214   setOperationAction(ISD::UREM,    MVT::i8,   Expand);
215   setOperationAction(ISD::SDIV,    MVT::i8,   Expand);
216   setOperationAction(ISD::UDIV,    MVT::i8,   Expand);
217   setOperationAction(ISD::SDIVREM, MVT::i8,   Expand);
218   setOperationAction(ISD::UDIVREM, MVT::i8,   Expand);
219   setOperationAction(ISD::SREM,    MVT::i16,  Expand);
220   setOperationAction(ISD::UREM,    MVT::i16,  Expand);
221   setOperationAction(ISD::SDIV,    MVT::i16,  Expand);
222   setOperationAction(ISD::UDIV,    MVT::i16,  Expand);
223   setOperationAction(ISD::SDIVREM, MVT::i16,  Expand);
224   setOperationAction(ISD::UDIVREM, MVT::i16,  Expand);
225   setOperationAction(ISD::SREM,    MVT::i32,  Expand);
226   setOperationAction(ISD::UREM,    MVT::i32,  Expand);
227   setOperationAction(ISD::SDIV,    MVT::i32,  Expand);
228   setOperationAction(ISD::UDIV,    MVT::i32,  Expand);
229   setOperationAction(ISD::SDIVREM, MVT::i32,  Expand);
230   setOperationAction(ISD::UDIVREM, MVT::i32,  Expand);
231   setOperationAction(ISD::SREM,    MVT::i64,  Expand);
232   setOperationAction(ISD::UREM,    MVT::i64,  Expand);
233   setOperationAction(ISD::SDIV,    MVT::i64,  Expand);
234   setOperationAction(ISD::UDIV,    MVT::i64,  Expand);
235   setOperationAction(ISD::SDIVREM, MVT::i64,  Expand);
236   setOperationAction(ISD::UDIVREM, MVT::i64,  Expand);
237   setOperationAction(ISD::SREM,    MVT::i128, Expand);
238   setOperationAction(ISD::UREM,    MVT::i128, Expand);
239   setOperationAction(ISD::SDIV,    MVT::i128, Expand);
240   setOperationAction(ISD::UDIV,    MVT::i128, Expand);
241   setOperationAction(ISD::SDIVREM, MVT::i128, Expand);
242   setOperationAction(ISD::UDIVREM, MVT::i128, Expand);
243
244   // We don't support sin/cos/sqrt/fmod
245   setOperationAction(ISD::FSIN , MVT::f64, Expand);
246   setOperationAction(ISD::FCOS , MVT::f64, Expand);
247   setOperationAction(ISD::FREM , MVT::f64, Expand);
248   setOperationAction(ISD::FSIN , MVT::f32, Expand);
249   setOperationAction(ISD::FCOS , MVT::f32, Expand);
250   setOperationAction(ISD::FREM , MVT::f32, Expand);
251
252   // Expand fsqrt to the appropriate libcall (NOTE: should use h/w fsqrt
253   // for f32!)
254   setOperationAction(ISD::FSQRT, MVT::f64, Expand);
255   setOperationAction(ISD::FSQRT, MVT::f32, Expand);
256
257   setOperationAction(ISD::FCOPYSIGN, MVT::f64, Expand);
258   setOperationAction(ISD::FCOPYSIGN, MVT::f32, Expand);
259
260   // SPU can do rotate right and left, so legalize it... but customize for i8
261   // because instructions don't exist.
262
263   // FIXME: Change from "expand" to appropriate type once ROTR is supported in
264   //        .td files.
265   setOperationAction(ISD::ROTR, MVT::i32,    Expand /*Legal*/);
266   setOperationAction(ISD::ROTR, MVT::i16,    Expand /*Legal*/);
267   setOperationAction(ISD::ROTR, MVT::i8,     Expand /*Custom*/);
268
269   setOperationAction(ISD::ROTL, MVT::i32,    Legal);
270   setOperationAction(ISD::ROTL, MVT::i16,    Legal);
271   setOperationAction(ISD::ROTL, MVT::i8,     Custom);
272
273   // SPU has no native version of shift left/right for i8
274   setOperationAction(ISD::SHL,  MVT::i8,     Custom);
275   setOperationAction(ISD::SRL,  MVT::i8,     Custom);
276   setOperationAction(ISD::SRA,  MVT::i8,     Custom);
277
278   // Make these operations legal and handle them during instruction selection:
279   setOperationAction(ISD::SHL,  MVT::i64,    Legal);
280   setOperationAction(ISD::SRL,  MVT::i64,    Legal);
281   setOperationAction(ISD::SRA,  MVT::i64,    Legal);
282
283   // Custom lower i8, i32 and i64 multiplications
284   setOperationAction(ISD::MUL,  MVT::i8,     Custom);
285   setOperationAction(ISD::MUL,  MVT::i32,    Legal);
286   setOperationAction(ISD::MUL,  MVT::i64,    Legal);
287
288   // Expand double-width multiplication
289   // FIXME: It would probably be reasonable to support some of these operations
290   setOperationAction(ISD::UMUL_LOHI, MVT::i8,  Expand);
291   setOperationAction(ISD::SMUL_LOHI, MVT::i8,  Expand);
292   setOperationAction(ISD::MULHU,     MVT::i8,  Expand);
293   setOperationAction(ISD::MULHS,     MVT::i8,  Expand);
294   setOperationAction(ISD::UMUL_LOHI, MVT::i16, Expand);
295   setOperationAction(ISD::SMUL_LOHI, MVT::i16, Expand);
296   setOperationAction(ISD::MULHU,     MVT::i16, Expand);
297   setOperationAction(ISD::MULHS,     MVT::i16, Expand);
298   setOperationAction(ISD::UMUL_LOHI, MVT::i32, Expand);
299   setOperationAction(ISD::SMUL_LOHI, MVT::i32, Expand);
300   setOperationAction(ISD::MULHU,     MVT::i32, Expand);
301   setOperationAction(ISD::MULHS,     MVT::i32, Expand);
302   setOperationAction(ISD::UMUL_LOHI, MVT::i64, Expand);
303   setOperationAction(ISD::SMUL_LOHI, MVT::i64, Expand);
304   setOperationAction(ISD::MULHU,     MVT::i64, Expand);
305   setOperationAction(ISD::MULHS,     MVT::i64, Expand);
306
307   // Need to custom handle (some) common i8, i64 math ops
308   setOperationAction(ISD::ADD,  MVT::i8,     Custom);
309   setOperationAction(ISD::ADD,  MVT::i64,    Legal);
310   setOperationAction(ISD::SUB,  MVT::i8,     Custom);
311   setOperationAction(ISD::SUB,  MVT::i64,    Legal);
312
313   // SPU does not have BSWAP. It does have i32 support CTLZ.
314   // CTPOP has to be custom lowered.
315   setOperationAction(ISD::BSWAP, MVT::i32,   Expand);
316   setOperationAction(ISD::BSWAP, MVT::i64,   Expand);
317
318   setOperationAction(ISD::CTPOP, MVT::i8,    Custom);
319   setOperationAction(ISD::CTPOP, MVT::i16,   Custom);
320   setOperationAction(ISD::CTPOP, MVT::i32,   Custom);
321   setOperationAction(ISD::CTPOP, MVT::i64,   Custom);
322   setOperationAction(ISD::CTPOP, MVT::i128,  Expand);
323
324   setOperationAction(ISD::CTTZ , MVT::i8,    Expand);
325   setOperationAction(ISD::CTTZ , MVT::i16,   Expand);
326   setOperationAction(ISD::CTTZ , MVT::i32,   Expand);
327   setOperationAction(ISD::CTTZ , MVT::i64,   Expand);
328   setOperationAction(ISD::CTTZ , MVT::i128,  Expand);
329
330   setOperationAction(ISD::CTLZ , MVT::i8,    Promote);
331   setOperationAction(ISD::CTLZ , MVT::i16,   Promote);
332   setOperationAction(ISD::CTLZ , MVT::i32,   Legal);
333   setOperationAction(ISD::CTLZ , MVT::i64,   Expand);
334   setOperationAction(ISD::CTLZ , MVT::i128,  Expand);
335
336   // SPU has a version of select that implements (a&~c)|(b&c), just like
337   // select ought to work:
338   setOperationAction(ISD::SELECT, MVT::i8,   Legal);
339   setOperationAction(ISD::SELECT, MVT::i16,  Legal);
340   setOperationAction(ISD::SELECT, MVT::i32,  Legal);
341   setOperationAction(ISD::SELECT, MVT::i64,  Legal);
342
343   setOperationAction(ISD::SETCC, MVT::i8,    Legal);
344   setOperationAction(ISD::SETCC, MVT::i16,   Legal);
345   setOperationAction(ISD::SETCC, MVT::i32,   Legal);
346   setOperationAction(ISD::SETCC, MVT::i64,   Legal);
347   setOperationAction(ISD::SETCC, MVT::f64,   Custom);
348
349   // Custom lower i128 -> i64 truncates
350   setOperationAction(ISD::TRUNCATE, MVT::i64, Custom);
351
352   setOperationAction(ISD::FP_TO_SINT, MVT::i8, Promote);
353   setOperationAction(ISD::FP_TO_UINT, MVT::i8, Promote);
354   setOperationAction(ISD::FP_TO_SINT, MVT::i16, Promote);
355   setOperationAction(ISD::FP_TO_UINT, MVT::i16, Promote);
356   // SPU has a legal FP -> signed INT instruction for f32, but for f64, need
357   // to expand to a libcall, hence the custom lowering:
358   setOperationAction(ISD::FP_TO_SINT, MVT::i32, Custom);
359   setOperationAction(ISD::FP_TO_UINT, MVT::i32, Custom);
360   setOperationAction(ISD::FP_TO_SINT, MVT::i64, Expand);
361   setOperationAction(ISD::FP_TO_UINT, MVT::i64, Expand);
362   setOperationAction(ISD::FP_TO_SINT, MVT::i128, Expand);
363   setOperationAction(ISD::FP_TO_UINT, MVT::i128, Expand);
364
365   // FDIV on SPU requires custom lowering
366   setOperationAction(ISD::FDIV, MVT::f64, Expand);      // to libcall
367
368   // SPU has [U|S]INT_TO_FP for f32->i32, but not for f64->i32, f64->i64:
369   setOperationAction(ISD::SINT_TO_FP, MVT::i32, Custom);
370   setOperationAction(ISD::SINT_TO_FP, MVT::i16, Promote);
371   setOperationAction(ISD::SINT_TO_FP, MVT::i8,  Promote);
372   setOperationAction(ISD::UINT_TO_FP, MVT::i32, Custom);
373   setOperationAction(ISD::UINT_TO_FP, MVT::i16, Promote);
374   setOperationAction(ISD::UINT_TO_FP, MVT::i8,  Promote);
375   setOperationAction(ISD::SINT_TO_FP, MVT::i64, Custom);
376   setOperationAction(ISD::UINT_TO_FP, MVT::i64, Custom);
377
378   setOperationAction(ISD::BIT_CONVERT, MVT::i32, Legal);
379   setOperationAction(ISD::BIT_CONVERT, MVT::f32, Legal);
380   setOperationAction(ISD::BIT_CONVERT, MVT::i64, Legal);
381   setOperationAction(ISD::BIT_CONVERT, MVT::f64, Legal);
382
383   // We cannot sextinreg(i1).  Expand to shifts.
384   setOperationAction(ISD::SIGN_EXTEND_INREG, MVT::i1, Expand);
385
386   // Support label based line numbers.
387   setOperationAction(ISD::DBG_STOPPOINT, MVT::Other, Expand);
388   setOperationAction(ISD::DEBUG_LOC, MVT::Other, Expand);
389
390   // We want to legalize GlobalAddress and ConstantPool nodes into the
391   // appropriate instructions to materialize the address.
392   for (unsigned sctype = (unsigned) MVT::i8; sctype < (unsigned) MVT::f128;
393        ++sctype) {
394     MVT VT = (MVT::SimpleValueType)sctype;
395
396     setOperationAction(ISD::GlobalAddress,  VT, Custom);
397     setOperationAction(ISD::ConstantPool,   VT, Custom);
398     setOperationAction(ISD::JumpTable,      VT, Custom);
399   }
400
401   // VASTART needs to be custom lowered to use the VarArgsFrameIndex
402   setOperationAction(ISD::VASTART           , MVT::Other, Custom);
403
404   // Use the default implementation.
405   setOperationAction(ISD::VAARG             , MVT::Other, Expand);
406   setOperationAction(ISD::VACOPY            , MVT::Other, Expand);
407   setOperationAction(ISD::VAEND             , MVT::Other, Expand);
408   setOperationAction(ISD::STACKSAVE         , MVT::Other, Expand);
409   setOperationAction(ISD::STACKRESTORE      , MVT::Other, Expand);
410   setOperationAction(ISD::DYNAMIC_STACKALLOC, MVT::i32  , Expand);
411   setOperationAction(ISD::DYNAMIC_STACKALLOC, MVT::i64  , Expand);
412
413   // Cell SPU has instructions for converting between i64 and fp.
414   setOperationAction(ISD::FP_TO_SINT, MVT::i64, Custom);
415   setOperationAction(ISD::SINT_TO_FP, MVT::i64, Custom);
416
417   // To take advantage of the above i64 FP_TO_SINT, promote i32 FP_TO_UINT
418   setOperationAction(ISD::FP_TO_UINT, MVT::i32, Promote);
419
420   // BUILD_PAIR can't be handled natively, and should be expanded to shl/or
421   setOperationAction(ISD::BUILD_PAIR, MVT::i64, Expand);
422
423   // First set operation action for all vector types to expand. Then we
424   // will selectively turn on ones that can be effectively codegen'd.
425   addRegisterClass(MVT::v16i8, SPU::VECREGRegisterClass);
426   addRegisterClass(MVT::v8i16, SPU::VECREGRegisterClass);
427   addRegisterClass(MVT::v4i32, SPU::VECREGRegisterClass);
428   addRegisterClass(MVT::v2i64, SPU::VECREGRegisterClass);
429   addRegisterClass(MVT::v4f32, SPU::VECREGRegisterClass);
430   addRegisterClass(MVT::v2f64, SPU::VECREGRegisterClass);
431
432   // "Odd size" vector classes that we're willing to support:
433   addRegisterClass(MVT::v2i32, SPU::VECREGRegisterClass);
434
435   for (unsigned i = (unsigned)MVT::FIRST_VECTOR_VALUETYPE;
436        i <= (unsigned)MVT::LAST_VECTOR_VALUETYPE; ++i) {
437     MVT VT = (MVT::SimpleValueType)i;
438
439     // add/sub are legal for all supported vector VT's.
440     setOperationAction(ISD::ADD,     VT, Legal);
441     setOperationAction(ISD::SUB,     VT, Legal);
442     // mul has to be custom lowered.
443     setOperationAction(ISD::MUL,     VT, Legal);
444
445     setOperationAction(ISD::AND,     VT, Legal);
446     setOperationAction(ISD::OR,      VT, Legal);
447     setOperationAction(ISD::XOR,     VT, Legal);
448     setOperationAction(ISD::LOAD,    VT, Legal);
449     setOperationAction(ISD::SELECT,  VT, Legal);
450     setOperationAction(ISD::STORE,   VT, Legal);
451
452     // These operations need to be expanded:
453     setOperationAction(ISD::SDIV,    VT, Expand);
454     setOperationAction(ISD::SREM,    VT, Expand);
455     setOperationAction(ISD::UDIV,    VT, Expand);
456     setOperationAction(ISD::UREM,    VT, Expand);
457
458     // Custom lower build_vector, constant pool spills, insert and
459     // extract vector elements:
460     setOperationAction(ISD::BUILD_VECTOR, VT, Custom);
461     setOperationAction(ISD::ConstantPool, VT, Custom);
462     setOperationAction(ISD::SCALAR_TO_VECTOR, VT, Custom);
463     setOperationAction(ISD::EXTRACT_VECTOR_ELT, VT, Custom);
464     setOperationAction(ISD::INSERT_VECTOR_ELT, VT, Custom);
465     setOperationAction(ISD::VECTOR_SHUFFLE, VT, Custom);
466   }
467
468   setOperationAction(ISD::AND, MVT::v16i8, Custom);
469   setOperationAction(ISD::OR,  MVT::v16i8, Custom);
470   setOperationAction(ISD::XOR, MVT::v16i8, Custom);
471   setOperationAction(ISD::SCALAR_TO_VECTOR, MVT::v4f32, Custom);
472
473   setOperationAction(ISD::FDIV, MVT::v4f32, Legal);
474
475   setShiftAmountType(MVT::i32);
476   setBooleanContents(ZeroOrNegativeOneBooleanContent);
477
478   setStackPointerRegisterToSaveRestore(SPU::R1);
479
480   // We have target-specific dag combine patterns for the following nodes:
481   setTargetDAGCombine(ISD::ADD);
482   setTargetDAGCombine(ISD::ZERO_EXTEND);
483   setTargetDAGCombine(ISD::SIGN_EXTEND);
484   setTargetDAGCombine(ISD::ANY_EXTEND);
485
486   computeRegisterProperties();
487
488   // Set pre-RA register scheduler default to BURR, which produces slightly
489   // better code than the default (could also be TDRR, but TargetLowering.h
490   // needs a mod to support that model):
491   setSchedulingPreference(SchedulingForRegPressure);
492 }
493
494 const char *
495 SPUTargetLowering::getTargetNodeName(unsigned Opcode) const
496 {
497   if (node_names.empty()) {
498     node_names[(unsigned) SPUISD::RET_FLAG] = "SPUISD::RET_FLAG";
499     node_names[(unsigned) SPUISD::Hi] = "SPUISD::Hi";
500     node_names[(unsigned) SPUISD::Lo] = "SPUISD::Lo";
501     node_names[(unsigned) SPUISD::PCRelAddr] = "SPUISD::PCRelAddr";
502     node_names[(unsigned) SPUISD::AFormAddr] = "SPUISD::AFormAddr";
503     node_names[(unsigned) SPUISD::IndirectAddr] = "SPUISD::IndirectAddr";
504     node_names[(unsigned) SPUISD::LDRESULT] = "SPUISD::LDRESULT";
505     node_names[(unsigned) SPUISD::CALL] = "SPUISD::CALL";
506     node_names[(unsigned) SPUISD::SHUFB] = "SPUISD::SHUFB";
507     node_names[(unsigned) SPUISD::SHUFFLE_MASK] = "SPUISD::SHUFFLE_MASK";
508     node_names[(unsigned) SPUISD::CNTB] = "SPUISD::CNTB";
509     node_names[(unsigned) SPUISD::PREFSLOT2VEC] = "SPUISD::PREFSLOT2VEC";
510     node_names[(unsigned) SPUISD::VEC2PREFSLOT] = "SPUISD::VEC2PREFSLOT";
511     node_names[(unsigned) SPUISD::SHLQUAD_L_BITS] = "SPUISD::SHLQUAD_L_BITS";
512     node_names[(unsigned) SPUISD::SHLQUAD_L_BYTES] = "SPUISD::SHLQUAD_L_BYTES";
513     node_names[(unsigned) SPUISD::VEC_SHL] = "SPUISD::VEC_SHL";
514     node_names[(unsigned) SPUISD::VEC_SRL] = "SPUISD::VEC_SRL";
515     node_names[(unsigned) SPUISD::VEC_SRA] = "SPUISD::VEC_SRA";
516     node_names[(unsigned) SPUISD::VEC_ROTL] = "SPUISD::VEC_ROTL";
517     node_names[(unsigned) SPUISD::VEC_ROTR] = "SPUISD::VEC_ROTR";
518     node_names[(unsigned) SPUISD::ROTBYTES_LEFT] = "SPUISD::ROTBYTES_LEFT";
519     node_names[(unsigned) SPUISD::ROTBYTES_LEFT_BITS] =
520             "SPUISD::ROTBYTES_LEFT_BITS";
521     node_names[(unsigned) SPUISD::SELECT_MASK] = "SPUISD::SELECT_MASK";
522     node_names[(unsigned) SPUISD::SELB] = "SPUISD::SELB";
523     node_names[(unsigned) SPUISD::ADD64_MARKER] = "SPUISD::ADD64_MARKER";
524     node_names[(unsigned) SPUISD::SUB64_MARKER] = "SPUISD::SUB64_MARKER";
525     node_names[(unsigned) SPUISD::MUL64_MARKER] = "SPUISD::MUL64_MARKER";
526   }
527
528   std::map<unsigned, const char *>::iterator i = node_names.find(Opcode);
529
530   return ((i != node_names.end()) ? i->second : 0);
531 }
532
533 /// getFunctionAlignment - Return the Log2 alignment of this function.
534 unsigned SPUTargetLowering::getFunctionAlignment(const Function *) const {
535   return 3;
536 }
537
538 //===----------------------------------------------------------------------===//
539 // Return the Cell SPU's SETCC result type
540 //===----------------------------------------------------------------------===//
541
542 MVT SPUTargetLowering::getSetCCResultType(MVT VT) const {
543   // i16 and i32 are valid SETCC result types
544   return ((VT == MVT::i8 || VT == MVT::i16 || VT == MVT::i32) ? VT : MVT::i32);
545 }
546
547 //===----------------------------------------------------------------------===//
548 // Calling convention code:
549 //===----------------------------------------------------------------------===//
550
551 #include "SPUGenCallingConv.inc"
552
553 //===----------------------------------------------------------------------===//
554 //  LowerOperation implementation
555 //===----------------------------------------------------------------------===//
556
557 /// Custom lower loads for CellSPU
558 /*!
559  All CellSPU loads and stores are aligned to 16-byte boundaries, so for elements
560  within a 16-byte block, we have to rotate to extract the requested element.
561
562  For extending loads, we also want to ensure that the following sequence is
563  emitted, e.g. for MVT::f32 extending load to MVT::f64:
564
565 \verbatim
566 %1  v16i8,ch = load
567 %2  v16i8,ch = rotate %1
568 %3  v4f8, ch = bitconvert %2
569 %4  f32      = vec2perfslot %3
570 %5  f64      = fp_extend %4
571 \endverbatim
572 */
573 static SDValue
574 LowerLOAD(SDValue Op, SelectionDAG &DAG, const SPUSubtarget *ST) {
575   LoadSDNode *LN = cast<LoadSDNode>(Op);
576   SDValue the_chain = LN->getChain();
577   MVT PtrVT = DAG.getTargetLoweringInfo().getPointerTy();
578   MVT InVT = LN->getMemoryVT();
579   MVT OutVT = Op.getValueType();
580   ISD::LoadExtType ExtType = LN->getExtensionType();
581   unsigned alignment = LN->getAlignment();
582   const valtype_map_s *vtm = getValueTypeMapEntry(InVT);
583   DebugLoc dl = Op.getDebugLoc();
584
585   switch (LN->getAddressingMode()) {
586   case ISD::UNINDEXED: {
587     SDValue result;
588     SDValue basePtr = LN->getBasePtr();
589     SDValue rotate;
590
591     if (alignment == 16) {
592       ConstantSDNode *CN;
593
594       // Special cases for a known aligned load to simplify the base pointer
595       // and the rotation amount:
596       if (basePtr.getOpcode() == ISD::ADD
597           && (CN = dyn_cast<ConstantSDNode > (basePtr.getOperand(1))) != 0) {
598         // Known offset into basePtr
599         int64_t offset = CN->getSExtValue();
600         int64_t rotamt = int64_t((offset & 0xf) - vtm->prefslot_byte);
601
602         if (rotamt < 0)
603           rotamt += 16;
604
605         rotate = DAG.getConstant(rotamt, MVT::i16);
606
607         // Simplify the base pointer for this case:
608         basePtr = basePtr.getOperand(0);
609         if ((offset & ~0xf) > 0) {
610           basePtr = DAG.getNode(SPUISD::IndirectAddr, dl, PtrVT,
611                                 basePtr,
612                                 DAG.getConstant((offset & ~0xf), PtrVT));
613         }
614       } else if ((basePtr.getOpcode() == SPUISD::AFormAddr)
615                  || (basePtr.getOpcode() == SPUISD::IndirectAddr
616                      && basePtr.getOperand(0).getOpcode() == SPUISD::Hi
617                      && basePtr.getOperand(1).getOpcode() == SPUISD::Lo)) {
618         // Plain aligned a-form address: rotate into preferred slot
619         // Same for (SPUindirect (SPUhi ...), (SPUlo ...))
620         int64_t rotamt = -vtm->prefslot_byte;
621         if (rotamt < 0)
622           rotamt += 16;
623         rotate = DAG.getConstant(rotamt, MVT::i16);
624       } else {
625         // Offset the rotate amount by the basePtr and the preferred slot
626         // byte offset
627         int64_t rotamt = -vtm->prefslot_byte;
628         if (rotamt < 0)
629           rotamt += 16;
630         rotate = DAG.getNode(ISD::ADD, dl, PtrVT,
631                              basePtr,
632                              DAG.getConstant(rotamt, PtrVT));
633       }
634     } else {
635       // Unaligned load: must be more pessimistic about addressing modes:
636       if (basePtr.getOpcode() == ISD::ADD) {
637         MachineFunction &MF = DAG.getMachineFunction();
638         MachineRegisterInfo &RegInfo = MF.getRegInfo();
639         unsigned VReg = RegInfo.createVirtualRegister(&SPU::R32CRegClass);
640         SDValue Flag;
641
642         SDValue Op0 = basePtr.getOperand(0);
643         SDValue Op1 = basePtr.getOperand(1);
644
645         if (isa<ConstantSDNode>(Op1)) {
646           // Convert the (add <ptr>, <const>) to an indirect address contained
647           // in a register. Note that this is done because we need to avoid
648           // creating a 0(reg) d-form address due to the SPU's block loads.
649           basePtr = DAG.getNode(SPUISD::IndirectAddr, dl, PtrVT, Op0, Op1);
650           the_chain = DAG.getCopyToReg(the_chain, dl, VReg, basePtr, Flag);
651           basePtr = DAG.getCopyFromReg(the_chain, dl, VReg, PtrVT);
652         } else {
653           // Convert the (add <arg1>, <arg2>) to an indirect address, which
654           // will likely be lowered as a reg(reg) x-form address.
655           basePtr = DAG.getNode(SPUISD::IndirectAddr, dl, PtrVT, Op0, Op1);
656         }
657       } else {
658         basePtr = DAG.getNode(SPUISD::IndirectAddr, dl, PtrVT,
659                               basePtr,
660                               DAG.getConstant(0, PtrVT));
661       }
662
663       // Offset the rotate amount by the basePtr and the preferred slot
664       // byte offset
665       rotate = DAG.getNode(ISD::ADD, dl, PtrVT,
666                            basePtr,
667                            DAG.getConstant(-vtm->prefslot_byte, PtrVT));
668     }
669
670     // Re-emit as a v16i8 vector load
671     result = DAG.getLoad(MVT::v16i8, dl, the_chain, basePtr,
672                          LN->getSrcValue(), LN->getSrcValueOffset(),
673                          LN->isVolatile(), 16);
674
675     // Update the chain
676     the_chain = result.getValue(1);
677
678     // Rotate into the preferred slot:
679     result = DAG.getNode(SPUISD::ROTBYTES_LEFT, dl, MVT::v16i8,
680                          result.getValue(0), rotate);
681
682     // Convert the loaded v16i8 vector to the appropriate vector type
683     // specified by the operand:
684     MVT vecVT = MVT::getVectorVT(InVT, (128 / InVT.getSizeInBits()));
685     result = DAG.getNode(SPUISD::VEC2PREFSLOT, dl, InVT,
686                          DAG.getNode(ISD::BIT_CONVERT, dl, vecVT, result));
687
688     // Handle extending loads by extending the scalar result:
689     if (ExtType == ISD::SEXTLOAD) {
690       result = DAG.getNode(ISD::SIGN_EXTEND, dl, OutVT, result);
691     } else if (ExtType == ISD::ZEXTLOAD) {
692       result = DAG.getNode(ISD::ZERO_EXTEND, dl, OutVT, result);
693     } else if (ExtType == ISD::EXTLOAD) {
694       unsigned NewOpc = ISD::ANY_EXTEND;
695
696       if (OutVT.isFloatingPoint())
697         NewOpc = ISD::FP_EXTEND;
698
699       result = DAG.getNode(NewOpc, dl, OutVT, result);
700     }
701
702     SDVTList retvts = DAG.getVTList(OutVT, MVT::Other);
703     SDValue retops[2] = {
704       result,
705       the_chain
706     };
707
708     result = DAG.getNode(SPUISD::LDRESULT, dl, retvts,
709                          retops, sizeof(retops) / sizeof(retops[0]));
710     return result;
711   }
712   case ISD::PRE_INC:
713   case ISD::PRE_DEC:
714   case ISD::POST_INC:
715   case ISD::POST_DEC:
716   case ISD::LAST_INDEXED_MODE:
717     {
718       std::string msg;
719       raw_string_ostream Msg(msg);
720       Msg << "LowerLOAD: Got a LoadSDNode with an addr mode other than "
721             "UNINDEXED\n";
722       Msg << (unsigned) LN->getAddressingMode();
723       llvm_report_error(Msg.str());
724       /*NOTREACHED*/
725     }
726   }
727
728   return SDValue();
729 }
730
731 /// Custom lower stores for CellSPU
732 /*!
733  All CellSPU stores are aligned to 16-byte boundaries, so for elements
734  within a 16-byte block, we have to generate a shuffle to insert the
735  requested element into its place, then store the resulting block.
736  */
737 static SDValue
738 LowerSTORE(SDValue Op, SelectionDAG &DAG, const SPUSubtarget *ST) {
739   StoreSDNode *SN = cast<StoreSDNode>(Op);
740   SDValue Value = SN->getValue();
741   MVT VT = Value.getValueType();
742   MVT StVT = (!SN->isTruncatingStore() ? VT : SN->getMemoryVT());
743   MVT PtrVT = DAG.getTargetLoweringInfo().getPointerTy();
744   DebugLoc dl = Op.getDebugLoc();
745   unsigned alignment = SN->getAlignment();
746
747   switch (SN->getAddressingMode()) {
748   case ISD::UNINDEXED: {
749     // The vector type we really want to load from the 16-byte chunk.
750     MVT vecVT = MVT::getVectorVT(VT, (128 / VT.getSizeInBits())),
751         stVecVT = MVT::getVectorVT(StVT, (128 / StVT.getSizeInBits()));
752
753     SDValue alignLoadVec;
754     SDValue basePtr = SN->getBasePtr();
755     SDValue the_chain = SN->getChain();
756     SDValue insertEltOffs;
757
758     if (alignment == 16) {
759       ConstantSDNode *CN;
760
761       // Special cases for a known aligned load to simplify the base pointer
762       // and insertion byte:
763       if (basePtr.getOpcode() == ISD::ADD
764           && (CN = dyn_cast<ConstantSDNode>(basePtr.getOperand(1))) != 0) {
765         // Known offset into basePtr
766         int64_t offset = CN->getSExtValue();
767
768         // Simplify the base pointer for this case:
769         basePtr = basePtr.getOperand(0);
770         insertEltOffs = DAG.getNode(SPUISD::IndirectAddr, dl, PtrVT,
771                                     basePtr,
772                                     DAG.getConstant((offset & 0xf), PtrVT));
773
774         if ((offset & ~0xf) > 0) {
775           basePtr = DAG.getNode(SPUISD::IndirectAddr, dl, PtrVT,
776                                 basePtr,
777                                 DAG.getConstant((offset & ~0xf), PtrVT));
778         }
779       } else {
780         // Otherwise, assume it's at byte 0 of basePtr
781         insertEltOffs = DAG.getNode(SPUISD::IndirectAddr, dl, PtrVT,
782                                     basePtr,
783                                     DAG.getConstant(0, PtrVT));
784       }
785     } else {
786       // Unaligned load: must be more pessimistic about addressing modes:
787       if (basePtr.getOpcode() == ISD::ADD) {
788         MachineFunction &MF = DAG.getMachineFunction();
789         MachineRegisterInfo &RegInfo = MF.getRegInfo();
790         unsigned VReg = RegInfo.createVirtualRegister(&SPU::R32CRegClass);
791         SDValue Flag;
792
793         SDValue Op0 = basePtr.getOperand(0);
794         SDValue Op1 = basePtr.getOperand(1);
795
796         if (isa<ConstantSDNode>(Op1)) {
797           // Convert the (add <ptr>, <const>) to an indirect address contained
798           // in a register. Note that this is done because we need to avoid
799           // creating a 0(reg) d-form address due to the SPU's block loads.
800           basePtr = DAG.getNode(SPUISD::IndirectAddr, dl, PtrVT, Op0, Op1);
801           the_chain = DAG.getCopyToReg(the_chain, dl, VReg, basePtr, Flag);
802           basePtr = DAG.getCopyFromReg(the_chain, dl, VReg, PtrVT);
803         } else {
804           // Convert the (add <arg1>, <arg2>) to an indirect address, which
805           // will likely be lowered as a reg(reg) x-form address.
806           basePtr = DAG.getNode(SPUISD::IndirectAddr, dl, PtrVT, Op0, Op1);
807         }
808       } else {
809         basePtr = DAG.getNode(SPUISD::IndirectAddr, dl, PtrVT,
810                               basePtr,
811                               DAG.getConstant(0, PtrVT));
812       }
813
814       // Insertion point is solely determined by basePtr's contents
815       insertEltOffs = DAG.getNode(ISD::ADD, dl, PtrVT,
816                                   basePtr,
817                                   DAG.getConstant(0, PtrVT));
818     }
819
820     // Re-emit as a v16i8 vector load
821     alignLoadVec = DAG.getLoad(MVT::v16i8, dl, the_chain, basePtr,
822                                SN->getSrcValue(), SN->getSrcValueOffset(),
823                                SN->isVolatile(), 16);
824
825     // Update the chain
826     the_chain = alignLoadVec.getValue(1);
827
828     LoadSDNode *LN = cast<LoadSDNode>(alignLoadVec);
829     SDValue theValue = SN->getValue();
830     SDValue result;
831
832     if (StVT != VT
833         && (theValue.getOpcode() == ISD::AssertZext
834             || theValue.getOpcode() == ISD::AssertSext)) {
835       // Drill down and get the value for zero- and sign-extended
836       // quantities
837       theValue = theValue.getOperand(0);
838     }
839
840     // If the base pointer is already a D-form address, then just create
841     // a new D-form address with a slot offset and the orignal base pointer.
842     // Otherwise generate a D-form address with the slot offset relative
843     // to the stack pointer, which is always aligned.
844 #if !defined(NDEBUG)
845       if (DebugFlag && isCurrentDebugType(DEBUG_TYPE)) {
846         cerr << "CellSPU LowerSTORE: basePtr = ";
847         basePtr.getNode()->dump(&DAG);
848         cerr << "\n";
849       }
850 #endif
851
852     SDValue insertEltOp =
853             DAG.getNode(SPUISD::SHUFFLE_MASK, dl, vecVT, insertEltOffs);
854     SDValue vectorizeOp =
855             DAG.getNode(ISD::SCALAR_TO_VECTOR, dl, vecVT, theValue);
856
857     result = DAG.getNode(SPUISD::SHUFB, dl, vecVT,
858                          vectorizeOp, alignLoadVec,
859                          DAG.getNode(ISD::BIT_CONVERT, dl,
860                                      MVT::v4i32, insertEltOp));
861
862     result = DAG.getStore(the_chain, dl, result, basePtr,
863                           LN->getSrcValue(), LN->getSrcValueOffset(),
864                           LN->isVolatile(), LN->getAlignment());
865
866 #if 0 && !defined(NDEBUG)
867     if (DebugFlag && isCurrentDebugType(DEBUG_TYPE)) {
868       const SDValue &currentRoot = DAG.getRoot();
869
870       DAG.setRoot(result);
871       cerr << "------- CellSPU:LowerStore result:\n";
872       DAG.dump();
873       cerr << "-------\n";
874       DAG.setRoot(currentRoot);
875     }
876 #endif
877
878     return result;
879     /*UNREACHED*/
880   }
881   case ISD::PRE_INC:
882   case ISD::PRE_DEC:
883   case ISD::POST_INC:
884   case ISD::POST_DEC:
885   case ISD::LAST_INDEXED_MODE:
886     {
887       std::string msg;
888       raw_string_ostream Msg(msg);
889       Msg << "LowerLOAD: Got a LoadSDNode with an addr mode other than "
890             "UNINDEXED\n";
891       Msg << (unsigned) SN->getAddressingMode();
892       llvm_report_error(Msg.str());
893       /*NOTREACHED*/
894     }
895   }
896
897   return SDValue();
898 }
899
900 //! Generate the address of a constant pool entry.
901 static SDValue
902 LowerConstantPool(SDValue Op, SelectionDAG &DAG, const SPUSubtarget *ST) {
903   MVT PtrVT = Op.getValueType();
904   ConstantPoolSDNode *CP = cast<ConstantPoolSDNode>(Op);
905   Constant *C = CP->getConstVal();
906   SDValue CPI = DAG.getTargetConstantPool(C, PtrVT, CP->getAlignment());
907   SDValue Zero = DAG.getConstant(0, PtrVT);
908   const TargetMachine &TM = DAG.getTarget();
909   // FIXME there is no actual debug info here
910   DebugLoc dl = Op.getDebugLoc();
911
912   if (TM.getRelocationModel() == Reloc::Static) {
913     if (!ST->usingLargeMem()) {
914       // Just return the SDValue with the constant pool address in it.
915       return DAG.getNode(SPUISD::AFormAddr, dl, PtrVT, CPI, Zero);
916     } else {
917       SDValue Hi = DAG.getNode(SPUISD::Hi, dl, PtrVT, CPI, Zero);
918       SDValue Lo = DAG.getNode(SPUISD::Lo, dl, PtrVT, CPI, Zero);
919       return DAG.getNode(SPUISD::IndirectAddr, dl, PtrVT, Hi, Lo);
920     }
921   }
922
923   llvm_unreachable("LowerConstantPool: Relocation model other than static"
924                    " not supported.");
925   return SDValue();
926 }
927
928 //! Alternate entry point for generating the address of a constant pool entry
929 SDValue
930 SPU::LowerConstantPool(SDValue Op, SelectionDAG &DAG, const SPUTargetMachine &TM) {
931   return ::LowerConstantPool(Op, DAG, TM.getSubtargetImpl());
932 }
933
934 static SDValue
935 LowerJumpTable(SDValue Op, SelectionDAG &DAG, const SPUSubtarget *ST) {
936   MVT PtrVT = Op.getValueType();
937   JumpTableSDNode *JT = cast<JumpTableSDNode>(Op);
938   SDValue JTI = DAG.getTargetJumpTable(JT->getIndex(), PtrVT);
939   SDValue Zero = DAG.getConstant(0, PtrVT);
940   const TargetMachine &TM = DAG.getTarget();
941   // FIXME there is no actual debug info here
942   DebugLoc dl = Op.getDebugLoc();
943
944   if (TM.getRelocationModel() == Reloc::Static) {
945     if (!ST->usingLargeMem()) {
946       return DAG.getNode(SPUISD::AFormAddr, dl, PtrVT, JTI, Zero);
947     } else {
948       SDValue Hi = DAG.getNode(SPUISD::Hi, dl, PtrVT, JTI, Zero);
949       SDValue Lo = DAG.getNode(SPUISD::Lo, dl, PtrVT, JTI, Zero);
950       return DAG.getNode(SPUISD::IndirectAddr, dl, PtrVT, Hi, Lo);
951     }
952   }
953
954   llvm_unreachable("LowerJumpTable: Relocation model other than static"
955                    " not supported.");
956   return SDValue();
957 }
958
959 static SDValue
960 LowerGlobalAddress(SDValue Op, SelectionDAG &DAG, const SPUSubtarget *ST) {
961   MVT PtrVT = Op.getValueType();
962   GlobalAddressSDNode *GSDN = cast<GlobalAddressSDNode>(Op);
963   GlobalValue *GV = GSDN->getGlobal();
964   SDValue GA = DAG.getTargetGlobalAddress(GV, PtrVT, GSDN->getOffset());
965   const TargetMachine &TM = DAG.getTarget();
966   SDValue Zero = DAG.getConstant(0, PtrVT);
967   // FIXME there is no actual debug info here
968   DebugLoc dl = Op.getDebugLoc();
969
970   if (TM.getRelocationModel() == Reloc::Static) {
971     if (!ST->usingLargeMem()) {
972       return DAG.getNode(SPUISD::AFormAddr, dl, PtrVT, GA, Zero);
973     } else {
974       SDValue Hi = DAG.getNode(SPUISD::Hi, dl, PtrVT, GA, Zero);
975       SDValue Lo = DAG.getNode(SPUISD::Lo, dl, PtrVT, GA, Zero);
976       return DAG.getNode(SPUISD::IndirectAddr, dl, PtrVT, Hi, Lo);
977     }
978   } else {
979     llvm_report_error("LowerGlobalAddress: Relocation model other than static"
980                       "not supported.");
981     /*NOTREACHED*/
982   }
983
984   return SDValue();
985 }
986
987 //! Custom lower double precision floating point constants
988 static SDValue
989 LowerConstantFP(SDValue Op, SelectionDAG &DAG) {
990   MVT VT = Op.getValueType();
991   // FIXME there is no actual debug info here
992   DebugLoc dl = Op.getDebugLoc();
993
994   if (VT == MVT::f64) {
995     ConstantFPSDNode *FP = cast<ConstantFPSDNode>(Op.getNode());
996
997     assert((FP != 0) &&
998            "LowerConstantFP: Node is not ConstantFPSDNode");
999
1000     uint64_t dbits = DoubleToBits(FP->getValueAPF().convertToDouble());
1001     SDValue T = DAG.getConstant(dbits, MVT::i64);
1002     SDValue Tvec = DAG.getNode(ISD::BUILD_VECTOR, dl, MVT::v2i64, T, T);
1003     return DAG.getNode(SPUISD::VEC2PREFSLOT, dl, VT,
1004                        DAG.getNode(ISD::BIT_CONVERT, dl, MVT::v2f64, Tvec));
1005   }
1006
1007   return SDValue();
1008 }
1009
1010 SDValue
1011 SPUTargetLowering::LowerFormalArguments(SDValue Chain,
1012                                         unsigned CallConv, bool isVarArg,
1013                                         const SmallVectorImpl<ISD::InputArg>
1014                                           &Ins,
1015                                         DebugLoc dl, SelectionDAG &DAG,
1016                                         SmallVectorImpl<SDValue> &InVals) {
1017
1018   MachineFunction &MF = DAG.getMachineFunction();
1019   MachineFrameInfo *MFI = MF.getFrameInfo();
1020   MachineRegisterInfo &RegInfo = MF.getRegInfo();
1021
1022   const unsigned *ArgRegs = SPURegisterInfo::getArgRegs();
1023   const unsigned NumArgRegs = SPURegisterInfo::getNumArgRegs();
1024
1025   unsigned ArgOffset = SPUFrameInfo::minStackSize();
1026   unsigned ArgRegIdx = 0;
1027   unsigned StackSlotSize = SPUFrameInfo::stackSlotSize();
1028
1029   MVT PtrVT = DAG.getTargetLoweringInfo().getPointerTy();
1030
1031   // Add DAG nodes to load the arguments or copy them out of registers.
1032   for (unsigned ArgNo = 0, e = Ins.size(); ArgNo != e; ++ArgNo) {
1033     MVT ObjectVT = Ins[ArgNo].VT;
1034     unsigned ObjSize = ObjectVT.getSizeInBits()/8;
1035     SDValue ArgVal;
1036
1037     if (ArgRegIdx < NumArgRegs) {
1038       const TargetRegisterClass *ArgRegClass;
1039
1040       switch (ObjectVT.getSimpleVT()) {
1041       default: {
1042         std::string msg;
1043         raw_string_ostream Msg(msg);
1044         Msg << "LowerFormalArguments Unhandled argument type: "
1045              << ObjectVT.getMVTString();
1046         llvm_report_error(Msg.str());
1047       }
1048       case MVT::i8:
1049         ArgRegClass = &SPU::R8CRegClass;
1050         break;
1051       case MVT::i16:
1052         ArgRegClass = &SPU::R16CRegClass;
1053         break;
1054       case MVT::i32:
1055         ArgRegClass = &SPU::R32CRegClass;
1056         break;
1057       case MVT::i64:
1058         ArgRegClass = &SPU::R64CRegClass;
1059         break;
1060       case MVT::i128:
1061         ArgRegClass = &SPU::GPRCRegClass;
1062         break;
1063       case MVT::f32:
1064         ArgRegClass = &SPU::R32FPRegClass;
1065         break;
1066       case MVT::f64:
1067         ArgRegClass = &SPU::R64FPRegClass;
1068         break;
1069       case MVT::v2f64:
1070       case MVT::v4f32:
1071       case MVT::v2i64:
1072       case MVT::v4i32:
1073       case MVT::v8i16:
1074       case MVT::v16i8:
1075         ArgRegClass = &SPU::VECREGRegClass;
1076         break;
1077       }
1078
1079       unsigned VReg = RegInfo.createVirtualRegister(ArgRegClass);
1080       RegInfo.addLiveIn(ArgRegs[ArgRegIdx], VReg);
1081       ArgVal = DAG.getCopyFromReg(Chain, dl, VReg, ObjectVT);
1082       ++ArgRegIdx;
1083     } else {
1084       // We need to load the argument to a virtual register if we determined
1085       // above that we ran out of physical registers of the appropriate type
1086       // or we're forced to do vararg
1087       int FI = MFI->CreateFixedObject(ObjSize, ArgOffset);
1088       SDValue FIN = DAG.getFrameIndex(FI, PtrVT);
1089       ArgVal = DAG.getLoad(ObjectVT, dl, Chain, FIN, NULL, 0);
1090       ArgOffset += StackSlotSize;
1091     }
1092
1093     InVals.push_back(ArgVal);
1094     // Update the chain
1095     Chain = ArgVal.getOperand(0);
1096   }
1097
1098   // vararg handling:
1099   if (isVarArg) {
1100     // unsigned int ptr_size = PtrVT.getSizeInBits() / 8;
1101     // We will spill (79-3)+1 registers to the stack
1102     SmallVector<SDValue, 79-3+1> MemOps;
1103
1104     // Create the frame slot
1105
1106     for (; ArgRegIdx != NumArgRegs; ++ArgRegIdx) {
1107       VarArgsFrameIndex = MFI->CreateFixedObject(StackSlotSize, ArgOffset);
1108       SDValue FIN = DAG.getFrameIndex(VarArgsFrameIndex, PtrVT);
1109       SDValue ArgVal = DAG.getRegister(ArgRegs[ArgRegIdx], MVT::v16i8);
1110       SDValue Store = DAG.getStore(Chain, dl, ArgVal, FIN, NULL, 0);
1111       Chain = Store.getOperand(0);
1112       MemOps.push_back(Store);
1113
1114       // Increment address by stack slot size for the next stored argument
1115       ArgOffset += StackSlotSize;
1116     }
1117     if (!MemOps.empty())
1118       Chain = DAG.getNode(ISD::TokenFactor, dl, MVT::Other,
1119                           &MemOps[0], MemOps.size());
1120   }
1121
1122   return Chain;
1123 }
1124
1125 /// isLSAAddress - Return the immediate to use if the specified
1126 /// value is representable as a LSA address.
1127 static SDNode *isLSAAddress(SDValue Op, SelectionDAG &DAG) {
1128   ConstantSDNode *C = dyn_cast<ConstantSDNode>(Op);
1129   if (!C) return 0;
1130
1131   int Addr = C->getZExtValue();
1132   if ((Addr & 3) != 0 ||  // Low 2 bits are implicitly zero.
1133       (Addr << 14 >> 14) != Addr)
1134     return 0;  // Top 14 bits have to be sext of immediate.
1135
1136   return DAG.getConstant((int)C->getZExtValue() >> 2, MVT::i32).getNode();
1137 }
1138
1139 SDValue
1140 SPUTargetLowering::LowerCall(SDValue Chain, SDValue Callee,
1141                              unsigned CallConv, bool isVarArg,
1142                              bool isTailCall,
1143                              const SmallVectorImpl<ISD::OutputArg> &Outs,
1144                              const SmallVectorImpl<ISD::InputArg> &Ins,
1145                              DebugLoc dl, SelectionDAG &DAG,
1146                              SmallVectorImpl<SDValue> &InVals) {
1147
1148   const SPUSubtarget *ST = SPUTM.getSubtargetImpl();
1149   unsigned NumOps     = Outs.size();
1150   unsigned StackSlotSize = SPUFrameInfo::stackSlotSize();
1151   const unsigned *ArgRegs = SPURegisterInfo::getArgRegs();
1152   const unsigned NumArgRegs = SPURegisterInfo::getNumArgRegs();
1153
1154   // Handy pointer type
1155   MVT PtrVT = DAG.getTargetLoweringInfo().getPointerTy();
1156
1157   // Accumulate how many bytes are to be pushed on the stack, including the
1158   // linkage area, and parameter passing area.  According to the SPU ABI,
1159   // we minimally need space for [LR] and [SP]
1160   unsigned NumStackBytes = SPUFrameInfo::minStackSize();
1161
1162   // Set up a copy of the stack pointer for use loading and storing any
1163   // arguments that may not fit in the registers available for argument
1164   // passing.
1165   SDValue StackPtr = DAG.getRegister(SPU::R1, MVT::i32);
1166
1167   // Figure out which arguments are going to go in registers, and which in
1168   // memory.
1169   unsigned ArgOffset = SPUFrameInfo::minStackSize(); // Just below [LR]
1170   unsigned ArgRegIdx = 0;
1171
1172   // Keep track of registers passing arguments
1173   std::vector<std::pair<unsigned, SDValue> > RegsToPass;
1174   // And the arguments passed on the stack
1175   SmallVector<SDValue, 8> MemOpChains;
1176
1177   for (unsigned i = 0; i != NumOps; ++i) {
1178     SDValue Arg = Outs[i].Val;
1179
1180     // PtrOff will be used to store the current argument to the stack if a
1181     // register cannot be found for it.
1182     SDValue PtrOff = DAG.getConstant(ArgOffset, StackPtr.getValueType());
1183     PtrOff = DAG.getNode(ISD::ADD, dl, PtrVT, StackPtr, PtrOff);
1184
1185     switch (Arg.getValueType().getSimpleVT()) {
1186     default: llvm_unreachable("Unexpected ValueType for argument!");
1187     case MVT::i8:
1188     case MVT::i16:
1189     case MVT::i32:
1190     case MVT::i64:
1191     case MVT::i128:
1192       if (ArgRegIdx != NumArgRegs) {
1193         RegsToPass.push_back(std::make_pair(ArgRegs[ArgRegIdx++], Arg));
1194       } else {
1195         MemOpChains.push_back(DAG.getStore(Chain, dl, Arg, PtrOff, NULL, 0));
1196         ArgOffset += StackSlotSize;
1197       }
1198       break;
1199     case MVT::f32:
1200     case MVT::f64:
1201       if (ArgRegIdx != NumArgRegs) {
1202         RegsToPass.push_back(std::make_pair(ArgRegs[ArgRegIdx++], Arg));
1203       } else {
1204         MemOpChains.push_back(DAG.getStore(Chain, dl, Arg, PtrOff, NULL, 0));
1205         ArgOffset += StackSlotSize;
1206       }
1207       break;
1208     case MVT::v2i64:
1209     case MVT::v2f64:
1210     case MVT::v4f32:
1211     case MVT::v4i32:
1212     case MVT::v8i16:
1213     case MVT::v16i8:
1214       if (ArgRegIdx != NumArgRegs) {
1215         RegsToPass.push_back(std::make_pair(ArgRegs[ArgRegIdx++], Arg));
1216       } else {
1217         MemOpChains.push_back(DAG.getStore(Chain, dl, Arg, PtrOff, NULL, 0));
1218         ArgOffset += StackSlotSize;
1219       }
1220       break;
1221     }
1222   }
1223
1224   // Update number of stack bytes actually used, insert a call sequence start
1225   NumStackBytes = (ArgOffset - SPUFrameInfo::minStackSize());
1226   Chain = DAG.getCALLSEQ_START(Chain, DAG.getIntPtrConstant(NumStackBytes,
1227                                                             true));
1228
1229   if (!MemOpChains.empty()) {
1230     // Adjust the stack pointer for the stack arguments.
1231     Chain = DAG.getNode(ISD::TokenFactor, dl, MVT::Other,
1232                         &MemOpChains[0], MemOpChains.size());
1233   }
1234
1235   // Build a sequence of copy-to-reg nodes chained together with token chain
1236   // and flag operands which copy the outgoing args into the appropriate regs.
1237   SDValue InFlag;
1238   for (unsigned i = 0, e = RegsToPass.size(); i != e; ++i) {
1239     Chain = DAG.getCopyToReg(Chain, dl, RegsToPass[i].first,
1240                              RegsToPass[i].second, InFlag);
1241     InFlag = Chain.getValue(1);
1242   }
1243
1244   SmallVector<SDValue, 8> Ops;
1245   unsigned CallOpc = SPUISD::CALL;
1246
1247   // If the callee is a GlobalAddress/ExternalSymbol node (quite common, every
1248   // direct call is) turn it into a TargetGlobalAddress/TargetExternalSymbol
1249   // node so that legalize doesn't hack it.
1250   if (GlobalAddressSDNode *G = dyn_cast<GlobalAddressSDNode>(Callee)) {
1251     GlobalValue *GV = G->getGlobal();
1252     MVT CalleeVT = Callee.getValueType();
1253     SDValue Zero = DAG.getConstant(0, PtrVT);
1254     SDValue GA = DAG.getTargetGlobalAddress(GV, CalleeVT);
1255
1256     if (!ST->usingLargeMem()) {
1257       // Turn calls to targets that are defined (i.e., have bodies) into BRSL
1258       // style calls, otherwise, external symbols are BRASL calls. This assumes
1259       // that declared/defined symbols are in the same compilation unit and can
1260       // be reached through PC-relative jumps.
1261       //
1262       // NOTE:
1263       // This may be an unsafe assumption for JIT and really large compilation
1264       // units.
1265       if (GV->isDeclaration()) {
1266         Callee = DAG.getNode(SPUISD::AFormAddr, dl, CalleeVT, GA, Zero);
1267       } else {
1268         Callee = DAG.getNode(SPUISD::PCRelAddr, dl, CalleeVT, GA, Zero);
1269       }
1270     } else {
1271       // "Large memory" mode: Turn all calls into indirect calls with a X-form
1272       // address pairs:
1273       Callee = DAG.getNode(SPUISD::IndirectAddr, dl, PtrVT, GA, Zero);
1274     }
1275   } else if (ExternalSymbolSDNode *S = dyn_cast<ExternalSymbolSDNode>(Callee)) {
1276     MVT CalleeVT = Callee.getValueType();
1277     SDValue Zero = DAG.getConstant(0, PtrVT);
1278     SDValue ExtSym = DAG.getTargetExternalSymbol(S->getSymbol(),
1279         Callee.getValueType());
1280
1281     if (!ST->usingLargeMem()) {
1282       Callee = DAG.getNode(SPUISD::AFormAddr, dl, CalleeVT, ExtSym, Zero);
1283     } else {
1284       Callee = DAG.getNode(SPUISD::IndirectAddr, dl, PtrVT, ExtSym, Zero);
1285     }
1286   } else if (SDNode *Dest = isLSAAddress(Callee, DAG)) {
1287     // If this is an absolute destination address that appears to be a legal
1288     // local store address, use the munged value.
1289     Callee = SDValue(Dest, 0);
1290   }
1291
1292   Ops.push_back(Chain);
1293   Ops.push_back(Callee);
1294
1295   // Add argument registers to the end of the list so that they are known live
1296   // into the call.
1297   for (unsigned i = 0, e = RegsToPass.size(); i != e; ++i)
1298     Ops.push_back(DAG.getRegister(RegsToPass[i].first,
1299                                   RegsToPass[i].second.getValueType()));
1300
1301   if (InFlag.getNode())
1302     Ops.push_back(InFlag);
1303   // Returns a chain and a flag for retval copy to use.
1304   Chain = DAG.getNode(CallOpc, dl, DAG.getVTList(MVT::Other, MVT::Flag),
1305                       &Ops[0], Ops.size());
1306   InFlag = Chain.getValue(1);
1307
1308   Chain = DAG.getCALLSEQ_END(Chain, DAG.getIntPtrConstant(NumStackBytes, true),
1309                              DAG.getIntPtrConstant(0, true), InFlag);
1310   if (!Ins.empty())
1311     InFlag = Chain.getValue(1);
1312
1313   // If the function returns void, just return the chain.
1314   if (Ins.empty())
1315     return Chain;
1316
1317   // If the call has results, copy the values out of the ret val registers.
1318   switch (Ins[0].VT.getSimpleVT()) {
1319   default: llvm_unreachable("Unexpected ret value!");
1320   case MVT::Other: break;
1321   case MVT::i32:
1322     if (Ins.size() > 1 && Ins[1].VT == MVT::i32) {
1323       Chain = DAG.getCopyFromReg(Chain, dl, SPU::R4,
1324                                  MVT::i32, InFlag).getValue(1);
1325       InVals.push_back(Chain.getValue(0));
1326       Chain = DAG.getCopyFromReg(Chain, dl, SPU::R3, MVT::i32,
1327                                  Chain.getValue(2)).getValue(1);
1328       InVals.push_back(Chain.getValue(0));
1329     } else {
1330       Chain = DAG.getCopyFromReg(Chain, dl, SPU::R3, MVT::i32,
1331                                  InFlag).getValue(1);
1332       InVals.push_back(Chain.getValue(0));
1333     }
1334     break;
1335   case MVT::i64:
1336     Chain = DAG.getCopyFromReg(Chain, dl, SPU::R3, MVT::i64,
1337                                InFlag).getValue(1);
1338     InVals.push_back(Chain.getValue(0));
1339     break;
1340   case MVT::i128:
1341     Chain = DAG.getCopyFromReg(Chain, dl, SPU::R3, MVT::i128,
1342                                InFlag).getValue(1);
1343     InVals.push_back(Chain.getValue(0));
1344     break;
1345   case MVT::f32:
1346   case MVT::f64:
1347     Chain = DAG.getCopyFromReg(Chain, dl, SPU::R3, Ins[0].VT,
1348                                InFlag).getValue(1);
1349     InVals.push_back(Chain.getValue(0));
1350     break;
1351   case MVT::v2f64:
1352   case MVT::v2i64:
1353   case MVT::v4f32:
1354   case MVT::v4i32:
1355   case MVT::v8i16:
1356   case MVT::v16i8:
1357     Chain = DAG.getCopyFromReg(Chain, dl, SPU::R3, Ins[0].VT,
1358                                    InFlag).getValue(1);
1359     InVals.push_back(Chain.getValue(0));
1360     break;
1361   }
1362
1363   return Chain;
1364 }
1365
1366 SDValue
1367 SPUTargetLowering::LowerReturn(SDValue Chain,
1368                                unsigned CallConv, bool isVarArg,
1369                                const SmallVectorImpl<ISD::OutputArg> &Outs,
1370                                DebugLoc dl, SelectionDAG &DAG) {
1371
1372   SmallVector<CCValAssign, 16> RVLocs;
1373   CCState CCInfo(CallConv, isVarArg, getTargetMachine(),
1374                  RVLocs, *DAG.getContext());
1375   CCInfo.AnalyzeReturn(Outs, RetCC_SPU);
1376
1377   // If this is the first return lowered for this function, add the regs to the
1378   // liveout set for the function.
1379   if (DAG.getMachineFunction().getRegInfo().liveout_empty()) {
1380     for (unsigned i = 0; i != RVLocs.size(); ++i)
1381       DAG.getMachineFunction().getRegInfo().addLiveOut(RVLocs[i].getLocReg());
1382   }
1383
1384   SDValue Flag;
1385
1386   // Copy the result values into the output registers.
1387   for (unsigned i = 0; i != RVLocs.size(); ++i) {
1388     CCValAssign &VA = RVLocs[i];
1389     assert(VA.isRegLoc() && "Can only return in registers!");
1390     Chain = DAG.getCopyToReg(Chain, dl, VA.getLocReg(),
1391                              Outs[i].Val, Flag);
1392     Flag = Chain.getValue(1);
1393   }
1394
1395   if (Flag.getNode())
1396     return DAG.getNode(SPUISD::RET_FLAG, dl, MVT::Other, Chain, Flag);
1397   else
1398     return DAG.getNode(SPUISD::RET_FLAG, dl, MVT::Other, Chain);
1399 }
1400
1401
1402 //===----------------------------------------------------------------------===//
1403 // Vector related lowering:
1404 //===----------------------------------------------------------------------===//
1405
1406 static ConstantSDNode *
1407 getVecImm(SDNode *N) {
1408   SDValue OpVal(0, 0);
1409
1410   // Check to see if this buildvec has a single non-undef value in its elements.
1411   for (unsigned i = 0, e = N->getNumOperands(); i != e; ++i) {
1412     if (N->getOperand(i).getOpcode() == ISD::UNDEF) continue;
1413     if (OpVal.getNode() == 0)
1414       OpVal = N->getOperand(i);
1415     else if (OpVal != N->getOperand(i))
1416       return 0;
1417   }
1418
1419   if (OpVal.getNode() != 0) {
1420     if (ConstantSDNode *CN = dyn_cast<ConstantSDNode>(OpVal)) {
1421       return CN;
1422     }
1423   }
1424
1425   return 0;
1426 }
1427
1428 /// get_vec_i18imm - Test if this vector is a vector filled with the same value
1429 /// and the value fits into an unsigned 18-bit constant, and if so, return the
1430 /// constant
1431 SDValue SPU::get_vec_u18imm(SDNode *N, SelectionDAG &DAG,
1432                               MVT ValueType) {
1433   if (ConstantSDNode *CN = getVecImm(N)) {
1434     uint64_t Value = CN->getZExtValue();
1435     if (ValueType == MVT::i64) {
1436       uint64_t UValue = CN->getZExtValue();
1437       uint32_t upper = uint32_t(UValue >> 32);
1438       uint32_t lower = uint32_t(UValue);
1439       if (upper != lower)
1440         return SDValue();
1441       Value = Value >> 32;
1442     }
1443     if (Value <= 0x3ffff)
1444       return DAG.getTargetConstant(Value, ValueType);
1445   }
1446
1447   return SDValue();
1448 }
1449
1450 /// get_vec_i16imm - Test if this vector is a vector filled with the same value
1451 /// and the value fits into a signed 16-bit constant, and if so, return the
1452 /// constant
1453 SDValue SPU::get_vec_i16imm(SDNode *N, SelectionDAG &DAG,
1454                               MVT ValueType) {
1455   if (ConstantSDNode *CN = getVecImm(N)) {
1456     int64_t Value = CN->getSExtValue();
1457     if (ValueType == MVT::i64) {
1458       uint64_t UValue = CN->getZExtValue();
1459       uint32_t upper = uint32_t(UValue >> 32);
1460       uint32_t lower = uint32_t(UValue);
1461       if (upper != lower)
1462         return SDValue();
1463       Value = Value >> 32;
1464     }
1465     if (Value >= -(1 << 15) && Value <= ((1 << 15) - 1)) {
1466       return DAG.getTargetConstant(Value, ValueType);
1467     }
1468   }
1469
1470   return SDValue();
1471 }
1472
1473 /// get_vec_i10imm - Test if this vector is a vector filled with the same value
1474 /// and the value fits into a signed 10-bit constant, and if so, return the
1475 /// constant
1476 SDValue SPU::get_vec_i10imm(SDNode *N, SelectionDAG &DAG,
1477                               MVT ValueType) {
1478   if (ConstantSDNode *CN = getVecImm(N)) {
1479     int64_t Value = CN->getSExtValue();
1480     if (ValueType == MVT::i64) {
1481       uint64_t UValue = CN->getZExtValue();
1482       uint32_t upper = uint32_t(UValue >> 32);
1483       uint32_t lower = uint32_t(UValue);
1484       if (upper != lower)
1485         return SDValue();
1486       Value = Value >> 32;
1487     }
1488     if (isS10Constant(Value))
1489       return DAG.getTargetConstant(Value, ValueType);
1490   }
1491
1492   return SDValue();
1493 }
1494
1495 /// get_vec_i8imm - Test if this vector is a vector filled with the same value
1496 /// and the value fits into a signed 8-bit constant, and if so, return the
1497 /// constant.
1498 ///
1499 /// @note: The incoming vector is v16i8 because that's the only way we can load
1500 /// constant vectors. Thus, we test to see if the upper and lower bytes are the
1501 /// same value.
1502 SDValue SPU::get_vec_i8imm(SDNode *N, SelectionDAG &DAG,
1503                              MVT ValueType) {
1504   if (ConstantSDNode *CN = getVecImm(N)) {
1505     int Value = (int) CN->getZExtValue();
1506     if (ValueType == MVT::i16
1507         && Value <= 0xffff                 /* truncated from uint64_t */
1508         && ((short) Value >> 8) == ((short) Value & 0xff))
1509       return DAG.getTargetConstant(Value & 0xff, ValueType);
1510     else if (ValueType == MVT::i8
1511              && (Value & 0xff) == Value)
1512       return DAG.getTargetConstant(Value, ValueType);
1513   }
1514
1515   return SDValue();
1516 }
1517
1518 /// get_ILHUvec_imm - Test if this vector is a vector filled with the same value
1519 /// and the value fits into a signed 16-bit constant, and if so, return the
1520 /// constant
1521 SDValue SPU::get_ILHUvec_imm(SDNode *N, SelectionDAG &DAG,
1522                                MVT ValueType) {
1523   if (ConstantSDNode *CN = getVecImm(N)) {
1524     uint64_t Value = CN->getZExtValue();
1525     if ((ValueType == MVT::i32
1526           && ((unsigned) Value & 0xffff0000) == (unsigned) Value)
1527         || (ValueType == MVT::i64 && (Value & 0xffff0000) == Value))
1528       return DAG.getTargetConstant(Value >> 16, ValueType);
1529   }
1530
1531   return SDValue();
1532 }
1533
1534 /// get_v4i32_imm - Catch-all for general 32-bit constant vectors
1535 SDValue SPU::get_v4i32_imm(SDNode *N, SelectionDAG &DAG) {
1536   if (ConstantSDNode *CN = getVecImm(N)) {
1537     return DAG.getTargetConstant((unsigned) CN->getZExtValue(), MVT::i32);
1538   }
1539
1540   return SDValue();
1541 }
1542
1543 /// get_v4i32_imm - Catch-all for general 64-bit constant vectors
1544 SDValue SPU::get_v2i64_imm(SDNode *N, SelectionDAG &DAG) {
1545   if (ConstantSDNode *CN = getVecImm(N)) {
1546     return DAG.getTargetConstant((unsigned) CN->getZExtValue(), MVT::i64);
1547   }
1548
1549   return SDValue();
1550 }
1551
1552 //! Lower a BUILD_VECTOR instruction creatively:
1553 static SDValue
1554 LowerBUILD_VECTOR(SDValue Op, SelectionDAG &DAG) {
1555   MVT VT = Op.getValueType();
1556   MVT EltVT = VT.getVectorElementType();
1557   DebugLoc dl = Op.getDebugLoc();
1558   BuildVectorSDNode *BCN = dyn_cast<BuildVectorSDNode>(Op.getNode());
1559   assert(BCN != 0 && "Expected BuildVectorSDNode in SPU LowerBUILD_VECTOR");
1560   unsigned minSplatBits = EltVT.getSizeInBits();
1561
1562   if (minSplatBits < 16)
1563     minSplatBits = 16;
1564
1565   APInt APSplatBits, APSplatUndef;
1566   unsigned SplatBitSize;
1567   bool HasAnyUndefs;
1568
1569   if (!BCN->isConstantSplat(APSplatBits, APSplatUndef, SplatBitSize,
1570                             HasAnyUndefs, minSplatBits)
1571       || minSplatBits < SplatBitSize)
1572     return SDValue();   // Wasn't a constant vector or splat exceeded min
1573
1574   uint64_t SplatBits = APSplatBits.getZExtValue();
1575
1576   switch (VT.getSimpleVT()) {
1577   default: {
1578     std::string msg;
1579     raw_string_ostream Msg(msg);
1580     Msg << "CellSPU: Unhandled VT in LowerBUILD_VECTOR, VT = "
1581          << VT.getMVTString();
1582     llvm_report_error(Msg.str());
1583     /*NOTREACHED*/
1584   }
1585   case MVT::v4f32: {
1586     uint32_t Value32 = uint32_t(SplatBits);
1587     assert(SplatBitSize == 32
1588            && "LowerBUILD_VECTOR: Unexpected floating point vector element.");
1589     // NOTE: pretend the constant is an integer. LLVM won't load FP constants
1590     SDValue T = DAG.getConstant(Value32, MVT::i32);
1591     return DAG.getNode(ISD::BIT_CONVERT, dl, MVT::v4f32,
1592                        DAG.getNode(ISD::BUILD_VECTOR, dl, MVT::v4i32, T,T,T,T));
1593     break;
1594   }
1595   case MVT::v2f64: {
1596     uint64_t f64val = uint64_t(SplatBits);
1597     assert(SplatBitSize == 64
1598            && "LowerBUILD_VECTOR: 64-bit float vector size > 8 bytes.");
1599     // NOTE: pretend the constant is an integer. LLVM won't load FP constants
1600     SDValue T = DAG.getConstant(f64val, MVT::i64);
1601     return DAG.getNode(ISD::BIT_CONVERT, dl, MVT::v2f64,
1602                        DAG.getNode(ISD::BUILD_VECTOR, dl, MVT::v2i64, T, T));
1603     break;
1604   }
1605   case MVT::v16i8: {
1606    // 8-bit constants have to be expanded to 16-bits
1607    unsigned short Value16 = SplatBits /* | (SplatBits << 8) */;
1608    SmallVector<SDValue, 8> Ops;
1609
1610    Ops.assign(8, DAG.getConstant(Value16, MVT::i16));
1611    return DAG.getNode(ISD::BIT_CONVERT, dl, VT,
1612                       DAG.getNode(ISD::BUILD_VECTOR, dl, MVT::v8i16, &Ops[0], Ops.size()));
1613   }
1614   case MVT::v8i16: {
1615     unsigned short Value16 = SplatBits;
1616     SDValue T = DAG.getConstant(Value16, EltVT);
1617     SmallVector<SDValue, 8> Ops;
1618
1619     Ops.assign(8, T);
1620     return DAG.getNode(ISD::BUILD_VECTOR, dl, VT, &Ops[0], Ops.size());
1621   }
1622   case MVT::v4i32: {
1623     SDValue T = DAG.getConstant(unsigned(SplatBits), VT.getVectorElementType());
1624     return DAG.getNode(ISD::BUILD_VECTOR, dl, VT, T, T, T, T);
1625   }
1626   case MVT::v2i32: {
1627     SDValue T = DAG.getConstant(unsigned(SplatBits), VT.getVectorElementType());
1628     return DAG.getNode(ISD::BUILD_VECTOR, dl, VT, T, T);
1629   }
1630   case MVT::v2i64: {
1631     return SPU::LowerV2I64Splat(VT, DAG, SplatBits, dl);
1632   }
1633   }
1634
1635   return SDValue();
1636 }
1637
1638 /*!
1639  */
1640 SDValue
1641 SPU::LowerV2I64Splat(MVT OpVT, SelectionDAG& DAG, uint64_t SplatVal,
1642                      DebugLoc dl) {
1643   uint32_t upper = uint32_t(SplatVal >> 32);
1644   uint32_t lower = uint32_t(SplatVal);
1645
1646   if (upper == lower) {
1647     // Magic constant that can be matched by IL, ILA, et. al.
1648     SDValue Val = DAG.getTargetConstant(upper, MVT::i32);
1649     return DAG.getNode(ISD::BIT_CONVERT, dl, OpVT,
1650                        DAG.getNode(ISD::BUILD_VECTOR, dl, MVT::v4i32,
1651                                    Val, Val, Val, Val));
1652   } else {
1653     bool upper_special, lower_special;
1654
1655     // NOTE: This code creates common-case shuffle masks that can be easily
1656     // detected as common expressions. It is not attempting to create highly
1657     // specialized masks to replace any and all 0's, 0xff's and 0x80's.
1658
1659     // Detect if the upper or lower half is a special shuffle mask pattern:
1660     upper_special = (upper == 0 || upper == 0xffffffff || upper == 0x80000000);
1661     lower_special = (lower == 0 || lower == 0xffffffff || lower == 0x80000000);
1662
1663     // Both upper and lower are special, lower to a constant pool load:
1664     if (lower_special && upper_special) {
1665       SDValue SplatValCN = DAG.getConstant(SplatVal, MVT::i64);
1666       return DAG.getNode(ISD::BUILD_VECTOR, dl, MVT::v2i64,
1667                          SplatValCN, SplatValCN);
1668     }
1669
1670     SDValue LO32;
1671     SDValue HI32;
1672     SmallVector<SDValue, 16> ShufBytes;
1673     SDValue Result;
1674
1675     // Create lower vector if not a special pattern
1676     if (!lower_special) {
1677       SDValue LO32C = DAG.getConstant(lower, MVT::i32);
1678       LO32 = DAG.getNode(ISD::BIT_CONVERT, dl, OpVT,
1679                          DAG.getNode(ISD::BUILD_VECTOR, dl, MVT::v4i32,
1680                                      LO32C, LO32C, LO32C, LO32C));
1681     }
1682
1683     // Create upper vector if not a special pattern
1684     if (!upper_special) {
1685       SDValue HI32C = DAG.getConstant(upper, MVT::i32);
1686       HI32 = DAG.getNode(ISD::BIT_CONVERT, dl, OpVT,
1687                          DAG.getNode(ISD::BUILD_VECTOR, dl, MVT::v4i32,
1688                                      HI32C, HI32C, HI32C, HI32C));
1689     }
1690
1691     // If either upper or lower are special, then the two input operands are
1692     // the same (basically, one of them is a "don't care")
1693     if (lower_special)
1694       LO32 = HI32;
1695     if (upper_special)
1696       HI32 = LO32;
1697
1698     for (int i = 0; i < 4; ++i) {
1699       uint64_t val = 0;
1700       for (int j = 0; j < 4; ++j) {
1701         SDValue V;
1702         bool process_upper, process_lower;
1703         val <<= 8;
1704         process_upper = (upper_special && (i & 1) == 0);
1705         process_lower = (lower_special && (i & 1) == 1);
1706
1707         if (process_upper || process_lower) {
1708           if ((process_upper && upper == 0)
1709                   || (process_lower && lower == 0))
1710             val |= 0x80;
1711           else if ((process_upper && upper == 0xffffffff)
1712                   || (process_lower && lower == 0xffffffff))
1713             val |= 0xc0;
1714           else if ((process_upper && upper == 0x80000000)
1715                   || (process_lower && lower == 0x80000000))
1716             val |= (j == 0 ? 0xe0 : 0x80);
1717         } else
1718           val |= i * 4 + j + ((i & 1) * 16);
1719       }
1720
1721       ShufBytes.push_back(DAG.getConstant(val, MVT::i32));
1722     }
1723
1724     return DAG.getNode(SPUISD::SHUFB, dl, OpVT, HI32, LO32,
1725                        DAG.getNode(ISD::BUILD_VECTOR, dl, MVT::v4i32,
1726                                    &ShufBytes[0], ShufBytes.size()));
1727   }
1728 }
1729
1730 /// LowerVECTOR_SHUFFLE - Lower a vector shuffle (V1, V2, V3) to something on
1731 /// which the Cell can operate. The code inspects V3 to ascertain whether the
1732 /// permutation vector, V3, is monotonically increasing with one "exception"
1733 /// element, e.g., (0, 1, _, 3). If this is the case, then generate a
1734 /// SHUFFLE_MASK synthetic instruction. Otherwise, spill V3 to the constant pool.
1735 /// In either case, the net result is going to eventually invoke SHUFB to
1736 /// permute/shuffle the bytes from V1 and V2.
1737 /// \note
1738 /// SHUFFLE_MASK is eventually selected as one of the C*D instructions, generate
1739 /// control word for byte/halfword/word insertion. This takes care of a single
1740 /// element move from V2 into V1.
1741 /// \note
1742 /// SPUISD::SHUFB is eventually selected as Cell's <i>shufb</i> instructions.
1743 static SDValue LowerVECTOR_SHUFFLE(SDValue Op, SelectionDAG &DAG) {
1744   const ShuffleVectorSDNode *SVN = cast<ShuffleVectorSDNode>(Op);
1745   SDValue V1 = Op.getOperand(0);
1746   SDValue V2 = Op.getOperand(1);
1747   DebugLoc dl = Op.getDebugLoc();
1748
1749   if (V2.getOpcode() == ISD::UNDEF) V2 = V1;
1750
1751   // If we have a single element being moved from V1 to V2, this can be handled
1752   // using the C*[DX] compute mask instructions, but the vector elements have
1753   // to be monotonically increasing with one exception element.
1754   MVT VecVT = V1.getValueType();
1755   MVT EltVT = VecVT.getVectorElementType();
1756   unsigned EltsFromV2 = 0;
1757   unsigned V2Elt = 0;
1758   unsigned V2EltIdx0 = 0;
1759   unsigned CurrElt = 0;
1760   unsigned MaxElts = VecVT.getVectorNumElements();
1761   unsigned PrevElt = 0;
1762   unsigned V0Elt = 0;
1763   bool monotonic = true;
1764   bool rotate = true;
1765
1766   if (EltVT == MVT::i8) {
1767     V2EltIdx0 = 16;
1768   } else if (EltVT == MVT::i16) {
1769     V2EltIdx0 = 8;
1770   } else if (EltVT == MVT::i32 || EltVT == MVT::f32) {
1771     V2EltIdx0 = 4;
1772   } else if (EltVT == MVT::i64 || EltVT == MVT::f64) {
1773     V2EltIdx0 = 2;
1774   } else
1775     llvm_unreachable("Unhandled vector type in LowerVECTOR_SHUFFLE");
1776
1777   for (unsigned i = 0; i != MaxElts; ++i) {
1778     if (SVN->getMaskElt(i) < 0)
1779       continue;
1780     
1781     unsigned SrcElt = SVN->getMaskElt(i);
1782
1783     if (monotonic) {
1784       if (SrcElt >= V2EltIdx0) {
1785         if (1 >= (++EltsFromV2)) {
1786           V2Elt = (V2EltIdx0 - SrcElt) << 2;
1787         }
1788       } else if (CurrElt != SrcElt) {
1789         monotonic = false;
1790       }
1791
1792       ++CurrElt;
1793     }
1794
1795     if (rotate) {
1796       if (PrevElt > 0 && SrcElt < MaxElts) {
1797         if ((PrevElt == SrcElt - 1)
1798             || (PrevElt == MaxElts - 1 && SrcElt == 0)) {
1799           PrevElt = SrcElt;
1800           if (SrcElt == 0)
1801             V0Elt = i;
1802         } else {
1803           rotate = false;
1804         }
1805       } else if (PrevElt == 0) {
1806         // First time through, need to keep track of previous element
1807         PrevElt = SrcElt;
1808       } else {
1809         // This isn't a rotation, takes elements from vector 2
1810         rotate = false;
1811       }
1812     }
1813   }
1814
1815   if (EltsFromV2 == 1 && monotonic) {
1816     // Compute mask and shuffle
1817     MachineFunction &MF = DAG.getMachineFunction();
1818     MachineRegisterInfo &RegInfo = MF.getRegInfo();
1819     unsigned VReg = RegInfo.createVirtualRegister(&SPU::R32CRegClass);
1820     MVT PtrVT = DAG.getTargetLoweringInfo().getPointerTy();
1821     // Initialize temporary register to 0
1822     SDValue InitTempReg =
1823       DAG.getCopyToReg(DAG.getEntryNode(), dl, VReg, DAG.getConstant(0, PtrVT));
1824     // Copy register's contents as index in SHUFFLE_MASK:
1825     SDValue ShufMaskOp =
1826       DAG.getNode(SPUISD::SHUFFLE_MASK, dl, MVT::v4i32,
1827                   DAG.getTargetConstant(V2Elt, MVT::i32),
1828                   DAG.getCopyFromReg(InitTempReg, dl, VReg, PtrVT));
1829     // Use shuffle mask in SHUFB synthetic instruction:
1830     return DAG.getNode(SPUISD::SHUFB, dl, V1.getValueType(), V2, V1,
1831                        ShufMaskOp);
1832   } else if (rotate) {
1833     int rotamt = (MaxElts - V0Elt) * EltVT.getSizeInBits()/8;
1834
1835     return DAG.getNode(SPUISD::ROTBYTES_LEFT, dl, V1.getValueType(),
1836                        V1, DAG.getConstant(rotamt, MVT::i16));
1837   } else {
1838    // Convert the SHUFFLE_VECTOR mask's input element units to the
1839    // actual bytes.
1840     unsigned BytesPerElement = EltVT.getSizeInBits()/8;
1841
1842     SmallVector<SDValue, 16> ResultMask;
1843     for (unsigned i = 0, e = MaxElts; i != e; ++i) {
1844       unsigned SrcElt = SVN->getMaskElt(i) < 0 ? 0 : SVN->getMaskElt(i);
1845
1846       for (unsigned j = 0; j < BytesPerElement; ++j)
1847         ResultMask.push_back(DAG.getConstant(SrcElt*BytesPerElement+j,MVT::i8));
1848     }
1849
1850     SDValue VPermMask = DAG.getNode(ISD::BUILD_VECTOR, dl, MVT::v16i8,
1851                                     &ResultMask[0], ResultMask.size());
1852     return DAG.getNode(SPUISD::SHUFB, dl, V1.getValueType(), V1, V2, VPermMask);
1853   }
1854 }
1855
1856 static SDValue LowerSCALAR_TO_VECTOR(SDValue Op, SelectionDAG &DAG) {
1857   SDValue Op0 = Op.getOperand(0);                     // Op0 = the scalar
1858   DebugLoc dl = Op.getDebugLoc();
1859
1860   if (Op0.getNode()->getOpcode() == ISD::Constant) {
1861     // For a constant, build the appropriate constant vector, which will
1862     // eventually simplify to a vector register load.
1863
1864     ConstantSDNode *CN = cast<ConstantSDNode>(Op0.getNode());
1865     SmallVector<SDValue, 16> ConstVecValues;
1866     MVT VT;
1867     size_t n_copies;
1868
1869     // Create a constant vector:
1870     switch (Op.getValueType().getSimpleVT()) {
1871     default: llvm_unreachable("Unexpected constant value type in "
1872                               "LowerSCALAR_TO_VECTOR");
1873     case MVT::v16i8: n_copies = 16; VT = MVT::i8; break;
1874     case MVT::v8i16: n_copies = 8; VT = MVT::i16; break;
1875     case MVT::v4i32: n_copies = 4; VT = MVT::i32; break;
1876     case MVT::v4f32: n_copies = 4; VT = MVT::f32; break;
1877     case MVT::v2i64: n_copies = 2; VT = MVT::i64; break;
1878     case MVT::v2f64: n_copies = 2; VT = MVT::f64; break;
1879     }
1880
1881     SDValue CValue = DAG.getConstant(CN->getZExtValue(), VT);
1882     for (size_t j = 0; j < n_copies; ++j)
1883       ConstVecValues.push_back(CValue);
1884
1885     return DAG.getNode(ISD::BUILD_VECTOR, dl, Op.getValueType(),
1886                        &ConstVecValues[0], ConstVecValues.size());
1887   } else {
1888     // Otherwise, copy the value from one register to another:
1889     switch (Op0.getValueType().getSimpleVT()) {
1890     default: llvm_unreachable("Unexpected value type in LowerSCALAR_TO_VECTOR");
1891     case MVT::i8:
1892     case MVT::i16:
1893     case MVT::i32:
1894     case MVT::i64:
1895     case MVT::f32:
1896     case MVT::f64:
1897       return DAG.getNode(SPUISD::PREFSLOT2VEC, dl, Op.getValueType(), Op0, Op0);
1898     }
1899   }
1900
1901   return SDValue();
1902 }
1903
1904 static SDValue LowerEXTRACT_VECTOR_ELT(SDValue Op, SelectionDAG &DAG) {
1905   MVT VT = Op.getValueType();
1906   SDValue N = Op.getOperand(0);
1907   SDValue Elt = Op.getOperand(1);
1908   DebugLoc dl = Op.getDebugLoc();
1909   SDValue retval;
1910
1911   if (ConstantSDNode *C = dyn_cast<ConstantSDNode>(Elt)) {
1912     // Constant argument:
1913     int EltNo = (int) C->getZExtValue();
1914
1915     // sanity checks:
1916     if (VT == MVT::i8 && EltNo >= 16)
1917       llvm_unreachable("SPU LowerEXTRACT_VECTOR_ELT: i8 extraction slot > 15");
1918     else if (VT == MVT::i16 && EltNo >= 8)
1919       llvm_unreachable("SPU LowerEXTRACT_VECTOR_ELT: i16 extraction slot > 7");
1920     else if (VT == MVT::i32 && EltNo >= 4)
1921       llvm_unreachable("SPU LowerEXTRACT_VECTOR_ELT: i32 extraction slot > 4");
1922     else if (VT == MVT::i64 && EltNo >= 2)
1923       llvm_unreachable("SPU LowerEXTRACT_VECTOR_ELT: i64 extraction slot > 2");
1924
1925     if (EltNo == 0 && (VT == MVT::i32 || VT == MVT::i64)) {
1926       // i32 and i64: Element 0 is the preferred slot
1927       return DAG.getNode(SPUISD::VEC2PREFSLOT, dl, VT, N);
1928     }
1929
1930     // Need to generate shuffle mask and extract:
1931     int prefslot_begin = -1, prefslot_end = -1;
1932     int elt_byte = EltNo * VT.getSizeInBits() / 8;
1933
1934     switch (VT.getSimpleVT()) {
1935     default:
1936       assert(false && "Invalid value type!");
1937     case MVT::i8: {
1938       prefslot_begin = prefslot_end = 3;
1939       break;
1940     }
1941     case MVT::i16: {
1942       prefslot_begin = 2; prefslot_end = 3;
1943       break;
1944     }
1945     case MVT::i32:
1946     case MVT::f32: {
1947       prefslot_begin = 0; prefslot_end = 3;
1948       break;
1949     }
1950     case MVT::i64:
1951     case MVT::f64: {
1952       prefslot_begin = 0; prefslot_end = 7;
1953       break;
1954     }
1955     }
1956
1957     assert(prefslot_begin != -1 && prefslot_end != -1 &&
1958            "LowerEXTRACT_VECTOR_ELT: preferred slots uninitialized");
1959
1960     unsigned int ShufBytes[16];
1961     for (int i = 0; i < 16; ++i) {
1962       // zero fill uppper part of preferred slot, don't care about the
1963       // other slots:
1964       unsigned int mask_val;
1965       if (i <= prefslot_end) {
1966         mask_val =
1967           ((i < prefslot_begin)
1968            ? 0x80
1969            : elt_byte + (i - prefslot_begin));
1970
1971         ShufBytes[i] = mask_val;
1972       } else
1973         ShufBytes[i] = ShufBytes[i % (prefslot_end + 1)];
1974     }
1975
1976     SDValue ShufMask[4];
1977     for (unsigned i = 0; i < sizeof(ShufMask)/sizeof(ShufMask[0]); ++i) {
1978       unsigned bidx = i * 4;
1979       unsigned int bits = ((ShufBytes[bidx] << 24) |
1980                            (ShufBytes[bidx+1] << 16) |
1981                            (ShufBytes[bidx+2] << 8) |
1982                            ShufBytes[bidx+3]);
1983       ShufMask[i] = DAG.getConstant(bits, MVT::i32);
1984     }
1985
1986     SDValue ShufMaskVec =
1987       DAG.getNode(ISD::BUILD_VECTOR, dl, MVT::v4i32,
1988                   &ShufMask[0], sizeof(ShufMask)/sizeof(ShufMask[0]));
1989
1990     retval = DAG.getNode(SPUISD::VEC2PREFSLOT, dl, VT,
1991                          DAG.getNode(SPUISD::SHUFB, dl, N.getValueType(),
1992                                      N, N, ShufMaskVec));
1993   } else {
1994     // Variable index: Rotate the requested element into slot 0, then replicate
1995     // slot 0 across the vector
1996     MVT VecVT = N.getValueType();
1997     if (!VecVT.isSimple() || !VecVT.isVector() || !VecVT.is128BitVector()) {
1998       llvm_report_error("LowerEXTRACT_VECTOR_ELT: Must have a simple, 128-bit"
1999                         "vector type!");
2000     }
2001
2002     // Make life easier by making sure the index is zero-extended to i32
2003     if (Elt.getValueType() != MVT::i32)
2004       Elt = DAG.getNode(ISD::ZERO_EXTEND, dl, MVT::i32, Elt);
2005
2006     // Scale the index to a bit/byte shift quantity
2007     APInt scaleFactor =
2008             APInt(32, uint64_t(16 / N.getValueType().getVectorNumElements()), false);
2009     unsigned scaleShift = scaleFactor.logBase2();
2010     SDValue vecShift;
2011
2012     if (scaleShift > 0) {
2013       // Scale the shift factor:
2014       Elt = DAG.getNode(ISD::SHL, dl, MVT::i32, Elt,
2015                         DAG.getConstant(scaleShift, MVT::i32));
2016     }
2017
2018     vecShift = DAG.getNode(SPUISD::SHLQUAD_L_BYTES, dl, VecVT, N, Elt);
2019
2020     // Replicate the bytes starting at byte 0 across the entire vector (for
2021     // consistency with the notion of a unified register set)
2022     SDValue replicate;
2023
2024     switch (VT.getSimpleVT()) {
2025     default:
2026       llvm_report_error("LowerEXTRACT_VECTOR_ELT(varable): Unhandled vector"
2027                         "type");
2028       /*NOTREACHED*/
2029     case MVT::i8: {
2030       SDValue factor = DAG.getConstant(0x00000000, MVT::i32);
2031       replicate = DAG.getNode(ISD::BUILD_VECTOR, dl, MVT::v4i32,
2032                               factor, factor, factor, factor);
2033       break;
2034     }
2035     case MVT::i16: {
2036       SDValue factor = DAG.getConstant(0x00010001, MVT::i32);
2037       replicate = DAG.getNode(ISD::BUILD_VECTOR, dl, MVT::v4i32,
2038                               factor, factor, factor, factor);
2039       break;
2040     }
2041     case MVT::i32:
2042     case MVT::f32: {
2043       SDValue factor = DAG.getConstant(0x00010203, MVT::i32);
2044       replicate = DAG.getNode(ISD::BUILD_VECTOR, dl, MVT::v4i32,
2045                               factor, factor, factor, factor);
2046       break;
2047     }
2048     case MVT::i64:
2049     case MVT::f64: {
2050       SDValue loFactor = DAG.getConstant(0x00010203, MVT::i32);
2051       SDValue hiFactor = DAG.getConstant(0x04050607, MVT::i32);
2052       replicate = DAG.getNode(ISD::BUILD_VECTOR, dl, MVT::v4i32,
2053                               loFactor, hiFactor, loFactor, hiFactor);
2054       break;
2055     }
2056     }
2057
2058     retval = DAG.getNode(SPUISD::VEC2PREFSLOT, dl, VT,
2059                          DAG.getNode(SPUISD::SHUFB, dl, VecVT,
2060                                      vecShift, vecShift, replicate));
2061   }
2062
2063   return retval;
2064 }
2065
2066 static SDValue LowerINSERT_VECTOR_ELT(SDValue Op, SelectionDAG &DAG) {
2067   SDValue VecOp = Op.getOperand(0);
2068   SDValue ValOp = Op.getOperand(1);
2069   SDValue IdxOp = Op.getOperand(2);
2070   DebugLoc dl = Op.getDebugLoc();
2071   MVT VT = Op.getValueType();
2072
2073   ConstantSDNode *CN = cast<ConstantSDNode>(IdxOp);
2074   assert(CN != 0 && "LowerINSERT_VECTOR_ELT: Index is not constant!");
2075
2076   MVT PtrVT = DAG.getTargetLoweringInfo().getPointerTy();
2077   // Use $sp ($1) because it's always 16-byte aligned and it's available:
2078   SDValue Pointer = DAG.getNode(SPUISD::IndirectAddr, dl, PtrVT,
2079                                 DAG.getRegister(SPU::R1, PtrVT),
2080                                 DAG.getConstant(CN->getSExtValue(), PtrVT));
2081   SDValue ShufMask = DAG.getNode(SPUISD::SHUFFLE_MASK, dl, VT, Pointer);
2082
2083   SDValue result =
2084     DAG.getNode(SPUISD::SHUFB, dl, VT,
2085                 DAG.getNode(ISD::SCALAR_TO_VECTOR, dl, VT, ValOp),
2086                 VecOp,
2087                 DAG.getNode(ISD::BIT_CONVERT, dl, MVT::v4i32, ShufMask));
2088
2089   return result;
2090 }
2091
2092 static SDValue LowerI8Math(SDValue Op, SelectionDAG &DAG, unsigned Opc,
2093                            const TargetLowering &TLI)
2094 {
2095   SDValue N0 = Op.getOperand(0);      // Everything has at least one operand
2096   DebugLoc dl = Op.getDebugLoc();
2097   MVT ShiftVT = TLI.getShiftAmountTy();
2098
2099   assert(Op.getValueType() == MVT::i8);
2100   switch (Opc) {
2101   default:
2102     llvm_unreachable("Unhandled i8 math operator");
2103     /*NOTREACHED*/
2104     break;
2105   case ISD::ADD: {
2106     // 8-bit addition: Promote the arguments up to 16-bits and truncate
2107     // the result:
2108     SDValue N1 = Op.getOperand(1);
2109     N0 = DAG.getNode(ISD::SIGN_EXTEND, dl, MVT::i16, N0);
2110     N1 = DAG.getNode(ISD::SIGN_EXTEND, dl, MVT::i16, N1);
2111     return DAG.getNode(ISD::TRUNCATE, dl, MVT::i8,
2112                        DAG.getNode(Opc, dl, MVT::i16, N0, N1));
2113
2114   }
2115
2116   case ISD::SUB: {
2117     // 8-bit subtraction: Promote the arguments up to 16-bits and truncate
2118     // the result:
2119     SDValue N1 = Op.getOperand(1);
2120     N0 = DAG.getNode(ISD::SIGN_EXTEND, dl, MVT::i16, N0);
2121     N1 = DAG.getNode(ISD::SIGN_EXTEND, dl, MVT::i16, N1);
2122     return DAG.getNode(ISD::TRUNCATE, dl, MVT::i8,
2123                        DAG.getNode(Opc, dl, MVT::i16, N0, N1));
2124   }
2125   case ISD::ROTR:
2126   case ISD::ROTL: {
2127     SDValue N1 = Op.getOperand(1);
2128     MVT N1VT = N1.getValueType();
2129
2130     N0 = DAG.getNode(ISD::ZERO_EXTEND, dl, MVT::i16, N0);
2131     if (!N1VT.bitsEq(ShiftVT)) {
2132       unsigned N1Opc = N1.getValueType().bitsLT(ShiftVT)
2133                        ? ISD::ZERO_EXTEND
2134                        : ISD::TRUNCATE;
2135       N1 = DAG.getNode(N1Opc, dl, ShiftVT, N1);
2136     }
2137
2138     // Replicate lower 8-bits into upper 8:
2139     SDValue ExpandArg =
2140       DAG.getNode(ISD::OR, dl, MVT::i16, N0,
2141                   DAG.getNode(ISD::SHL, dl, MVT::i16,
2142                               N0, DAG.getConstant(8, MVT::i32)));
2143
2144     // Truncate back down to i8
2145     return DAG.getNode(ISD::TRUNCATE, dl, MVT::i8,
2146                        DAG.getNode(Opc, dl, MVT::i16, ExpandArg, N1));
2147   }
2148   case ISD::SRL:
2149   case ISD::SHL: {
2150     SDValue N1 = Op.getOperand(1);
2151     MVT N1VT = N1.getValueType();
2152
2153     N0 = DAG.getNode(ISD::ZERO_EXTEND, dl, MVT::i16, N0);
2154     if (!N1VT.bitsEq(ShiftVT)) {
2155       unsigned N1Opc = ISD::ZERO_EXTEND;
2156
2157       if (N1.getValueType().bitsGT(ShiftVT))
2158         N1Opc = ISD::TRUNCATE;
2159
2160       N1 = DAG.getNode(N1Opc, dl, ShiftVT, N1);
2161     }
2162
2163     return DAG.getNode(ISD::TRUNCATE, dl, MVT::i8,
2164                        DAG.getNode(Opc, dl, MVT::i16, N0, N1));
2165   }
2166   case ISD::SRA: {
2167     SDValue N1 = Op.getOperand(1);
2168     MVT N1VT = N1.getValueType();
2169
2170     N0 = DAG.getNode(ISD::SIGN_EXTEND, dl, MVT::i16, N0);
2171     if (!N1VT.bitsEq(ShiftVT)) {
2172       unsigned N1Opc = ISD::SIGN_EXTEND;
2173
2174       if (N1VT.bitsGT(ShiftVT))
2175         N1Opc = ISD::TRUNCATE;
2176       N1 = DAG.getNode(N1Opc, dl, ShiftVT, N1);
2177     }
2178
2179     return DAG.getNode(ISD::TRUNCATE, dl, MVT::i8,
2180                        DAG.getNode(Opc, dl, MVT::i16, N0, N1));
2181   }
2182   case ISD::MUL: {
2183     SDValue N1 = Op.getOperand(1);
2184
2185     N0 = DAG.getNode(ISD::SIGN_EXTEND, dl, MVT::i16, N0);
2186     N1 = DAG.getNode(ISD::SIGN_EXTEND, dl, MVT::i16, N1);
2187     return DAG.getNode(ISD::TRUNCATE, dl, MVT::i8,
2188                        DAG.getNode(Opc, dl, MVT::i16, N0, N1));
2189     break;
2190   }
2191   }
2192
2193   return SDValue();
2194 }
2195
2196 //! Lower byte immediate operations for v16i8 vectors:
2197 static SDValue
2198 LowerByteImmed(SDValue Op, SelectionDAG &DAG) {
2199   SDValue ConstVec;
2200   SDValue Arg;
2201   MVT VT = Op.getValueType();
2202   DebugLoc dl = Op.getDebugLoc();
2203
2204   ConstVec = Op.getOperand(0);
2205   Arg = Op.getOperand(1);
2206   if (ConstVec.getNode()->getOpcode() != ISD::BUILD_VECTOR) {
2207     if (ConstVec.getNode()->getOpcode() == ISD::BIT_CONVERT) {
2208       ConstVec = ConstVec.getOperand(0);
2209     } else {
2210       ConstVec = Op.getOperand(1);
2211       Arg = Op.getOperand(0);
2212       if (ConstVec.getNode()->getOpcode() == ISD::BIT_CONVERT) {
2213         ConstVec = ConstVec.getOperand(0);
2214       }
2215     }
2216   }
2217
2218   if (ConstVec.getNode()->getOpcode() == ISD::BUILD_VECTOR) {
2219     BuildVectorSDNode *BCN = dyn_cast<BuildVectorSDNode>(ConstVec.getNode());
2220     assert(BCN != 0 && "Expected BuildVectorSDNode in SPU LowerByteImmed");
2221
2222     APInt APSplatBits, APSplatUndef;
2223     unsigned SplatBitSize;
2224     bool HasAnyUndefs;
2225     unsigned minSplatBits = VT.getVectorElementType().getSizeInBits();
2226
2227     if (BCN->isConstantSplat(APSplatBits, APSplatUndef, SplatBitSize,
2228                               HasAnyUndefs, minSplatBits)
2229         && minSplatBits <= SplatBitSize) {
2230       uint64_t SplatBits = APSplatBits.getZExtValue();
2231       SDValue tc = DAG.getTargetConstant(SplatBits & 0xff, MVT::i8);
2232
2233       SmallVector<SDValue, 16> tcVec;
2234       tcVec.assign(16, tc);
2235       return DAG.getNode(Op.getNode()->getOpcode(), dl, VT, Arg,
2236                          DAG.getNode(ISD::BUILD_VECTOR, dl, VT, &tcVec[0], tcVec.size()));
2237     }
2238   }
2239
2240   // These operations (AND, OR, XOR) are legal, they just couldn't be custom
2241   // lowered.  Return the operation, rather than a null SDValue.
2242   return Op;
2243 }
2244
2245 //! Custom lowering for CTPOP (count population)
2246 /*!
2247   Custom lowering code that counts the number ones in the input
2248   operand. SPU has such an instruction, but it counts the number of
2249   ones per byte, which then have to be accumulated.
2250 */
2251 static SDValue LowerCTPOP(SDValue Op, SelectionDAG &DAG) {
2252   MVT VT = Op.getValueType();
2253   MVT vecVT = MVT::getVectorVT(VT, (128 / VT.getSizeInBits()));
2254   DebugLoc dl = Op.getDebugLoc();
2255
2256   switch (VT.getSimpleVT()) {
2257   default:
2258     assert(false && "Invalid value type!");
2259   case MVT::i8: {
2260     SDValue N = Op.getOperand(0);
2261     SDValue Elt0 = DAG.getConstant(0, MVT::i32);
2262
2263     SDValue Promote = DAG.getNode(SPUISD::PREFSLOT2VEC, dl, vecVT, N, N);
2264     SDValue CNTB = DAG.getNode(SPUISD::CNTB, dl, vecVT, Promote);
2265
2266     return DAG.getNode(ISD::EXTRACT_VECTOR_ELT, dl, MVT::i8, CNTB, Elt0);
2267   }
2268
2269   case MVT::i16: {
2270     MachineFunction &MF = DAG.getMachineFunction();
2271     MachineRegisterInfo &RegInfo = MF.getRegInfo();
2272
2273     unsigned CNTB_reg = RegInfo.createVirtualRegister(&SPU::R16CRegClass);
2274
2275     SDValue N = Op.getOperand(0);
2276     SDValue Elt0 = DAG.getConstant(0, MVT::i16);
2277     SDValue Mask0 = DAG.getConstant(0x0f, MVT::i16);
2278     SDValue Shift1 = DAG.getConstant(8, MVT::i32);
2279
2280     SDValue Promote = DAG.getNode(SPUISD::PREFSLOT2VEC, dl, vecVT, N, N);
2281     SDValue CNTB = DAG.getNode(SPUISD::CNTB, dl, vecVT, Promote);
2282
2283     // CNTB_result becomes the chain to which all of the virtual registers
2284     // CNTB_reg, SUM1_reg become associated:
2285     SDValue CNTB_result =
2286       DAG.getNode(ISD::EXTRACT_VECTOR_ELT, dl, MVT::i16, CNTB, Elt0);
2287
2288     SDValue CNTB_rescopy =
2289       DAG.getCopyToReg(CNTB_result, dl, CNTB_reg, CNTB_result);
2290
2291     SDValue Tmp1 = DAG.getCopyFromReg(CNTB_rescopy, dl, CNTB_reg, MVT::i16);
2292
2293     return DAG.getNode(ISD::AND, dl, MVT::i16,
2294                        DAG.getNode(ISD::ADD, dl, MVT::i16,
2295                                    DAG.getNode(ISD::SRL, dl, MVT::i16,
2296                                                Tmp1, Shift1),
2297                                    Tmp1),
2298                        Mask0);
2299   }
2300
2301   case MVT::i32: {
2302     MachineFunction &MF = DAG.getMachineFunction();
2303     MachineRegisterInfo &RegInfo = MF.getRegInfo();
2304
2305     unsigned CNTB_reg = RegInfo.createVirtualRegister(&SPU::R32CRegClass);
2306     unsigned SUM1_reg = RegInfo.createVirtualRegister(&SPU::R32CRegClass);
2307
2308     SDValue N = Op.getOperand(0);
2309     SDValue Elt0 = DAG.getConstant(0, MVT::i32);
2310     SDValue Mask0 = DAG.getConstant(0xff, MVT::i32);
2311     SDValue Shift1 = DAG.getConstant(16, MVT::i32);
2312     SDValue Shift2 = DAG.getConstant(8, MVT::i32);
2313
2314     SDValue Promote = DAG.getNode(SPUISD::PREFSLOT2VEC, dl, vecVT, N, N);
2315     SDValue CNTB = DAG.getNode(SPUISD::CNTB, dl, vecVT, Promote);
2316
2317     // CNTB_result becomes the chain to which all of the virtual registers
2318     // CNTB_reg, SUM1_reg become associated:
2319     SDValue CNTB_result =
2320       DAG.getNode(ISD::EXTRACT_VECTOR_ELT, dl, MVT::i32, CNTB, Elt0);
2321
2322     SDValue CNTB_rescopy =
2323       DAG.getCopyToReg(CNTB_result, dl, CNTB_reg, CNTB_result);
2324
2325     SDValue Comp1 =
2326       DAG.getNode(ISD::SRL, dl, MVT::i32,
2327                   DAG.getCopyFromReg(CNTB_rescopy, dl, CNTB_reg, MVT::i32),
2328                   Shift1);
2329
2330     SDValue Sum1 =
2331       DAG.getNode(ISD::ADD, dl, MVT::i32, Comp1,
2332                   DAG.getCopyFromReg(CNTB_rescopy, dl, CNTB_reg, MVT::i32));
2333
2334     SDValue Sum1_rescopy =
2335       DAG.getCopyToReg(CNTB_result, dl, SUM1_reg, Sum1);
2336
2337     SDValue Comp2 =
2338       DAG.getNode(ISD::SRL, dl, MVT::i32,
2339                   DAG.getCopyFromReg(Sum1_rescopy, dl, SUM1_reg, MVT::i32),
2340                   Shift2);
2341     SDValue Sum2 =
2342       DAG.getNode(ISD::ADD, dl, MVT::i32, Comp2,
2343                   DAG.getCopyFromReg(Sum1_rescopy, dl, SUM1_reg, MVT::i32));
2344
2345     return DAG.getNode(ISD::AND, dl, MVT::i32, Sum2, Mask0);
2346   }
2347
2348   case MVT::i64:
2349     break;
2350   }
2351
2352   return SDValue();
2353 }
2354
2355 //! Lower ISD::FP_TO_SINT, ISD::FP_TO_UINT for i32
2356 /*!
2357  f32->i32 passes through unchanged, whereas f64->i32 expands to a libcall.
2358  All conversions to i64 are expanded to a libcall.
2359  */
2360 static SDValue LowerFP_TO_INT(SDValue Op, SelectionDAG &DAG,
2361                               SPUTargetLowering &TLI) {
2362   MVT OpVT = Op.getValueType();
2363   SDValue Op0 = Op.getOperand(0);
2364   MVT Op0VT = Op0.getValueType();
2365
2366   if ((OpVT == MVT::i32 && Op0VT == MVT::f64)
2367       || OpVT == MVT::i64) {
2368     // Convert f32 / f64 to i32 / i64 via libcall.
2369     RTLIB::Libcall LC =
2370             (Op.getOpcode() == ISD::FP_TO_SINT)
2371              ? RTLIB::getFPTOSINT(Op0VT, OpVT)
2372              : RTLIB::getFPTOUINT(Op0VT, OpVT);
2373     assert(LC != RTLIB::UNKNOWN_LIBCALL && "Unexpectd fp-to-int conversion!");
2374     SDValue Dummy;
2375     return ExpandLibCall(LC, Op, DAG, false, Dummy, TLI);
2376   }
2377
2378   return Op;
2379 }
2380
2381 //! Lower ISD::SINT_TO_FP, ISD::UINT_TO_FP for i32
2382 /*!
2383  i32->f32 passes through unchanged, whereas i32->f64 is expanded to a libcall.
2384  All conversions from i64 are expanded to a libcall.
2385  */
2386 static SDValue LowerINT_TO_FP(SDValue Op, SelectionDAG &DAG,
2387                               SPUTargetLowering &TLI) {
2388   MVT OpVT = Op.getValueType();
2389   SDValue Op0 = Op.getOperand(0);
2390   MVT Op0VT = Op0.getValueType();
2391
2392   if ((OpVT == MVT::f64 && Op0VT == MVT::i32)
2393       || Op0VT == MVT::i64) {
2394     // Convert i32, i64 to f64 via libcall:
2395     RTLIB::Libcall LC =
2396             (Op.getOpcode() == ISD::SINT_TO_FP)
2397              ? RTLIB::getSINTTOFP(Op0VT, OpVT)
2398              : RTLIB::getUINTTOFP(Op0VT, OpVT);
2399     assert(LC != RTLIB::UNKNOWN_LIBCALL && "Unexpectd int-to-fp conversion!");
2400     SDValue Dummy;
2401     return ExpandLibCall(LC, Op, DAG, false, Dummy, TLI);
2402   }
2403
2404   return Op;
2405 }
2406
2407 //! Lower ISD::SETCC
2408 /*!
2409  This handles MVT::f64 (double floating point) condition lowering
2410  */
2411 static SDValue LowerSETCC(SDValue Op, SelectionDAG &DAG,
2412                           const TargetLowering &TLI) {
2413   CondCodeSDNode *CC = dyn_cast<CondCodeSDNode>(Op.getOperand(2));
2414   DebugLoc dl = Op.getDebugLoc();
2415   assert(CC != 0 && "LowerSETCC: CondCodeSDNode should not be null here!\n");
2416
2417   SDValue lhs = Op.getOperand(0);
2418   SDValue rhs = Op.getOperand(1);
2419   MVT lhsVT = lhs.getValueType();
2420   assert(lhsVT == MVT::f64 && "LowerSETCC: type other than MVT::64\n");
2421
2422   MVT ccResultVT = TLI.getSetCCResultType(lhs.getValueType());
2423   APInt ccResultOnes = APInt::getAllOnesValue(ccResultVT.getSizeInBits());
2424   MVT IntVT(MVT::i64);
2425
2426   // Take advantage of the fact that (truncate (sra arg, 32)) is efficiently
2427   // selected to a NOP:
2428   SDValue i64lhs = DAG.getNode(ISD::BIT_CONVERT, dl, IntVT, lhs);
2429   SDValue lhsHi32 =
2430           DAG.getNode(ISD::TRUNCATE, dl, MVT::i32,
2431                       DAG.getNode(ISD::SRL, dl, IntVT,
2432                                   i64lhs, DAG.getConstant(32, MVT::i32)));
2433   SDValue lhsHi32abs =
2434           DAG.getNode(ISD::AND, dl, MVT::i32,
2435                       lhsHi32, DAG.getConstant(0x7fffffff, MVT::i32));
2436   SDValue lhsLo32 =
2437           DAG.getNode(ISD::TRUNCATE, dl, MVT::i32, i64lhs);
2438
2439   // SETO and SETUO only use the lhs operand:
2440   if (CC->get() == ISD::SETO) {
2441     // Evaluates to true if Op0 is not [SQ]NaN - lowers to the inverse of
2442     // SETUO
2443     APInt ccResultAllOnes = APInt::getAllOnesValue(ccResultVT.getSizeInBits());
2444     return DAG.getNode(ISD::XOR, dl, ccResultVT,
2445                        DAG.getSetCC(dl, ccResultVT,
2446                                     lhs, DAG.getConstantFP(0.0, lhsVT),
2447                                     ISD::SETUO),
2448                        DAG.getConstant(ccResultAllOnes, ccResultVT));
2449   } else if (CC->get() == ISD::SETUO) {
2450     // Evaluates to true if Op0 is [SQ]NaN
2451     return DAG.getNode(ISD::AND, dl, ccResultVT,
2452                        DAG.getSetCC(dl, ccResultVT,
2453                                     lhsHi32abs,
2454                                     DAG.getConstant(0x7ff00000, MVT::i32),
2455                                     ISD::SETGE),
2456                        DAG.getSetCC(dl, ccResultVT,
2457                                     lhsLo32,
2458                                     DAG.getConstant(0, MVT::i32),
2459                                     ISD::SETGT));
2460   }
2461
2462   SDValue i64rhs = DAG.getNode(ISD::BIT_CONVERT, dl, IntVT, rhs);
2463   SDValue rhsHi32 =
2464           DAG.getNode(ISD::TRUNCATE, dl, MVT::i32,
2465                       DAG.getNode(ISD::SRL, dl, IntVT,
2466                                   i64rhs, DAG.getConstant(32, MVT::i32)));
2467
2468   // If a value is negative, subtract from the sign magnitude constant:
2469   SDValue signMag2TC = DAG.getConstant(0x8000000000000000ULL, IntVT);
2470
2471   // Convert the sign-magnitude representation into 2's complement:
2472   SDValue lhsSelectMask = DAG.getNode(ISD::SRA, dl, ccResultVT,
2473                                       lhsHi32, DAG.getConstant(31, MVT::i32));
2474   SDValue lhsSignMag2TC = DAG.getNode(ISD::SUB, dl, IntVT, signMag2TC, i64lhs);
2475   SDValue lhsSelect =
2476           DAG.getNode(ISD::SELECT, dl, IntVT,
2477                       lhsSelectMask, lhsSignMag2TC, i64lhs);
2478
2479   SDValue rhsSelectMask = DAG.getNode(ISD::SRA, dl, ccResultVT,
2480                                       rhsHi32, DAG.getConstant(31, MVT::i32));
2481   SDValue rhsSignMag2TC = DAG.getNode(ISD::SUB, dl, IntVT, signMag2TC, i64rhs);
2482   SDValue rhsSelect =
2483           DAG.getNode(ISD::SELECT, dl, IntVT,
2484                       rhsSelectMask, rhsSignMag2TC, i64rhs);
2485
2486   unsigned compareOp;
2487
2488   switch (CC->get()) {
2489   case ISD::SETOEQ:
2490   case ISD::SETUEQ:
2491     compareOp = ISD::SETEQ; break;
2492   case ISD::SETOGT:
2493   case ISD::SETUGT:
2494     compareOp = ISD::SETGT; break;
2495   case ISD::SETOGE:
2496   case ISD::SETUGE:
2497     compareOp = ISD::SETGE; break;
2498   case ISD::SETOLT:
2499   case ISD::SETULT:
2500     compareOp = ISD::SETLT; break;
2501   case ISD::SETOLE:
2502   case ISD::SETULE:
2503     compareOp = ISD::SETLE; break;
2504   case ISD::SETUNE:
2505   case ISD::SETONE:
2506     compareOp = ISD::SETNE; break;
2507   default:
2508     llvm_report_error("CellSPU ISel Select: unimplemented f64 condition");
2509   }
2510
2511   SDValue result =
2512           DAG.getSetCC(dl, ccResultVT, lhsSelect, rhsSelect,
2513                        (ISD::CondCode) compareOp);
2514
2515   if ((CC->get() & 0x8) == 0) {
2516     // Ordered comparison:
2517     SDValue lhsNaN = DAG.getSetCC(dl, ccResultVT,
2518                                   lhs, DAG.getConstantFP(0.0, MVT::f64),
2519                                   ISD::SETO);
2520     SDValue rhsNaN = DAG.getSetCC(dl, ccResultVT,
2521                                   rhs, DAG.getConstantFP(0.0, MVT::f64),
2522                                   ISD::SETO);
2523     SDValue ordered = DAG.getNode(ISD::AND, dl, ccResultVT, lhsNaN, rhsNaN);
2524
2525     result = DAG.getNode(ISD::AND, dl, ccResultVT, ordered, result);
2526   }
2527
2528   return result;
2529 }
2530
2531 //! Lower ISD::SELECT_CC
2532 /*!
2533   ISD::SELECT_CC can (generally) be implemented directly on the SPU using the
2534   SELB instruction.
2535
2536   \note Need to revisit this in the future: if the code path through the true
2537   and false value computations is longer than the latency of a branch (6
2538   cycles), then it would be more advantageous to branch and insert a new basic
2539   block and branch on the condition. However, this code does not make that
2540   assumption, given the simplisitc uses so far.
2541  */
2542
2543 static SDValue LowerSELECT_CC(SDValue Op, SelectionDAG &DAG,
2544                               const TargetLowering &TLI) {
2545   MVT VT = Op.getValueType();
2546   SDValue lhs = Op.getOperand(0);
2547   SDValue rhs = Op.getOperand(1);
2548   SDValue trueval = Op.getOperand(2);
2549   SDValue falseval = Op.getOperand(3);
2550   SDValue condition = Op.getOperand(4);
2551   DebugLoc dl = Op.getDebugLoc();
2552
2553   // NOTE: SELB's arguments: $rA, $rB, $mask
2554   //
2555   // SELB selects bits from $rA where bits in $mask are 0, bits from $rB
2556   // where bits in $mask are 1. CCond will be inverted, having 1s where the
2557   // condition was true and 0s where the condition was false. Hence, the
2558   // arguments to SELB get reversed.
2559
2560   // Note: Really should be ISD::SELECT instead of SPUISD::SELB, but LLVM's
2561   // legalizer insists on combining SETCC/SELECT into SELECT_CC, so we end up
2562   // with another "cannot select select_cc" assert:
2563
2564   SDValue compare = DAG.getNode(ISD::SETCC, dl,
2565                                 TLI.getSetCCResultType(Op.getValueType()),
2566                                 lhs, rhs, condition);
2567   return DAG.getNode(SPUISD::SELB, dl, VT, falseval, trueval, compare);
2568 }
2569
2570 //! Custom lower ISD::TRUNCATE
2571 static SDValue LowerTRUNCATE(SDValue Op, SelectionDAG &DAG)
2572 {
2573   // Type to truncate to
2574   MVT VT = Op.getValueType();
2575   MVT::SimpleValueType simpleVT = VT.getSimpleVT();
2576   MVT VecVT = MVT::getVectorVT(VT, (128 / VT.getSizeInBits()));
2577   DebugLoc dl = Op.getDebugLoc();
2578
2579   // Type to truncate from
2580   SDValue Op0 = Op.getOperand(0);
2581   MVT Op0VT = Op0.getValueType();
2582
2583   if (Op0VT.getSimpleVT() == MVT::i128 && simpleVT == MVT::i64) {
2584     // Create shuffle mask, least significant doubleword of quadword
2585     unsigned maskHigh = 0x08090a0b;
2586     unsigned maskLow = 0x0c0d0e0f;
2587     // Use a shuffle to perform the truncation
2588     SDValue shufMask = DAG.getNode(ISD::BUILD_VECTOR, dl, MVT::v4i32,
2589                                    DAG.getConstant(maskHigh, MVT::i32),
2590                                    DAG.getConstant(maskLow, MVT::i32),
2591                                    DAG.getConstant(maskHigh, MVT::i32),
2592                                    DAG.getConstant(maskLow, MVT::i32));
2593
2594     SDValue truncShuffle = DAG.getNode(SPUISD::SHUFB, dl, VecVT,
2595                                        Op0, Op0, shufMask);
2596
2597     return DAG.getNode(SPUISD::VEC2PREFSLOT, dl, VT, truncShuffle);
2598   }
2599
2600   return SDValue();             // Leave the truncate unmolested
2601 }
2602
2603 //! Custom (target-specific) lowering entry point
2604 /*!
2605   This is where LLVM's DAG selection process calls to do target-specific
2606   lowering of nodes.
2607  */
2608 SDValue
2609 SPUTargetLowering::LowerOperation(SDValue Op, SelectionDAG &DAG)
2610 {
2611   unsigned Opc = (unsigned) Op.getOpcode();
2612   MVT VT = Op.getValueType();
2613
2614   switch (Opc) {
2615   default: {
2616 #ifndef NDEBUG
2617     cerr << "SPUTargetLowering::LowerOperation(): need to lower this!\n";
2618     cerr << "Op.getOpcode() = " << Opc << "\n";
2619     cerr << "*Op.getNode():\n";
2620     Op.getNode()->dump();
2621 #endif
2622     llvm_unreachable(0);
2623   }
2624   case ISD::LOAD:
2625   case ISD::EXTLOAD:
2626   case ISD::SEXTLOAD:
2627   case ISD::ZEXTLOAD:
2628     return LowerLOAD(Op, DAG, SPUTM.getSubtargetImpl());
2629   case ISD::STORE:
2630     return LowerSTORE(Op, DAG, SPUTM.getSubtargetImpl());
2631   case ISD::ConstantPool:
2632     return LowerConstantPool(Op, DAG, SPUTM.getSubtargetImpl());
2633   case ISD::GlobalAddress:
2634     return LowerGlobalAddress(Op, DAG, SPUTM.getSubtargetImpl());
2635   case ISD::JumpTable:
2636     return LowerJumpTable(Op, DAG, SPUTM.getSubtargetImpl());
2637   case ISD::ConstantFP:
2638     return LowerConstantFP(Op, DAG);
2639
2640   // i8, i64 math ops:
2641   case ISD::ADD:
2642   case ISD::SUB:
2643   case ISD::ROTR:
2644   case ISD::ROTL:
2645   case ISD::SRL:
2646   case ISD::SHL:
2647   case ISD::SRA: {
2648     if (VT == MVT::i8)
2649       return LowerI8Math(Op, DAG, Opc, *this);
2650     break;
2651   }
2652
2653   case ISD::FP_TO_SINT:
2654   case ISD::FP_TO_UINT:
2655     return LowerFP_TO_INT(Op, DAG, *this);
2656
2657   case ISD::SINT_TO_FP:
2658   case ISD::UINT_TO_FP:
2659     return LowerINT_TO_FP(Op, DAG, *this);
2660
2661   // Vector-related lowering.
2662   case ISD::BUILD_VECTOR:
2663     return LowerBUILD_VECTOR(Op, DAG);
2664   case ISD::SCALAR_TO_VECTOR:
2665     return LowerSCALAR_TO_VECTOR(Op, DAG);
2666   case ISD::VECTOR_SHUFFLE:
2667     return LowerVECTOR_SHUFFLE(Op, DAG);
2668   case ISD::EXTRACT_VECTOR_ELT:
2669     return LowerEXTRACT_VECTOR_ELT(Op, DAG);
2670   case ISD::INSERT_VECTOR_ELT:
2671     return LowerINSERT_VECTOR_ELT(Op, DAG);
2672
2673   // Look for ANDBI, ORBI and XORBI opportunities and lower appropriately:
2674   case ISD::AND:
2675   case ISD::OR:
2676   case ISD::XOR:
2677     return LowerByteImmed(Op, DAG);
2678
2679   // Vector and i8 multiply:
2680   case ISD::MUL:
2681     if (VT == MVT::i8)
2682       return LowerI8Math(Op, DAG, Opc, *this);
2683
2684   case ISD::CTPOP:
2685     return LowerCTPOP(Op, DAG);
2686
2687   case ISD::SELECT_CC:
2688     return LowerSELECT_CC(Op, DAG, *this);
2689
2690   case ISD::SETCC:
2691     return LowerSETCC(Op, DAG, *this);
2692
2693   case ISD::TRUNCATE:
2694     return LowerTRUNCATE(Op, DAG);
2695   }
2696
2697   return SDValue();
2698 }
2699
2700 void SPUTargetLowering::ReplaceNodeResults(SDNode *N,
2701                                            SmallVectorImpl<SDValue>&Results,
2702                                            SelectionDAG &DAG)
2703 {
2704 #if 0
2705   unsigned Opc = (unsigned) N->getOpcode();
2706   MVT OpVT = N->getValueType(0);
2707
2708   switch (Opc) {
2709   default: {
2710     cerr << "SPUTargetLowering::ReplaceNodeResults(): need to fix this!\n";
2711     cerr << "Op.getOpcode() = " << Opc << "\n";
2712     cerr << "*Op.getNode():\n";
2713     N->dump();
2714     abort();
2715     /*NOTREACHED*/
2716   }
2717   }
2718 #endif
2719
2720   /* Otherwise, return unchanged */
2721 }
2722
2723 //===----------------------------------------------------------------------===//
2724 // Target Optimization Hooks
2725 //===----------------------------------------------------------------------===//
2726
2727 SDValue
2728 SPUTargetLowering::PerformDAGCombine(SDNode *N, DAGCombinerInfo &DCI) const
2729 {
2730 #if 0
2731   TargetMachine &TM = getTargetMachine();
2732 #endif
2733   const SPUSubtarget *ST = SPUTM.getSubtargetImpl();
2734   SelectionDAG &DAG = DCI.DAG;
2735   SDValue Op0 = N->getOperand(0);       // everything has at least one operand
2736   MVT NodeVT = N->getValueType(0);      // The node's value type
2737   MVT Op0VT = Op0.getValueType();       // The first operand's result
2738   SDValue Result;                       // Initially, empty result
2739   DebugLoc dl = N->getDebugLoc();
2740
2741   switch (N->getOpcode()) {
2742   default: break;
2743   case ISD::ADD: {
2744     SDValue Op1 = N->getOperand(1);
2745
2746     if (Op0.getOpcode() == SPUISD::IndirectAddr
2747         || Op1.getOpcode() == SPUISD::IndirectAddr) {
2748       // Normalize the operands to reduce repeated code
2749       SDValue IndirectArg = Op0, AddArg = Op1;
2750
2751       if (Op1.getOpcode() == SPUISD::IndirectAddr) {
2752         IndirectArg = Op1;
2753         AddArg = Op0;
2754       }
2755
2756       if (isa<ConstantSDNode>(AddArg)) {
2757         ConstantSDNode *CN0 = cast<ConstantSDNode > (AddArg);
2758         SDValue IndOp1 = IndirectArg.getOperand(1);
2759
2760         if (CN0->isNullValue()) {
2761           // (add (SPUindirect <arg>, <arg>), 0) ->
2762           // (SPUindirect <arg>, <arg>)
2763
2764 #if !defined(NDEBUG)
2765           if (DebugFlag && isCurrentDebugType(DEBUG_TYPE)) {
2766             cerr << "\n"
2767                  << "Replace: (add (SPUindirect <arg>, <arg>), 0)\n"
2768                  << "With:    (SPUindirect <arg>, <arg>)\n";
2769           }
2770 #endif
2771
2772           return IndirectArg;
2773         } else if (isa<ConstantSDNode>(IndOp1)) {
2774           // (add (SPUindirect <arg>, <const>), <const>) ->
2775           // (SPUindirect <arg>, <const + const>)
2776           ConstantSDNode *CN1 = cast<ConstantSDNode > (IndOp1);
2777           int64_t combinedConst = CN0->getSExtValue() + CN1->getSExtValue();
2778           SDValue combinedValue = DAG.getConstant(combinedConst, Op0VT);
2779
2780 #if !defined(NDEBUG)
2781           if (DebugFlag && isCurrentDebugType(DEBUG_TYPE)) {
2782             cerr << "\n"
2783                  << "Replace: (add (SPUindirect <arg>, " << CN1->getSExtValue()
2784                  << "), " << CN0->getSExtValue() << ")\n"
2785                  << "With:    (SPUindirect <arg>, "
2786                  << combinedConst << ")\n";
2787           }
2788 #endif
2789
2790           return DAG.getNode(SPUISD::IndirectAddr, dl, Op0VT,
2791                              IndirectArg, combinedValue);
2792         }
2793       }
2794     }
2795     break;
2796   }
2797   case ISD::SIGN_EXTEND:
2798   case ISD::ZERO_EXTEND:
2799   case ISD::ANY_EXTEND: {
2800     if (Op0.getOpcode() == SPUISD::VEC2PREFSLOT && NodeVT == Op0VT) {
2801       // (any_extend (SPUextract_elt0 <arg>)) ->
2802       // (SPUextract_elt0 <arg>)
2803       // Types must match, however...
2804 #if !defined(NDEBUG)
2805       if (DebugFlag && isCurrentDebugType(DEBUG_TYPE)) {
2806         cerr << "\nReplace: ";
2807         N->dump(&DAG);
2808         cerr << "\nWith:    ";
2809         Op0.getNode()->dump(&DAG);
2810         cerr << "\n";
2811       }
2812 #endif
2813
2814       return Op0;
2815     }
2816     break;
2817   }
2818   case SPUISD::IndirectAddr: {
2819     if (!ST->usingLargeMem() && Op0.getOpcode() == SPUISD::AFormAddr) {
2820       ConstantSDNode *CN = dyn_cast<ConstantSDNode>(N->getOperand(1));
2821       if (CN != 0 && CN->getZExtValue() == 0) {
2822         // (SPUindirect (SPUaform <addr>, 0), 0) ->
2823         // (SPUaform <addr>, 0)
2824
2825         DEBUG(cerr << "Replace: ");
2826         DEBUG(N->dump(&DAG));
2827         DEBUG(cerr << "\nWith:    ");
2828         DEBUG(Op0.getNode()->dump(&DAG));
2829         DEBUG(cerr << "\n");
2830
2831         return Op0;
2832       }
2833     } else if (Op0.getOpcode() == ISD::ADD) {
2834       SDValue Op1 = N->getOperand(1);
2835       if (ConstantSDNode *CN1 = dyn_cast<ConstantSDNode>(Op1)) {
2836         // (SPUindirect (add <arg>, <arg>), 0) ->
2837         // (SPUindirect <arg>, <arg>)
2838         if (CN1->isNullValue()) {
2839
2840 #if !defined(NDEBUG)
2841           if (DebugFlag && isCurrentDebugType(DEBUG_TYPE)) {
2842             cerr << "\n"
2843                  << "Replace: (SPUindirect (add <arg>, <arg>), 0)\n"
2844                  << "With:    (SPUindirect <arg>, <arg>)\n";
2845           }
2846 #endif
2847
2848           return DAG.getNode(SPUISD::IndirectAddr, dl, Op0VT,
2849                              Op0.getOperand(0), Op0.getOperand(1));
2850         }
2851       }
2852     }
2853     break;
2854   }
2855   case SPUISD::SHLQUAD_L_BITS:
2856   case SPUISD::SHLQUAD_L_BYTES:
2857   case SPUISD::VEC_SHL:
2858   case SPUISD::VEC_SRL:
2859   case SPUISD::VEC_SRA:
2860   case SPUISD::ROTBYTES_LEFT: {
2861     SDValue Op1 = N->getOperand(1);
2862
2863     // Kill degenerate vector shifts:
2864     if (ConstantSDNode *CN = dyn_cast<ConstantSDNode>(Op1)) {
2865       if (CN->isNullValue()) {
2866         Result = Op0;
2867       }
2868     }
2869     break;
2870   }
2871   case SPUISD::PREFSLOT2VEC: {
2872     switch (Op0.getOpcode()) {
2873     default:
2874       break;
2875     case ISD::ANY_EXTEND:
2876     case ISD::ZERO_EXTEND:
2877     case ISD::SIGN_EXTEND: {
2878       // (SPUprefslot2vec (any|zero|sign_extend (SPUvec2prefslot <arg>))) ->
2879       // <arg>
2880       // but only if the SPUprefslot2vec and <arg> types match.
2881       SDValue Op00 = Op0.getOperand(0);
2882       if (Op00.getOpcode() == SPUISD::VEC2PREFSLOT) {
2883         SDValue Op000 = Op00.getOperand(0);
2884         if (Op000.getValueType() == NodeVT) {
2885           Result = Op000;
2886         }
2887       }
2888       break;
2889     }
2890     case SPUISD::VEC2PREFSLOT: {
2891       // (SPUprefslot2vec (SPUvec2prefslot <arg>)) ->
2892       // <arg>
2893       Result = Op0.getOperand(0);
2894       break;
2895     }
2896     }
2897     break;
2898   }
2899   }
2900
2901   // Otherwise, return unchanged.
2902 #ifndef NDEBUG
2903   if (Result.getNode()) {
2904     DEBUG(cerr << "\nReplace.SPU: ");
2905     DEBUG(N->dump(&DAG));
2906     DEBUG(cerr << "\nWith:        ");
2907     DEBUG(Result.getNode()->dump(&DAG));
2908     DEBUG(cerr << "\n");
2909   }
2910 #endif
2911
2912   return Result;
2913 }
2914
2915 //===----------------------------------------------------------------------===//
2916 // Inline Assembly Support
2917 //===----------------------------------------------------------------------===//
2918
2919 /// getConstraintType - Given a constraint letter, return the type of
2920 /// constraint it is for this target.
2921 SPUTargetLowering::ConstraintType
2922 SPUTargetLowering::getConstraintType(const std::string &ConstraintLetter) const {
2923   if (ConstraintLetter.size() == 1) {
2924     switch (ConstraintLetter[0]) {
2925     default: break;
2926     case 'b':
2927     case 'r':
2928     case 'f':
2929     case 'v':
2930     case 'y':
2931       return C_RegisterClass;
2932     }
2933   }
2934   return TargetLowering::getConstraintType(ConstraintLetter);
2935 }
2936
2937 std::pair<unsigned, const TargetRegisterClass*>
2938 SPUTargetLowering::getRegForInlineAsmConstraint(const std::string &Constraint,
2939                                                 MVT VT) const
2940 {
2941   if (Constraint.size() == 1) {
2942     // GCC RS6000 Constraint Letters
2943     switch (Constraint[0]) {
2944     case 'b':   // R1-R31
2945     case 'r':   // R0-R31
2946       if (VT == MVT::i64)
2947         return std::make_pair(0U, SPU::R64CRegisterClass);
2948       return std::make_pair(0U, SPU::R32CRegisterClass);
2949     case 'f':
2950       if (VT == MVT::f32)
2951         return std::make_pair(0U, SPU::R32FPRegisterClass);
2952       else if (VT == MVT::f64)
2953         return std::make_pair(0U, SPU::R64FPRegisterClass);
2954       break;
2955     case 'v':
2956       return std::make_pair(0U, SPU::GPRCRegisterClass);
2957     }
2958   }
2959
2960   return TargetLowering::getRegForInlineAsmConstraint(Constraint, VT);
2961 }
2962
2963 //! Compute used/known bits for a SPU operand
2964 void
2965 SPUTargetLowering::computeMaskedBitsForTargetNode(const SDValue Op,
2966                                                   const APInt &Mask,
2967                                                   APInt &KnownZero,
2968                                                   APInt &KnownOne,
2969                                                   const SelectionDAG &DAG,
2970                                                   unsigned Depth ) const {
2971 #if 0
2972   const uint64_t uint64_sizebits = sizeof(uint64_t) * CHAR_BIT;
2973
2974   switch (Op.getOpcode()) {
2975   default:
2976     // KnownZero = KnownOne = APInt(Mask.getBitWidth(), 0);
2977     break;
2978   case CALL:
2979   case SHUFB:
2980   case SHUFFLE_MASK:
2981   case CNTB:
2982   case SPUISD::PREFSLOT2VEC:
2983   case SPUISD::LDRESULT:
2984   case SPUISD::VEC2PREFSLOT:
2985   case SPUISD::SHLQUAD_L_BITS:
2986   case SPUISD::SHLQUAD_L_BYTES:
2987   case SPUISD::VEC_SHL:
2988   case SPUISD::VEC_SRL:
2989   case SPUISD::VEC_SRA:
2990   case SPUISD::VEC_ROTL:
2991   case SPUISD::VEC_ROTR:
2992   case SPUISD::ROTBYTES_LEFT:
2993   case SPUISD::SELECT_MASK:
2994   case SPUISD::SELB:
2995   }
2996 #endif
2997 }
2998
2999 unsigned
3000 SPUTargetLowering::ComputeNumSignBitsForTargetNode(SDValue Op,
3001                                                    unsigned Depth) const {
3002   switch (Op.getOpcode()) {
3003   default:
3004     return 1;
3005
3006   case ISD::SETCC: {
3007     MVT VT = Op.getValueType();
3008
3009     if (VT != MVT::i8 && VT != MVT::i16 && VT != MVT::i32) {
3010       VT = MVT::i32;
3011     }
3012     return VT.getSizeInBits();
3013   }
3014   }
3015 }
3016
3017 // LowerAsmOperandForConstraint
3018 void
3019 SPUTargetLowering::LowerAsmOperandForConstraint(SDValue Op,
3020                                                 char ConstraintLetter,
3021                                                 bool hasMemory,
3022                                                 std::vector<SDValue> &Ops,
3023                                                 SelectionDAG &DAG) const {
3024   // Default, for the time being, to the base class handler
3025   TargetLowering::LowerAsmOperandForConstraint(Op, ConstraintLetter, hasMemory,
3026                                                Ops, DAG);
3027 }
3028
3029 /// isLegalAddressImmediate - Return true if the integer value can be used
3030 /// as the offset of the target addressing mode.
3031 bool SPUTargetLowering::isLegalAddressImmediate(int64_t V,
3032                                                 const Type *Ty) const {
3033   // SPU's addresses are 256K:
3034   return (V > -(1 << 18) && V < (1 << 18) - 1);
3035 }
3036
3037 bool SPUTargetLowering::isLegalAddressImmediate(llvm::GlobalValue* GV) const {
3038   return false;
3039 }
3040
3041 bool
3042 SPUTargetLowering::isOffsetFoldingLegal(const GlobalAddressSDNode *GA) const {
3043   // The SPU target isn't yet aware of offsets.
3044   return false;
3045 }