implement parser support for '*' operands, as in "call *%eax".
[oota-llvm.git] / tools / llvm-mc / AsmParser.cpp
1 //===- AsmParser.cpp - Parser for Assembly Files --------------------------===//
2 //
3 //                     The LLVM Compiler Infrastructure
4 //
5 // This file is distributed under the University of Illinois Open Source
6 // License. See LICENSE.TXT for details.
7 //
8 //===----------------------------------------------------------------------===//
9 //
10 // This class implements the parser for assembly files.
11 //
12 //===----------------------------------------------------------------------===//
13
14 #include "AsmParser.h"
15 #include "llvm/Support/SourceMgr.h"
16 #include "llvm/Support/raw_ostream.h"
17 using namespace llvm;
18
19 bool AsmParser::Error(SMLoc L, const char *Msg) {
20   Lexer.PrintMessage(L, Msg);
21   return true;
22 }
23
24 bool AsmParser::TokError(const char *Msg) {
25   Lexer.PrintMessage(Lexer.getLoc(), Msg);
26   return true;
27 }
28
29 bool AsmParser::Run() {
30   // Prime the lexer.
31   Lexer.Lex();
32   
33   while (Lexer.isNot(asmtok::Eof))
34     if (ParseStatement())
35       return true;
36   
37   return false;
38 }
39
40 /// EatToEndOfStatement - Throw away the rest of the line for testing purposes.
41 void AsmParser::EatToEndOfStatement() {
42   while (Lexer.isNot(asmtok::EndOfStatement) &&
43          Lexer.isNot(asmtok::Eof))
44     Lexer.Lex();
45   
46   // Eat EOL.
47   if (Lexer.is(asmtok::EndOfStatement))
48     Lexer.Lex();
49 }
50
51
52 struct AsmParser::X86Operand {
53   enum {
54     Register,
55     Immediate,
56     Memory
57   } Kind;
58   
59   union {
60     struct {
61       unsigned RegNo;
62     } Reg;
63
64     struct {
65       // FIXME: Should be a general expression.
66       int64_t Val;
67     } Imm;
68     
69     struct {
70       unsigned SegReg;
71       int64_t Disp;     // FIXME: Should be a general expression.
72       unsigned BaseReg;
73       unsigned Scale;
74       unsigned ScaleReg;
75     } Mem;
76   };
77   
78   static X86Operand CreateReg(unsigned RegNo) {
79     X86Operand Res;
80     Res.Kind = Register;
81     Res.Reg.RegNo = RegNo;
82     return Res;
83   }
84   static X86Operand CreateImm(int64_t Val) {
85     X86Operand Res;
86     Res.Kind = Immediate;
87     Res.Imm.Val = Val;
88     return Res;
89   }
90   static X86Operand CreateMem(unsigned SegReg, int64_t Disp, unsigned BaseReg,
91                               unsigned Scale, unsigned ScaleReg) {
92     X86Operand Res;
93     Res.Kind = Memory;
94     Res.Mem.SegReg   = SegReg;
95     Res.Mem.Disp     = Disp;
96     Res.Mem.BaseReg  = BaseReg;
97     Res.Mem.Scale    = Scale;
98     Res.Mem.ScaleReg = ScaleReg;
99     return Res;
100   }
101 };
102
103 bool AsmParser::ParseX86Operand(X86Operand &Op) {
104   switch (Lexer.getKind()) {
105   default:
106     return ParseX86MemOperand(Op);
107   case asmtok::Register:
108     // FIXME: Decode reg #.
109     // FIXME: if a segment register, this could either be just the seg reg, or
110     // the start of a memory operand.
111     Op = X86Operand::CreateReg(123);
112     Lexer.Lex(); // Eat register.
113     return false;
114   case asmtok::Dollar: {
115     // $42 -> immediate.
116     Lexer.Lex();
117     int64_t Val;
118     if (ParseExpression(Val))
119       return TokError("expected integer constant");
120     Op = X86Operand::CreateReg(Val);
121     return false;
122   case asmtok::Star:
123     Lexer.Lex(); // Eat the star.
124     
125     if (Lexer.is(asmtok::Register)) {
126       Op = X86Operand::CreateReg(123);
127       Lexer.Lex(); // Eat register.
128     } else if (ParseX86MemOperand(Op))
129       return true;
130
131     // FIXME: Note that these are 'dereferenced' so that clients know the '*' is
132     // there.
133     return false;
134   }
135   }
136 }
137
138 /// ParseX86MemOperand: segment: disp(basereg, indexreg, scale)
139 bool AsmParser::ParseX86MemOperand(X86Operand &Op) {
140   // FIXME: If SegReg ':'  (e.g. %gs:), eat and remember.
141   unsigned SegReg = 0;
142   
143   
144   // We have to disambiguate a parenthesized expression "(4+5)" from the start
145   // of a memory operand with a missing displacement "(%ebx)" or "(,%eax)".  The
146   // only way to do this without lookahead is to eat the ( and see what is after
147   // it.
148   int64_t Disp = 0;
149   if (Lexer.isNot(asmtok::LParen)) {
150     if (ParseExpression(Disp)) return true;
151     
152     // After parsing the base expression we could either have a parenthesized
153     // memory address or not.  If not, return now.  If so, eat the (.
154     if (Lexer.isNot(asmtok::LParen)) {
155       Op = X86Operand::CreateMem(SegReg, Disp, 0, 0, 0);
156       return false;
157     }
158     
159     // Eat the '('.
160     Lexer.Lex();
161   } else {
162     // Okay, we have a '('.  We don't know if this is an expression or not, but
163     // so we have to eat the ( to see beyond it.
164     Lexer.Lex(); // Eat the '('.
165     
166     if (Lexer.is(asmtok::Register) || Lexer.is(asmtok::Comma)) {
167       // Nothing to do here, fall into the code below with the '(' part of the
168       // memory operand consumed.
169     } else {
170       // FIXME: Call ParseParenExpression with the leading ( consumed.
171       return TokError("FIXME: Paren expr not implemented yet!");
172     }
173   }
174   
175   // If we reached here, then we just ate the ( of the memory operand.  Process
176   // the rest of the memory operand.
177   unsigned BaseReg = 0, ScaleReg = 0, Scale = 0;
178   
179   if (Lexer.is(asmtok::Register)) {
180     BaseReg = 123; // FIXME: decode reg #
181     Lexer.Lex();  // eat the register.
182   }
183   
184   if (Lexer.is(asmtok::Comma)) {
185     Lexer.Lex(); // eat the comma.
186     
187     if (Lexer.is(asmtok::Register)) {
188       ScaleReg = 123; // FIXME: decode reg #
189       Lexer.Lex();  // eat the register.
190       Scale = 1;      // If not specified, the scale defaults to 1.
191     }
192     
193     if (Lexer.is(asmtok::Comma)) {
194       Lexer.Lex(); // eat the comma.
195
196       // If present, get and validate scale amount.
197       if (Lexer.is(asmtok::IntVal)) {
198         int64_t ScaleVal = Lexer.getCurIntVal();
199         if (ScaleVal != 1 && ScaleVal != 2 && ScaleVal != 4 && ScaleVal != 8)
200           return TokError("scale factor in address must be 1, 2, 4 or 8");
201         Lexer.Lex();  // eat the scale.
202         Scale = (unsigned)ScaleVal;
203       }
204     }
205   }
206   
207   // Ok, we've eaten the memory operand, verify we have a ')' and eat it too.
208   if (Lexer.isNot(asmtok::RParen))
209     return TokError("unexpected token in memory operand");
210   Lexer.Lex(); // Eat the ')'.
211   
212   Op = X86Operand::CreateMem(SegReg, Disp, BaseReg, Scale, ScaleReg);
213   return false;
214 }
215
216
217 /// ParseExpression - Parse an expression and return it.
218 /// FIXME: This should handle real expressions, we do something trivial for now.
219 bool AsmParser::ParseExpression(int64_t &Res) {
220   switch (Lexer.getKind()) {
221   default:
222     return TokError("unknown token in expression");
223   case asmtok::Identifier:
224     // This is a label, this should be parsed as part of an expression, to
225     // handle things like LFOO+4
226     Res = 0; // FIXME.
227     Lexer.Lex(); // Eat identifier.
228     return false;
229   case asmtok::IntVal:
230     Res = Lexer.getCurIntVal();
231     Lexer.Lex(); // Eat identifier.
232     return false;
233   }
234 }
235   
236   
237   
238   
239 /// ParseStatement:
240 ///   ::= EndOfStatement
241 ///   ::= Label* Directive ...Operands... EndOfStatement
242 ///   ::= Label* Identifier OperandList* EndOfStatement
243 bool AsmParser::ParseStatement() {
244   switch (Lexer.getKind()) {
245   default:
246     return TokError("unexpected token at start of statement");
247   case asmtok::EndOfStatement:
248     Lexer.Lex();
249     return false;
250   case asmtok::Identifier:
251     break;
252   // TODO: Recurse on local labels etc.
253   }
254   
255   // If we have an identifier, handle it as the key symbol.
256   SMLoc IDLoc = Lexer.getLoc();
257   std::string IDVal = Lexer.getCurStrVal();
258   
259   // Consume the identifier, see what is after it.
260   if (Lexer.Lex() == asmtok::Colon) {
261     // identifier ':'   -> Label.
262     Lexer.Lex();
263     return ParseStatement();
264   }
265   
266   // Otherwise, we have a normal instruction or directive.  
267   if (IDVal[0] == '.') {
268     Lexer.PrintMessage(IDLoc, "warning: ignoring directive for now");
269     EatToEndOfStatement();
270     return false;
271   }
272
273   // If it's an instruction, parse an operand list.
274   std::vector<X86Operand> Operands;
275   
276   // Read the first operand, if present.  Note that we require a newline at the
277   // end of file, so we don't have to worry about Eof here.
278   if (Lexer.isNot(asmtok::EndOfStatement)) {
279     X86Operand Op;
280     if (ParseX86Operand(Op))
281       return true;
282     Operands.push_back(Op);
283   }
284
285   while (Lexer.is(asmtok::Comma)) {
286     Lexer.Lex();  // Eat the comma.
287     
288     // Parse and remember the operand.
289     X86Operand Op;
290     if (ParseX86Operand(Op))
291       return true;
292     Operands.push_back(Op);
293   }
294   
295   if (Lexer.isNot(asmtok::EndOfStatement))
296     return TokError("unexpected token in operand list");
297
298   // Eat the end of statement marker.
299   Lexer.Lex();
300   
301   // Instruction is good, process it.
302   outs() << "Found instruction: " << IDVal << " with " << Operands.size()
303          << " operands.\n";
304   
305   // Skip to end of line for now.
306   return false;
307 }