Merge remote-tracking branch 'lts/linux-4.4.y' into linux-linaro-lsk-v4.4
[firefly-linux-kernel-4.4.55.git] / kernel / events / core.c
1 /*
2  * Performance events core code:
3  *
4  *  Copyright (C) 2008 Thomas Gleixner <tglx@linutronix.de>
5  *  Copyright (C) 2008-2011 Red Hat, Inc., Ingo Molnar
6  *  Copyright (C) 2008-2011 Red Hat, Inc., Peter Zijlstra
7  *  Copyright  ©  2009 Paul Mackerras, IBM Corp. <paulus@au1.ibm.com>
8  *
9  * For licensing details see kernel-base/COPYING
10  */
11
12 #include <linux/fs.h>
13 #include <linux/mm.h>
14 #include <linux/cpu.h>
15 #include <linux/smp.h>
16 #include <linux/idr.h>
17 #include <linux/file.h>
18 #include <linux/poll.h>
19 #include <linux/slab.h>
20 #include <linux/hash.h>
21 #include <linux/tick.h>
22 #include <linux/sysfs.h>
23 #include <linux/dcache.h>
24 #include <linux/percpu.h>
25 #include <linux/ptrace.h>
26 #include <linux/reboot.h>
27 #include <linux/vmstat.h>
28 #include <linux/device.h>
29 #include <linux/export.h>
30 #include <linux/vmalloc.h>
31 #include <linux/hardirq.h>
32 #include <linux/rculist.h>
33 #include <linux/uaccess.h>
34 #include <linux/syscalls.h>
35 #include <linux/anon_inodes.h>
36 #include <linux/kernel_stat.h>
37 #include <linux/cgroup.h>
38 #include <linux/perf_event.h>
39 #include <linux/trace_events.h>
40 #include <linux/hw_breakpoint.h>
41 #include <linux/mm_types.h>
42 #include <linux/module.h>
43 #include <linux/mman.h>
44 #include <linux/compat.h>
45 #include <linux/bpf.h>
46 #include <linux/filter.h>
47
48 #include "internal.h"
49
50 #include <asm/irq_regs.h>
51
52 static struct workqueue_struct *perf_wq;
53
54 typedef int (*remote_function_f)(void *);
55
56 struct remote_function_call {
57         struct task_struct      *p;
58         remote_function_f       func;
59         void                    *info;
60         int                     ret;
61 };
62
63 static void remote_function(void *data)
64 {
65         struct remote_function_call *tfc = data;
66         struct task_struct *p = tfc->p;
67
68         if (p) {
69                 tfc->ret = -EAGAIN;
70                 if (task_cpu(p) != smp_processor_id() || !task_curr(p))
71                         return;
72         }
73
74         tfc->ret = tfc->func(tfc->info);
75 }
76
77 /**
78  * task_function_call - call a function on the cpu on which a task runs
79  * @p:          the task to evaluate
80  * @func:       the function to be called
81  * @info:       the function call argument
82  *
83  * Calls the function @func when the task is currently running. This might
84  * be on the current CPU, which just calls the function directly
85  *
86  * returns: @func return value, or
87  *          -ESRCH  - when the process isn't running
88  *          -EAGAIN - when the process moved away
89  */
90 static int
91 task_function_call(struct task_struct *p, remote_function_f func, void *info)
92 {
93         struct remote_function_call data = {
94                 .p      = p,
95                 .func   = func,
96                 .info   = info,
97                 .ret    = -ESRCH, /* No such (running) process */
98         };
99
100         if (task_curr(p))
101                 smp_call_function_single(task_cpu(p), remote_function, &data, 1);
102
103         return data.ret;
104 }
105
106 /**
107  * cpu_function_call - call a function on the cpu
108  * @func:       the function to be called
109  * @info:       the function call argument
110  *
111  * Calls the function @func on the remote cpu.
112  *
113  * returns: @func return value or -ENXIO when the cpu is offline
114  */
115 static int cpu_function_call(int cpu, remote_function_f func, void *info)
116 {
117         struct remote_function_call data = {
118                 .p      = NULL,
119                 .func   = func,
120                 .info   = info,
121                 .ret    = -ENXIO, /* No such CPU */
122         };
123
124         smp_call_function_single(cpu, remote_function, &data, 1);
125
126         return data.ret;
127 }
128
129 #define EVENT_OWNER_KERNEL ((void *) -1)
130
131 static bool is_kernel_event(struct perf_event *event)
132 {
133         return event->owner == EVENT_OWNER_KERNEL;
134 }
135
136 #define PERF_FLAG_ALL (PERF_FLAG_FD_NO_GROUP |\
137                        PERF_FLAG_FD_OUTPUT  |\
138                        PERF_FLAG_PID_CGROUP |\
139                        PERF_FLAG_FD_CLOEXEC)
140
141 /*
142  * branch priv levels that need permission checks
143  */
144 #define PERF_SAMPLE_BRANCH_PERM_PLM \
145         (PERF_SAMPLE_BRANCH_KERNEL |\
146          PERF_SAMPLE_BRANCH_HV)
147
148 enum event_type_t {
149         EVENT_FLEXIBLE = 0x1,
150         EVENT_PINNED = 0x2,
151         EVENT_ALL = EVENT_FLEXIBLE | EVENT_PINNED,
152 };
153
154 /*
155  * perf_sched_events : >0 events exist
156  * perf_cgroup_events: >0 per-cpu cgroup events exist on this cpu
157  */
158 struct static_key_deferred perf_sched_events __read_mostly;
159 static DEFINE_PER_CPU(atomic_t, perf_cgroup_events);
160 static DEFINE_PER_CPU(int, perf_sched_cb_usages);
161
162 static atomic_t nr_mmap_events __read_mostly;
163 static atomic_t nr_comm_events __read_mostly;
164 static atomic_t nr_task_events __read_mostly;
165 static atomic_t nr_freq_events __read_mostly;
166 static atomic_t nr_switch_events __read_mostly;
167
168 static LIST_HEAD(pmus);
169 static DEFINE_MUTEX(pmus_lock);
170 static struct srcu_struct pmus_srcu;
171
172 /*
173  * perf event paranoia level:
174  *  -1 - not paranoid at all
175  *   0 - disallow raw tracepoint access for unpriv
176  *   1 - disallow cpu events for unpriv
177  *   2 - disallow kernel profiling for unpriv
178  */
179 int sysctl_perf_event_paranoid __read_mostly = 1;
180
181 /* Minimum for 512 kiB + 1 user control page */
182 int sysctl_perf_event_mlock __read_mostly = 512 + (PAGE_SIZE / 1024); /* 'free' kiB per user */
183
184 /*
185  * max perf event sample rate
186  */
187 #define DEFAULT_MAX_SAMPLE_RATE         100000
188 #define DEFAULT_SAMPLE_PERIOD_NS        (NSEC_PER_SEC / DEFAULT_MAX_SAMPLE_RATE)
189 #define DEFAULT_CPU_TIME_MAX_PERCENT    25
190
191 int sysctl_perf_event_sample_rate __read_mostly = DEFAULT_MAX_SAMPLE_RATE;
192
193 static int max_samples_per_tick __read_mostly   = DIV_ROUND_UP(DEFAULT_MAX_SAMPLE_RATE, HZ);
194 static int perf_sample_period_ns __read_mostly  = DEFAULT_SAMPLE_PERIOD_NS;
195
196 static int perf_sample_allowed_ns __read_mostly =
197         DEFAULT_SAMPLE_PERIOD_NS * DEFAULT_CPU_TIME_MAX_PERCENT / 100;
198
199 static void update_perf_cpu_limits(void)
200 {
201         u64 tmp = perf_sample_period_ns;
202
203         tmp *= sysctl_perf_cpu_time_max_percent;
204         do_div(tmp, 100);
205         ACCESS_ONCE(perf_sample_allowed_ns) = tmp;
206 }
207
208 static int perf_rotate_context(struct perf_cpu_context *cpuctx);
209
210 int perf_proc_update_handler(struct ctl_table *table, int write,
211                 void __user *buffer, size_t *lenp,
212                 loff_t *ppos)
213 {
214         int ret = proc_dointvec_minmax(table, write, buffer, lenp, ppos);
215
216         if (ret || !write)
217                 return ret;
218
219         max_samples_per_tick = DIV_ROUND_UP(sysctl_perf_event_sample_rate, HZ);
220         perf_sample_period_ns = NSEC_PER_SEC / sysctl_perf_event_sample_rate;
221         update_perf_cpu_limits();
222
223         return 0;
224 }
225
226 int sysctl_perf_cpu_time_max_percent __read_mostly = DEFAULT_CPU_TIME_MAX_PERCENT;
227
228 int perf_cpu_time_max_percent_handler(struct ctl_table *table, int write,
229                                 void __user *buffer, size_t *lenp,
230                                 loff_t *ppos)
231 {
232         int ret = proc_dointvec(table, write, buffer, lenp, ppos);
233
234         if (ret || !write)
235                 return ret;
236
237         update_perf_cpu_limits();
238
239         return 0;
240 }
241
242 /*
243  * perf samples are done in some very critical code paths (NMIs).
244  * If they take too much CPU time, the system can lock up and not
245  * get any real work done.  This will drop the sample rate when
246  * we detect that events are taking too long.
247  */
248 #define NR_ACCUMULATED_SAMPLES 128
249 static DEFINE_PER_CPU(u64, running_sample_length);
250
251 static void perf_duration_warn(struct irq_work *w)
252 {
253         u64 allowed_ns = ACCESS_ONCE(perf_sample_allowed_ns);
254         u64 avg_local_sample_len;
255         u64 local_samples_len;
256
257         local_samples_len = __this_cpu_read(running_sample_length);
258         avg_local_sample_len = local_samples_len/NR_ACCUMULATED_SAMPLES;
259
260         printk_ratelimited(KERN_WARNING
261                         "perf interrupt took too long (%lld > %lld), lowering "
262                         "kernel.perf_event_max_sample_rate to %d\n",
263                         avg_local_sample_len, allowed_ns >> 1,
264                         sysctl_perf_event_sample_rate);
265 }
266
267 static DEFINE_IRQ_WORK(perf_duration_work, perf_duration_warn);
268
269 void perf_sample_event_took(u64 sample_len_ns)
270 {
271         u64 allowed_ns = ACCESS_ONCE(perf_sample_allowed_ns);
272         u64 avg_local_sample_len;
273         u64 local_samples_len;
274
275         if (allowed_ns == 0)
276                 return;
277
278         /* decay the counter by 1 average sample */
279         local_samples_len = __this_cpu_read(running_sample_length);
280         local_samples_len -= local_samples_len/NR_ACCUMULATED_SAMPLES;
281         local_samples_len += sample_len_ns;
282         __this_cpu_write(running_sample_length, local_samples_len);
283
284         /*
285          * note: this will be biased artifically low until we have
286          * seen NR_ACCUMULATED_SAMPLES.  Doing it this way keeps us
287          * from having to maintain a count.
288          */
289         avg_local_sample_len = local_samples_len/NR_ACCUMULATED_SAMPLES;
290
291         if (avg_local_sample_len <= allowed_ns)
292                 return;
293
294         if (max_samples_per_tick <= 1)
295                 return;
296
297         max_samples_per_tick = DIV_ROUND_UP(max_samples_per_tick, 2);
298         sysctl_perf_event_sample_rate = max_samples_per_tick * HZ;
299         perf_sample_period_ns = NSEC_PER_SEC / sysctl_perf_event_sample_rate;
300
301         update_perf_cpu_limits();
302
303         if (!irq_work_queue(&perf_duration_work)) {
304                 early_printk("perf interrupt took too long (%lld > %lld), lowering "
305                              "kernel.perf_event_max_sample_rate to %d\n",
306                              avg_local_sample_len, allowed_ns >> 1,
307                              sysctl_perf_event_sample_rate);
308         }
309 }
310
311 static atomic64_t perf_event_id;
312
313 static void cpu_ctx_sched_out(struct perf_cpu_context *cpuctx,
314                               enum event_type_t event_type);
315
316 static void cpu_ctx_sched_in(struct perf_cpu_context *cpuctx,
317                              enum event_type_t event_type,
318                              struct task_struct *task);
319
320 static void update_context_time(struct perf_event_context *ctx);
321 static u64 perf_event_time(struct perf_event *event);
322
323 void __weak perf_event_print_debug(void)        { }
324
325 extern __weak const char *perf_pmu_name(void)
326 {
327         return "pmu";
328 }
329
330 static inline u64 perf_clock(void)
331 {
332         return local_clock();
333 }
334
335 static inline u64 perf_event_clock(struct perf_event *event)
336 {
337         return event->clock();
338 }
339
340 static inline struct perf_cpu_context *
341 __get_cpu_context(struct perf_event_context *ctx)
342 {
343         return this_cpu_ptr(ctx->pmu->pmu_cpu_context);
344 }
345
346 static void perf_ctx_lock(struct perf_cpu_context *cpuctx,
347                           struct perf_event_context *ctx)
348 {
349         raw_spin_lock(&cpuctx->ctx.lock);
350         if (ctx)
351                 raw_spin_lock(&ctx->lock);
352 }
353
354 static void perf_ctx_unlock(struct perf_cpu_context *cpuctx,
355                             struct perf_event_context *ctx)
356 {
357         if (ctx)
358                 raw_spin_unlock(&ctx->lock);
359         raw_spin_unlock(&cpuctx->ctx.lock);
360 }
361
362 #ifdef CONFIG_CGROUP_PERF
363
364 static inline bool
365 perf_cgroup_match(struct perf_event *event)
366 {
367         struct perf_event_context *ctx = event->ctx;
368         struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
369
370         /* @event doesn't care about cgroup */
371         if (!event->cgrp)
372                 return true;
373
374         /* wants specific cgroup scope but @cpuctx isn't associated with any */
375         if (!cpuctx->cgrp)
376                 return false;
377
378         /*
379          * Cgroup scoping is recursive.  An event enabled for a cgroup is
380          * also enabled for all its descendant cgroups.  If @cpuctx's
381          * cgroup is a descendant of @event's (the test covers identity
382          * case), it's a match.
383          */
384         return cgroup_is_descendant(cpuctx->cgrp->css.cgroup,
385                                     event->cgrp->css.cgroup);
386 }
387
388 static inline void perf_detach_cgroup(struct perf_event *event)
389 {
390         css_put(&event->cgrp->css);
391         event->cgrp = NULL;
392 }
393
394 static inline int is_cgroup_event(struct perf_event *event)
395 {
396         return event->cgrp != NULL;
397 }
398
399 static inline u64 perf_cgroup_event_time(struct perf_event *event)
400 {
401         struct perf_cgroup_info *t;
402
403         t = per_cpu_ptr(event->cgrp->info, event->cpu);
404         return t->time;
405 }
406
407 static inline void __update_cgrp_time(struct perf_cgroup *cgrp)
408 {
409         struct perf_cgroup_info *info;
410         u64 now;
411
412         now = perf_clock();
413
414         info = this_cpu_ptr(cgrp->info);
415
416         info->time += now - info->timestamp;
417         info->timestamp = now;
418 }
419
420 static inline void update_cgrp_time_from_cpuctx(struct perf_cpu_context *cpuctx)
421 {
422         struct perf_cgroup *cgrp_out = cpuctx->cgrp;
423         if (cgrp_out)
424                 __update_cgrp_time(cgrp_out);
425 }
426
427 static inline void update_cgrp_time_from_event(struct perf_event *event)
428 {
429         struct perf_cgroup *cgrp;
430
431         /*
432          * ensure we access cgroup data only when needed and
433          * when we know the cgroup is pinned (css_get)
434          */
435         if (!is_cgroup_event(event))
436                 return;
437
438         cgrp = perf_cgroup_from_task(current, event->ctx);
439         /*
440          * Do not update time when cgroup is not active
441          */
442         if (cgrp == event->cgrp)
443                 __update_cgrp_time(event->cgrp);
444 }
445
446 static inline void
447 perf_cgroup_set_timestamp(struct task_struct *task,
448                           struct perf_event_context *ctx)
449 {
450         struct perf_cgroup *cgrp;
451         struct perf_cgroup_info *info;
452
453         /*
454          * ctx->lock held by caller
455          * ensure we do not access cgroup data
456          * unless we have the cgroup pinned (css_get)
457          */
458         if (!task || !ctx->nr_cgroups)
459                 return;
460
461         cgrp = perf_cgroup_from_task(task, ctx);
462         info = this_cpu_ptr(cgrp->info);
463         info->timestamp = ctx->timestamp;
464 }
465
466 #define PERF_CGROUP_SWOUT       0x1 /* cgroup switch out every event */
467 #define PERF_CGROUP_SWIN        0x2 /* cgroup switch in events based on task */
468
469 /*
470  * reschedule events based on the cgroup constraint of task.
471  *
472  * mode SWOUT : schedule out everything
473  * mode SWIN : schedule in based on cgroup for next
474  */
475 static void perf_cgroup_switch(struct task_struct *task, int mode)
476 {
477         struct perf_cpu_context *cpuctx;
478         struct pmu *pmu;
479         unsigned long flags;
480
481         /*
482          * disable interrupts to avoid geting nr_cgroup
483          * changes via __perf_event_disable(). Also
484          * avoids preemption.
485          */
486         local_irq_save(flags);
487
488         /*
489          * we reschedule only in the presence of cgroup
490          * constrained events.
491          */
492
493         list_for_each_entry_rcu(pmu, &pmus, entry) {
494                 cpuctx = this_cpu_ptr(pmu->pmu_cpu_context);
495                 if (cpuctx->unique_pmu != pmu)
496                         continue; /* ensure we process each cpuctx once */
497
498                 /*
499                  * perf_cgroup_events says at least one
500                  * context on this CPU has cgroup events.
501                  *
502                  * ctx->nr_cgroups reports the number of cgroup
503                  * events for a context.
504                  */
505                 if (cpuctx->ctx.nr_cgroups > 0) {
506                         perf_ctx_lock(cpuctx, cpuctx->task_ctx);
507                         perf_pmu_disable(cpuctx->ctx.pmu);
508
509                         if (mode & PERF_CGROUP_SWOUT) {
510                                 cpu_ctx_sched_out(cpuctx, EVENT_ALL);
511                                 /*
512                                  * must not be done before ctxswout due
513                                  * to event_filter_match() in event_sched_out()
514                                  */
515                                 cpuctx->cgrp = NULL;
516                         }
517
518                         if (mode & PERF_CGROUP_SWIN) {
519                                 WARN_ON_ONCE(cpuctx->cgrp);
520                                 /*
521                                  * set cgrp before ctxsw in to allow
522                                  * event_filter_match() to not have to pass
523                                  * task around
524                                  * we pass the cpuctx->ctx to perf_cgroup_from_task()
525                                  * because cgorup events are only per-cpu
526                                  */
527                                 cpuctx->cgrp = perf_cgroup_from_task(task, &cpuctx->ctx);
528                                 cpu_ctx_sched_in(cpuctx, EVENT_ALL, task);
529                         }
530                         perf_pmu_enable(cpuctx->ctx.pmu);
531                         perf_ctx_unlock(cpuctx, cpuctx->task_ctx);
532                 }
533         }
534
535         local_irq_restore(flags);
536 }
537
538 static inline void perf_cgroup_sched_out(struct task_struct *task,
539                                          struct task_struct *next)
540 {
541         struct perf_cgroup *cgrp1;
542         struct perf_cgroup *cgrp2 = NULL;
543
544         rcu_read_lock();
545         /*
546          * we come here when we know perf_cgroup_events > 0
547          * we do not need to pass the ctx here because we know
548          * we are holding the rcu lock
549          */
550         cgrp1 = perf_cgroup_from_task(task, NULL);
551
552         /*
553          * next is NULL when called from perf_event_enable_on_exec()
554          * that will systematically cause a cgroup_switch()
555          */
556         if (next)
557                 cgrp2 = perf_cgroup_from_task(next, NULL);
558
559         /*
560          * only schedule out current cgroup events if we know
561          * that we are switching to a different cgroup. Otherwise,
562          * do no touch the cgroup events.
563          */
564         if (cgrp1 != cgrp2)
565                 perf_cgroup_switch(task, PERF_CGROUP_SWOUT);
566
567         rcu_read_unlock();
568 }
569
570 static inline void perf_cgroup_sched_in(struct task_struct *prev,
571                                         struct task_struct *task)
572 {
573         struct perf_cgroup *cgrp1;
574         struct perf_cgroup *cgrp2 = NULL;
575
576         rcu_read_lock();
577         /*
578          * we come here when we know perf_cgroup_events > 0
579          * we do not need to pass the ctx here because we know
580          * we are holding the rcu lock
581          */
582         cgrp1 = perf_cgroup_from_task(task, NULL);
583
584         /* prev can never be NULL */
585         cgrp2 = perf_cgroup_from_task(prev, NULL);
586
587         /*
588          * only need to schedule in cgroup events if we are changing
589          * cgroup during ctxsw. Cgroup events were not scheduled
590          * out of ctxsw out if that was not the case.
591          */
592         if (cgrp1 != cgrp2)
593                 perf_cgroup_switch(task, PERF_CGROUP_SWIN);
594
595         rcu_read_unlock();
596 }
597
598 static inline int perf_cgroup_connect(int fd, struct perf_event *event,
599                                       struct perf_event_attr *attr,
600                                       struct perf_event *group_leader)
601 {
602         struct perf_cgroup *cgrp;
603         struct cgroup_subsys_state *css;
604         struct fd f = fdget(fd);
605         int ret = 0;
606
607         if (!f.file)
608                 return -EBADF;
609
610         css = css_tryget_online_from_dir(f.file->f_path.dentry,
611                                          &perf_event_cgrp_subsys);
612         if (IS_ERR(css)) {
613                 ret = PTR_ERR(css);
614                 goto out;
615         }
616
617         cgrp = container_of(css, struct perf_cgroup, css);
618         event->cgrp = cgrp;
619
620         /*
621          * all events in a group must monitor
622          * the same cgroup because a task belongs
623          * to only one perf cgroup at a time
624          */
625         if (group_leader && group_leader->cgrp != cgrp) {
626                 perf_detach_cgroup(event);
627                 ret = -EINVAL;
628         }
629 out:
630         fdput(f);
631         return ret;
632 }
633
634 static inline void
635 perf_cgroup_set_shadow_time(struct perf_event *event, u64 now)
636 {
637         struct perf_cgroup_info *t;
638         t = per_cpu_ptr(event->cgrp->info, event->cpu);
639         event->shadow_ctx_time = now - t->timestamp;
640 }
641
642 static inline void
643 perf_cgroup_defer_enabled(struct perf_event *event)
644 {
645         /*
646          * when the current task's perf cgroup does not match
647          * the event's, we need to remember to call the
648          * perf_mark_enable() function the first time a task with
649          * a matching perf cgroup is scheduled in.
650          */
651         if (is_cgroup_event(event) && !perf_cgroup_match(event))
652                 event->cgrp_defer_enabled = 1;
653 }
654
655 static inline void
656 perf_cgroup_mark_enabled(struct perf_event *event,
657                          struct perf_event_context *ctx)
658 {
659         struct perf_event *sub;
660         u64 tstamp = perf_event_time(event);
661
662         if (!event->cgrp_defer_enabled)
663                 return;
664
665         event->cgrp_defer_enabled = 0;
666
667         event->tstamp_enabled = tstamp - event->total_time_enabled;
668         list_for_each_entry(sub, &event->sibling_list, group_entry) {
669                 if (sub->state >= PERF_EVENT_STATE_INACTIVE) {
670                         sub->tstamp_enabled = tstamp - sub->total_time_enabled;
671                         sub->cgrp_defer_enabled = 0;
672                 }
673         }
674 }
675 #else /* !CONFIG_CGROUP_PERF */
676
677 static inline bool
678 perf_cgroup_match(struct perf_event *event)
679 {
680         return true;
681 }
682
683 static inline void perf_detach_cgroup(struct perf_event *event)
684 {}
685
686 static inline int is_cgroup_event(struct perf_event *event)
687 {
688         return 0;
689 }
690
691 static inline u64 perf_cgroup_event_cgrp_time(struct perf_event *event)
692 {
693         return 0;
694 }
695
696 static inline void update_cgrp_time_from_event(struct perf_event *event)
697 {
698 }
699
700 static inline void update_cgrp_time_from_cpuctx(struct perf_cpu_context *cpuctx)
701 {
702 }
703
704 static inline void perf_cgroup_sched_out(struct task_struct *task,
705                                          struct task_struct *next)
706 {
707 }
708
709 static inline void perf_cgroup_sched_in(struct task_struct *prev,
710                                         struct task_struct *task)
711 {
712 }
713
714 static inline int perf_cgroup_connect(pid_t pid, struct perf_event *event,
715                                       struct perf_event_attr *attr,
716                                       struct perf_event *group_leader)
717 {
718         return -EINVAL;
719 }
720
721 static inline void
722 perf_cgroup_set_timestamp(struct task_struct *task,
723                           struct perf_event_context *ctx)
724 {
725 }
726
727 void
728 perf_cgroup_switch(struct task_struct *task, struct task_struct *next)
729 {
730 }
731
732 static inline void
733 perf_cgroup_set_shadow_time(struct perf_event *event, u64 now)
734 {
735 }
736
737 static inline u64 perf_cgroup_event_time(struct perf_event *event)
738 {
739         return 0;
740 }
741
742 static inline void
743 perf_cgroup_defer_enabled(struct perf_event *event)
744 {
745 }
746
747 static inline void
748 perf_cgroup_mark_enabled(struct perf_event *event,
749                          struct perf_event_context *ctx)
750 {
751 }
752 #endif
753
754 /*
755  * set default to be dependent on timer tick just
756  * like original code
757  */
758 #define PERF_CPU_HRTIMER (1000 / HZ)
759 /*
760  * function must be called with interrupts disbled
761  */
762 static enum hrtimer_restart perf_mux_hrtimer_handler(struct hrtimer *hr)
763 {
764         struct perf_cpu_context *cpuctx;
765         int rotations = 0;
766
767         WARN_ON(!irqs_disabled());
768
769         cpuctx = container_of(hr, struct perf_cpu_context, hrtimer);
770         rotations = perf_rotate_context(cpuctx);
771
772         raw_spin_lock(&cpuctx->hrtimer_lock);
773         if (rotations)
774                 hrtimer_forward_now(hr, cpuctx->hrtimer_interval);
775         else
776                 cpuctx->hrtimer_active = 0;
777         raw_spin_unlock(&cpuctx->hrtimer_lock);
778
779         return rotations ? HRTIMER_RESTART : HRTIMER_NORESTART;
780 }
781
782 static void __perf_mux_hrtimer_init(struct perf_cpu_context *cpuctx, int cpu)
783 {
784         struct hrtimer *timer = &cpuctx->hrtimer;
785         struct pmu *pmu = cpuctx->ctx.pmu;
786         u64 interval;
787
788         /* no multiplexing needed for SW PMU */
789         if (pmu->task_ctx_nr == perf_sw_context)
790                 return;
791
792         /*
793          * check default is sane, if not set then force to
794          * default interval (1/tick)
795          */
796         interval = pmu->hrtimer_interval_ms;
797         if (interval < 1)
798                 interval = pmu->hrtimer_interval_ms = PERF_CPU_HRTIMER;
799
800         cpuctx->hrtimer_interval = ns_to_ktime(NSEC_PER_MSEC * interval);
801
802         raw_spin_lock_init(&cpuctx->hrtimer_lock);
803         hrtimer_init(timer, CLOCK_MONOTONIC, HRTIMER_MODE_ABS_PINNED);
804         timer->function = perf_mux_hrtimer_handler;
805 }
806
807 static int perf_mux_hrtimer_restart(struct perf_cpu_context *cpuctx)
808 {
809         struct hrtimer *timer = &cpuctx->hrtimer;
810         struct pmu *pmu = cpuctx->ctx.pmu;
811         unsigned long flags;
812
813         /* not for SW PMU */
814         if (pmu->task_ctx_nr == perf_sw_context)
815                 return 0;
816
817         raw_spin_lock_irqsave(&cpuctx->hrtimer_lock, flags);
818         if (!cpuctx->hrtimer_active) {
819                 cpuctx->hrtimer_active = 1;
820                 hrtimer_forward_now(timer, cpuctx->hrtimer_interval);
821                 hrtimer_start_expires(timer, HRTIMER_MODE_ABS_PINNED);
822         }
823         raw_spin_unlock_irqrestore(&cpuctx->hrtimer_lock, flags);
824
825         return 0;
826 }
827
828 void perf_pmu_disable(struct pmu *pmu)
829 {
830         int *count = this_cpu_ptr(pmu->pmu_disable_count);
831         if (!(*count)++)
832                 pmu->pmu_disable(pmu);
833 }
834
835 void perf_pmu_enable(struct pmu *pmu)
836 {
837         int *count = this_cpu_ptr(pmu->pmu_disable_count);
838         if (!--(*count))
839                 pmu->pmu_enable(pmu);
840 }
841
842 static DEFINE_PER_CPU(struct list_head, active_ctx_list);
843
844 /*
845  * perf_event_ctx_activate(), perf_event_ctx_deactivate(), and
846  * perf_event_task_tick() are fully serialized because they're strictly cpu
847  * affine and perf_event_ctx{activate,deactivate} are called with IRQs
848  * disabled, while perf_event_task_tick is called from IRQ context.
849  */
850 static void perf_event_ctx_activate(struct perf_event_context *ctx)
851 {
852         struct list_head *head = this_cpu_ptr(&active_ctx_list);
853
854         WARN_ON(!irqs_disabled());
855
856         WARN_ON(!list_empty(&ctx->active_ctx_list));
857
858         list_add(&ctx->active_ctx_list, head);
859 }
860
861 static void perf_event_ctx_deactivate(struct perf_event_context *ctx)
862 {
863         WARN_ON(!irqs_disabled());
864
865         WARN_ON(list_empty(&ctx->active_ctx_list));
866
867         list_del_init(&ctx->active_ctx_list);
868 }
869
870 static void get_ctx(struct perf_event_context *ctx)
871 {
872         WARN_ON(!atomic_inc_not_zero(&ctx->refcount));
873 }
874
875 static void free_ctx(struct rcu_head *head)
876 {
877         struct perf_event_context *ctx;
878
879         ctx = container_of(head, struct perf_event_context, rcu_head);
880         kfree(ctx->task_ctx_data);
881         kfree(ctx);
882 }
883
884 static void put_ctx(struct perf_event_context *ctx)
885 {
886         if (atomic_dec_and_test(&ctx->refcount)) {
887                 if (ctx->parent_ctx)
888                         put_ctx(ctx->parent_ctx);
889                 if (ctx->task)
890                         put_task_struct(ctx->task);
891                 call_rcu(&ctx->rcu_head, free_ctx);
892         }
893 }
894
895 /*
896  * Because of perf_event::ctx migration in sys_perf_event_open::move_group and
897  * perf_pmu_migrate_context() we need some magic.
898  *
899  * Those places that change perf_event::ctx will hold both
900  * perf_event_ctx::mutex of the 'old' and 'new' ctx value.
901  *
902  * Lock ordering is by mutex address. There are two other sites where
903  * perf_event_context::mutex nests and those are:
904  *
905  *  - perf_event_exit_task_context()    [ child , 0 ]
906  *      __perf_event_exit_task()
907  *        sync_child_event()
908  *          put_event()                 [ parent, 1 ]
909  *
910  *  - perf_event_init_context()         [ parent, 0 ]
911  *      inherit_task_group()
912  *        inherit_group()
913  *          inherit_event()
914  *            perf_event_alloc()
915  *              perf_init_event()
916  *                perf_try_init_event() [ child , 1 ]
917  *
918  * While it appears there is an obvious deadlock here -- the parent and child
919  * nesting levels are inverted between the two. This is in fact safe because
920  * life-time rules separate them. That is an exiting task cannot fork, and a
921  * spawning task cannot (yet) exit.
922  *
923  * But remember that that these are parent<->child context relations, and
924  * migration does not affect children, therefore these two orderings should not
925  * interact.
926  *
927  * The change in perf_event::ctx does not affect children (as claimed above)
928  * because the sys_perf_event_open() case will install a new event and break
929  * the ctx parent<->child relation, and perf_pmu_migrate_context() is only
930  * concerned with cpuctx and that doesn't have children.
931  *
932  * The places that change perf_event::ctx will issue:
933  *
934  *   perf_remove_from_context();
935  *   synchronize_rcu();
936  *   perf_install_in_context();
937  *
938  * to affect the change. The remove_from_context() + synchronize_rcu() should
939  * quiesce the event, after which we can install it in the new location. This
940  * means that only external vectors (perf_fops, prctl) can perturb the event
941  * while in transit. Therefore all such accessors should also acquire
942  * perf_event_context::mutex to serialize against this.
943  *
944  * However; because event->ctx can change while we're waiting to acquire
945  * ctx->mutex we must be careful and use the below perf_event_ctx_lock()
946  * function.
947  *
948  * Lock order:
949  *    cred_guard_mutex
950  *      task_struct::perf_event_mutex
951  *        perf_event_context::mutex
952  *          perf_event_context::lock
953  *          perf_event::child_mutex;
954  *          perf_event::mmap_mutex
955  *          mmap_sem
956  */
957 static struct perf_event_context *
958 perf_event_ctx_lock_nested(struct perf_event *event, int nesting)
959 {
960         struct perf_event_context *ctx;
961
962 again:
963         rcu_read_lock();
964         ctx = ACCESS_ONCE(event->ctx);
965         if (!atomic_inc_not_zero(&ctx->refcount)) {
966                 rcu_read_unlock();
967                 goto again;
968         }
969         rcu_read_unlock();
970
971         mutex_lock_nested(&ctx->mutex, nesting);
972         if (event->ctx != ctx) {
973                 mutex_unlock(&ctx->mutex);
974                 put_ctx(ctx);
975                 goto again;
976         }
977
978         return ctx;
979 }
980
981 static inline struct perf_event_context *
982 perf_event_ctx_lock(struct perf_event *event)
983 {
984         return perf_event_ctx_lock_nested(event, 0);
985 }
986
987 static void perf_event_ctx_unlock(struct perf_event *event,
988                                   struct perf_event_context *ctx)
989 {
990         mutex_unlock(&ctx->mutex);
991         put_ctx(ctx);
992 }
993
994 /*
995  * This must be done under the ctx->lock, such as to serialize against
996  * context_equiv(), therefore we cannot call put_ctx() since that might end up
997  * calling scheduler related locks and ctx->lock nests inside those.
998  */
999 static __must_check struct perf_event_context *
1000 unclone_ctx(struct perf_event_context *ctx)
1001 {
1002         struct perf_event_context *parent_ctx = ctx->parent_ctx;
1003
1004         lockdep_assert_held(&ctx->lock);
1005
1006         if (parent_ctx)
1007                 ctx->parent_ctx = NULL;
1008         ctx->generation++;
1009
1010         return parent_ctx;
1011 }
1012
1013 static u32 perf_event_pid(struct perf_event *event, struct task_struct *p)
1014 {
1015         /*
1016          * only top level events have the pid namespace they were created in
1017          */
1018         if (event->parent)
1019                 event = event->parent;
1020
1021         return task_tgid_nr_ns(p, event->ns);
1022 }
1023
1024 static u32 perf_event_tid(struct perf_event *event, struct task_struct *p)
1025 {
1026         /*
1027          * only top level events have the pid namespace they were created in
1028          */
1029         if (event->parent)
1030                 event = event->parent;
1031
1032         return task_pid_nr_ns(p, event->ns);
1033 }
1034
1035 /*
1036  * If we inherit events we want to return the parent event id
1037  * to userspace.
1038  */
1039 static u64 primary_event_id(struct perf_event *event)
1040 {
1041         u64 id = event->id;
1042
1043         if (event->parent)
1044                 id = event->parent->id;
1045
1046         return id;
1047 }
1048
1049 /*
1050  * Get the perf_event_context for a task and lock it.
1051  * This has to cope with with the fact that until it is locked,
1052  * the context could get moved to another task.
1053  */
1054 static struct perf_event_context *
1055 perf_lock_task_context(struct task_struct *task, int ctxn, unsigned long *flags)
1056 {
1057         struct perf_event_context *ctx;
1058
1059 retry:
1060         /*
1061          * One of the few rules of preemptible RCU is that one cannot do
1062          * rcu_read_unlock() while holding a scheduler (or nested) lock when
1063          * part of the read side critical section was irqs-enabled -- see
1064          * rcu_read_unlock_special().
1065          *
1066          * Since ctx->lock nests under rq->lock we must ensure the entire read
1067          * side critical section has interrupts disabled.
1068          */
1069         local_irq_save(*flags);
1070         rcu_read_lock();
1071         ctx = rcu_dereference(task->perf_event_ctxp[ctxn]);
1072         if (ctx) {
1073                 /*
1074                  * If this context is a clone of another, it might
1075                  * get swapped for another underneath us by
1076                  * perf_event_task_sched_out, though the
1077                  * rcu_read_lock() protects us from any context
1078                  * getting freed.  Lock the context and check if it
1079                  * got swapped before we could get the lock, and retry
1080                  * if so.  If we locked the right context, then it
1081                  * can't get swapped on us any more.
1082                  */
1083                 raw_spin_lock(&ctx->lock);
1084                 if (ctx != rcu_dereference(task->perf_event_ctxp[ctxn])) {
1085                         raw_spin_unlock(&ctx->lock);
1086                         rcu_read_unlock();
1087                         local_irq_restore(*flags);
1088                         goto retry;
1089                 }
1090
1091                 if (!atomic_inc_not_zero(&ctx->refcount)) {
1092                         raw_spin_unlock(&ctx->lock);
1093                         ctx = NULL;
1094                 }
1095         }
1096         rcu_read_unlock();
1097         if (!ctx)
1098                 local_irq_restore(*flags);
1099         return ctx;
1100 }
1101
1102 /*
1103  * Get the context for a task and increment its pin_count so it
1104  * can't get swapped to another task.  This also increments its
1105  * reference count so that the context can't get freed.
1106  */
1107 static struct perf_event_context *
1108 perf_pin_task_context(struct task_struct *task, int ctxn)
1109 {
1110         struct perf_event_context *ctx;
1111         unsigned long flags;
1112
1113         ctx = perf_lock_task_context(task, ctxn, &flags);
1114         if (ctx) {
1115                 ++ctx->pin_count;
1116                 raw_spin_unlock_irqrestore(&ctx->lock, flags);
1117         }
1118         return ctx;
1119 }
1120
1121 static void perf_unpin_context(struct perf_event_context *ctx)
1122 {
1123         unsigned long flags;
1124
1125         raw_spin_lock_irqsave(&ctx->lock, flags);
1126         --ctx->pin_count;
1127         raw_spin_unlock_irqrestore(&ctx->lock, flags);
1128 }
1129
1130 /*
1131  * Update the record of the current time in a context.
1132  */
1133 static void update_context_time(struct perf_event_context *ctx)
1134 {
1135         u64 now = perf_clock();
1136
1137         ctx->time += now - ctx->timestamp;
1138         ctx->timestamp = now;
1139 }
1140
1141 static u64 perf_event_time(struct perf_event *event)
1142 {
1143         struct perf_event_context *ctx = event->ctx;
1144
1145         if (is_cgroup_event(event))
1146                 return perf_cgroup_event_time(event);
1147
1148         return ctx ? ctx->time : 0;
1149 }
1150
1151 /*
1152  * Update the total_time_enabled and total_time_running fields for a event.
1153  * The caller of this function needs to hold the ctx->lock.
1154  */
1155 static void update_event_times(struct perf_event *event)
1156 {
1157         struct perf_event_context *ctx = event->ctx;
1158         u64 run_end;
1159
1160         if (event->state < PERF_EVENT_STATE_INACTIVE ||
1161             event->group_leader->state < PERF_EVENT_STATE_INACTIVE)
1162                 return;
1163         /*
1164          * in cgroup mode, time_enabled represents
1165          * the time the event was enabled AND active
1166          * tasks were in the monitored cgroup. This is
1167          * independent of the activity of the context as
1168          * there may be a mix of cgroup and non-cgroup events.
1169          *
1170          * That is why we treat cgroup events differently
1171          * here.
1172          */
1173         if (is_cgroup_event(event))
1174                 run_end = perf_cgroup_event_time(event);
1175         else if (ctx->is_active)
1176                 run_end = ctx->time;
1177         else
1178                 run_end = event->tstamp_stopped;
1179
1180         event->total_time_enabled = run_end - event->tstamp_enabled;
1181
1182         if (event->state == PERF_EVENT_STATE_INACTIVE)
1183                 run_end = event->tstamp_stopped;
1184         else
1185                 run_end = perf_event_time(event);
1186
1187         event->total_time_running = run_end - event->tstamp_running;
1188
1189 }
1190
1191 /*
1192  * Update total_time_enabled and total_time_running for all events in a group.
1193  */
1194 static void update_group_times(struct perf_event *leader)
1195 {
1196         struct perf_event *event;
1197
1198         update_event_times(leader);
1199         list_for_each_entry(event, &leader->sibling_list, group_entry)
1200                 update_event_times(event);
1201 }
1202
1203 static struct list_head *
1204 ctx_group_list(struct perf_event *event, struct perf_event_context *ctx)
1205 {
1206         if (event->attr.pinned)
1207                 return &ctx->pinned_groups;
1208         else
1209                 return &ctx->flexible_groups;
1210 }
1211
1212 /*
1213  * Add a event from the lists for its context.
1214  * Must be called with ctx->mutex and ctx->lock held.
1215  */
1216 static void
1217 list_add_event(struct perf_event *event, struct perf_event_context *ctx)
1218 {
1219         WARN_ON_ONCE(event->attach_state & PERF_ATTACH_CONTEXT);
1220         event->attach_state |= PERF_ATTACH_CONTEXT;
1221
1222         /*
1223          * If we're a stand alone event or group leader, we go to the context
1224          * list, group events are kept attached to the group so that
1225          * perf_group_detach can, at all times, locate all siblings.
1226          */
1227         if (event->group_leader == event) {
1228                 struct list_head *list;
1229
1230                 if (is_software_event(event))
1231                         event->group_flags |= PERF_GROUP_SOFTWARE;
1232
1233                 list = ctx_group_list(event, ctx);
1234                 list_add_tail(&event->group_entry, list);
1235         }
1236
1237         if (is_cgroup_event(event))
1238                 ctx->nr_cgroups++;
1239
1240         list_add_rcu(&event->event_entry, &ctx->event_list);
1241         ctx->nr_events++;
1242         if (event->attr.inherit_stat)
1243                 ctx->nr_stat++;
1244
1245         ctx->generation++;
1246 }
1247
1248 /*
1249  * Initialize event state based on the perf_event_attr::disabled.
1250  */
1251 static inline void perf_event__state_init(struct perf_event *event)
1252 {
1253         event->state = event->attr.disabled ? PERF_EVENT_STATE_OFF :
1254                                               PERF_EVENT_STATE_INACTIVE;
1255 }
1256
1257 static void __perf_event_read_size(struct perf_event *event, int nr_siblings)
1258 {
1259         int entry = sizeof(u64); /* value */
1260         int size = 0;
1261         int nr = 1;
1262
1263         if (event->attr.read_format & PERF_FORMAT_TOTAL_TIME_ENABLED)
1264                 size += sizeof(u64);
1265
1266         if (event->attr.read_format & PERF_FORMAT_TOTAL_TIME_RUNNING)
1267                 size += sizeof(u64);
1268
1269         if (event->attr.read_format & PERF_FORMAT_ID)
1270                 entry += sizeof(u64);
1271
1272         if (event->attr.read_format & PERF_FORMAT_GROUP) {
1273                 nr += nr_siblings;
1274                 size += sizeof(u64);
1275         }
1276
1277         size += entry * nr;
1278         event->read_size = size;
1279 }
1280
1281 static void __perf_event_header_size(struct perf_event *event, u64 sample_type)
1282 {
1283         struct perf_sample_data *data;
1284         u16 size = 0;
1285
1286         if (sample_type & PERF_SAMPLE_IP)
1287                 size += sizeof(data->ip);
1288
1289         if (sample_type & PERF_SAMPLE_ADDR)
1290                 size += sizeof(data->addr);
1291
1292         if (sample_type & PERF_SAMPLE_PERIOD)
1293                 size += sizeof(data->period);
1294
1295         if (sample_type & PERF_SAMPLE_WEIGHT)
1296                 size += sizeof(data->weight);
1297
1298         if (sample_type & PERF_SAMPLE_READ)
1299                 size += event->read_size;
1300
1301         if (sample_type & PERF_SAMPLE_DATA_SRC)
1302                 size += sizeof(data->data_src.val);
1303
1304         if (sample_type & PERF_SAMPLE_TRANSACTION)
1305                 size += sizeof(data->txn);
1306
1307         event->header_size = size;
1308 }
1309
1310 /*
1311  * Called at perf_event creation and when events are attached/detached from a
1312  * group.
1313  */
1314 static void perf_event__header_size(struct perf_event *event)
1315 {
1316         __perf_event_read_size(event,
1317                                event->group_leader->nr_siblings);
1318         __perf_event_header_size(event, event->attr.sample_type);
1319 }
1320
1321 static void perf_event__id_header_size(struct perf_event *event)
1322 {
1323         struct perf_sample_data *data;
1324         u64 sample_type = event->attr.sample_type;
1325         u16 size = 0;
1326
1327         if (sample_type & PERF_SAMPLE_TID)
1328                 size += sizeof(data->tid_entry);
1329
1330         if (sample_type & PERF_SAMPLE_TIME)
1331                 size += sizeof(data->time);
1332
1333         if (sample_type & PERF_SAMPLE_IDENTIFIER)
1334                 size += sizeof(data->id);
1335
1336         if (sample_type & PERF_SAMPLE_ID)
1337                 size += sizeof(data->id);
1338
1339         if (sample_type & PERF_SAMPLE_STREAM_ID)
1340                 size += sizeof(data->stream_id);
1341
1342         if (sample_type & PERF_SAMPLE_CPU)
1343                 size += sizeof(data->cpu_entry);
1344
1345         event->id_header_size = size;
1346 }
1347
1348 static bool perf_event_validate_size(struct perf_event *event)
1349 {
1350         /*
1351          * The values computed here will be over-written when we actually
1352          * attach the event.
1353          */
1354         __perf_event_read_size(event, event->group_leader->nr_siblings + 1);
1355         __perf_event_header_size(event, event->attr.sample_type & ~PERF_SAMPLE_READ);
1356         perf_event__id_header_size(event);
1357
1358         /*
1359          * Sum the lot; should not exceed the 64k limit we have on records.
1360          * Conservative limit to allow for callchains and other variable fields.
1361          */
1362         if (event->read_size + event->header_size +
1363             event->id_header_size + sizeof(struct perf_event_header) >= 16*1024)
1364                 return false;
1365
1366         return true;
1367 }
1368
1369 static void perf_group_attach(struct perf_event *event)
1370 {
1371         struct perf_event *group_leader = event->group_leader, *pos;
1372
1373         /*
1374          * We can have double attach due to group movement in perf_event_open.
1375          */
1376         if (event->attach_state & PERF_ATTACH_GROUP)
1377                 return;
1378
1379         event->attach_state |= PERF_ATTACH_GROUP;
1380
1381         if (group_leader == event)
1382                 return;
1383
1384         WARN_ON_ONCE(group_leader->ctx != event->ctx);
1385
1386         if (group_leader->group_flags & PERF_GROUP_SOFTWARE &&
1387                         !is_software_event(event))
1388                 group_leader->group_flags &= ~PERF_GROUP_SOFTWARE;
1389
1390         list_add_tail(&event->group_entry, &group_leader->sibling_list);
1391         group_leader->nr_siblings++;
1392
1393         perf_event__header_size(group_leader);
1394
1395         list_for_each_entry(pos, &group_leader->sibling_list, group_entry)
1396                 perf_event__header_size(pos);
1397 }
1398
1399 /*
1400  * Remove a event from the lists for its context.
1401  * Must be called with ctx->mutex and ctx->lock held.
1402  */
1403 static void
1404 list_del_event(struct perf_event *event, struct perf_event_context *ctx)
1405 {
1406         struct perf_cpu_context *cpuctx;
1407
1408         WARN_ON_ONCE(event->ctx != ctx);
1409         lockdep_assert_held(&ctx->lock);
1410
1411         /*
1412          * We can have double detach due to exit/hot-unplug + close.
1413          */
1414         if (!(event->attach_state & PERF_ATTACH_CONTEXT))
1415                 return;
1416
1417         event->attach_state &= ~PERF_ATTACH_CONTEXT;
1418
1419         if (is_cgroup_event(event)) {
1420                 ctx->nr_cgroups--;
1421                 cpuctx = __get_cpu_context(ctx);
1422                 /*
1423                  * if there are no more cgroup events
1424                  * then cler cgrp to avoid stale pointer
1425                  * in update_cgrp_time_from_cpuctx()
1426                  */
1427                 if (!ctx->nr_cgroups)
1428                         cpuctx->cgrp = NULL;
1429         }
1430
1431         ctx->nr_events--;
1432         if (event->attr.inherit_stat)
1433                 ctx->nr_stat--;
1434
1435         list_del_rcu(&event->event_entry);
1436
1437         if (event->group_leader == event)
1438                 list_del_init(&event->group_entry);
1439
1440         update_group_times(event);
1441
1442         /*
1443          * If event was in error state, then keep it
1444          * that way, otherwise bogus counts will be
1445          * returned on read(). The only way to get out
1446          * of error state is by explicit re-enabling
1447          * of the event
1448          */
1449         if (event->state > PERF_EVENT_STATE_OFF)
1450                 event->state = PERF_EVENT_STATE_OFF;
1451
1452         ctx->generation++;
1453 }
1454
1455 static void perf_group_detach(struct perf_event *event)
1456 {
1457         struct perf_event *sibling, *tmp;
1458         struct list_head *list = NULL;
1459
1460         /*
1461          * We can have double detach due to exit/hot-unplug + close.
1462          */
1463         if (!(event->attach_state & PERF_ATTACH_GROUP))
1464                 return;
1465
1466         event->attach_state &= ~PERF_ATTACH_GROUP;
1467
1468         /*
1469          * If this is a sibling, remove it from its group.
1470          */
1471         if (event->group_leader != event) {
1472                 list_del_init(&event->group_entry);
1473                 event->group_leader->nr_siblings--;
1474                 goto out;
1475         }
1476
1477         if (!list_empty(&event->group_entry))
1478                 list = &event->group_entry;
1479
1480         /*
1481          * If this was a group event with sibling events then
1482          * upgrade the siblings to singleton events by adding them
1483          * to whatever list we are on.
1484          */
1485         list_for_each_entry_safe(sibling, tmp, &event->sibling_list, group_entry) {
1486                 if (list)
1487                         list_move_tail(&sibling->group_entry, list);
1488                 sibling->group_leader = sibling;
1489
1490                 /* Inherit group flags from the previous leader */
1491                 sibling->group_flags = event->group_flags;
1492
1493                 WARN_ON_ONCE(sibling->ctx != event->ctx);
1494         }
1495
1496 out:
1497         perf_event__header_size(event->group_leader);
1498
1499         list_for_each_entry(tmp, &event->group_leader->sibling_list, group_entry)
1500                 perf_event__header_size(tmp);
1501 }
1502
1503 /*
1504  * User event without the task.
1505  */
1506 static bool is_orphaned_event(struct perf_event *event)
1507 {
1508         return event && !is_kernel_event(event) && !event->owner;
1509 }
1510
1511 /*
1512  * Event has a parent but parent's task finished and it's
1513  * alive only because of children holding refference.
1514  */
1515 static bool is_orphaned_child(struct perf_event *event)
1516 {
1517         return is_orphaned_event(event->parent);
1518 }
1519
1520 static void orphans_remove_work(struct work_struct *work);
1521
1522 static void schedule_orphans_remove(struct perf_event_context *ctx)
1523 {
1524         if (!ctx->task || ctx->orphans_remove_sched || !perf_wq)
1525                 return;
1526
1527         if (queue_delayed_work(perf_wq, &ctx->orphans_remove, 1)) {
1528                 get_ctx(ctx);
1529                 ctx->orphans_remove_sched = true;
1530         }
1531 }
1532
1533 static int __init perf_workqueue_init(void)
1534 {
1535         perf_wq = create_singlethread_workqueue("perf");
1536         WARN(!perf_wq, "failed to create perf workqueue\n");
1537         return perf_wq ? 0 : -1;
1538 }
1539
1540 core_initcall(perf_workqueue_init);
1541
1542 static inline int pmu_filter_match(struct perf_event *event)
1543 {
1544         struct pmu *pmu = event->pmu;
1545         return pmu->filter_match ? pmu->filter_match(event) : 1;
1546 }
1547
1548 static inline int
1549 event_filter_match(struct perf_event *event)
1550 {
1551         return (event->cpu == -1 || event->cpu == smp_processor_id())
1552             && perf_cgroup_match(event) && pmu_filter_match(event);
1553 }
1554
1555 static void
1556 event_sched_out(struct perf_event *event,
1557                   struct perf_cpu_context *cpuctx,
1558                   struct perf_event_context *ctx)
1559 {
1560         u64 tstamp = perf_event_time(event);
1561         u64 delta;
1562
1563         WARN_ON_ONCE(event->ctx != ctx);
1564         lockdep_assert_held(&ctx->lock);
1565
1566         /*
1567          * An event which could not be activated because of
1568          * filter mismatch still needs to have its timings
1569          * maintained, otherwise bogus information is return
1570          * via read() for time_enabled, time_running:
1571          */
1572         if (event->state == PERF_EVENT_STATE_INACTIVE
1573             && !event_filter_match(event)) {
1574                 delta = tstamp - event->tstamp_stopped;
1575                 event->tstamp_running += delta;
1576                 event->tstamp_stopped = tstamp;
1577         }
1578
1579         if (event->state != PERF_EVENT_STATE_ACTIVE)
1580                 return;
1581
1582         perf_pmu_disable(event->pmu);
1583
1584         event->tstamp_stopped = tstamp;
1585         event->pmu->del(event, 0);
1586         event->oncpu = -1;
1587         event->state = PERF_EVENT_STATE_INACTIVE;
1588         if (event->pending_disable) {
1589                 event->pending_disable = 0;
1590                 event->state = PERF_EVENT_STATE_OFF;
1591         }
1592
1593         if (!is_software_event(event))
1594                 cpuctx->active_oncpu--;
1595         if (!--ctx->nr_active)
1596                 perf_event_ctx_deactivate(ctx);
1597         if (event->attr.freq && event->attr.sample_freq)
1598                 ctx->nr_freq--;
1599         if (event->attr.exclusive || !cpuctx->active_oncpu)
1600                 cpuctx->exclusive = 0;
1601
1602         if (is_orphaned_child(event))
1603                 schedule_orphans_remove(ctx);
1604
1605         perf_pmu_enable(event->pmu);
1606 }
1607
1608 static void
1609 group_sched_out(struct perf_event *group_event,
1610                 struct perf_cpu_context *cpuctx,
1611                 struct perf_event_context *ctx)
1612 {
1613         struct perf_event *event;
1614         int state = group_event->state;
1615
1616         event_sched_out(group_event, cpuctx, ctx);
1617
1618         /*
1619          * Schedule out siblings (if any):
1620          */
1621         list_for_each_entry(event, &group_event->sibling_list, group_entry)
1622                 event_sched_out(event, cpuctx, ctx);
1623
1624         if (state == PERF_EVENT_STATE_ACTIVE && group_event->attr.exclusive)
1625                 cpuctx->exclusive = 0;
1626 }
1627
1628 struct remove_event {
1629         struct perf_event *event;
1630         bool detach_group;
1631 };
1632
1633 /*
1634  * Cross CPU call to remove a performance event
1635  *
1636  * We disable the event on the hardware level first. After that we
1637  * remove it from the context list.
1638  */
1639 static int __perf_remove_from_context(void *info)
1640 {
1641         struct remove_event *re = info;
1642         struct perf_event *event = re->event;
1643         struct perf_event_context *ctx = event->ctx;
1644         struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
1645
1646         raw_spin_lock(&ctx->lock);
1647         event_sched_out(event, cpuctx, ctx);
1648         if (re->detach_group)
1649                 perf_group_detach(event);
1650         list_del_event(event, ctx);
1651         if (!ctx->nr_events && cpuctx->task_ctx == ctx) {
1652                 ctx->is_active = 0;
1653                 cpuctx->task_ctx = NULL;
1654         }
1655         raw_spin_unlock(&ctx->lock);
1656
1657         return 0;
1658 }
1659
1660
1661 /*
1662  * Remove the event from a task's (or a CPU's) list of events.
1663  *
1664  * CPU events are removed with a smp call. For task events we only
1665  * call when the task is on a CPU.
1666  *
1667  * If event->ctx is a cloned context, callers must make sure that
1668  * every task struct that event->ctx->task could possibly point to
1669  * remains valid.  This is OK when called from perf_release since
1670  * that only calls us on the top-level context, which can't be a clone.
1671  * When called from perf_event_exit_task, it's OK because the
1672  * context has been detached from its task.
1673  */
1674 static void perf_remove_from_context(struct perf_event *event, bool detach_group)
1675 {
1676         struct perf_event_context *ctx = event->ctx;
1677         struct task_struct *task = ctx->task;
1678         struct remove_event re = {
1679                 .event = event,
1680                 .detach_group = detach_group,
1681         };
1682
1683         lockdep_assert_held(&ctx->mutex);
1684
1685         if (!task) {
1686                 /*
1687                  * Per cpu events are removed via an smp call. The removal can
1688                  * fail if the CPU is currently offline, but in that case we
1689                  * already called __perf_remove_from_context from
1690                  * perf_event_exit_cpu.
1691                  */
1692                 cpu_function_call(event->cpu, __perf_remove_from_context, &re);
1693                 return;
1694         }
1695
1696 retry:
1697         if (!task_function_call(task, __perf_remove_from_context, &re))
1698                 return;
1699
1700         raw_spin_lock_irq(&ctx->lock);
1701         /*
1702          * If we failed to find a running task, but find the context active now
1703          * that we've acquired the ctx->lock, retry.
1704          */
1705         if (ctx->is_active) {
1706                 raw_spin_unlock_irq(&ctx->lock);
1707                 /*
1708                  * Reload the task pointer, it might have been changed by
1709                  * a concurrent perf_event_context_sched_out().
1710                  */
1711                 task = ctx->task;
1712                 goto retry;
1713         }
1714
1715         /*
1716          * Since the task isn't running, its safe to remove the event, us
1717          * holding the ctx->lock ensures the task won't get scheduled in.
1718          */
1719         if (detach_group)
1720                 perf_group_detach(event);
1721         list_del_event(event, ctx);
1722         raw_spin_unlock_irq(&ctx->lock);
1723 }
1724
1725 /*
1726  * Cross CPU call to disable a performance event
1727  */
1728 int __perf_event_disable(void *info)
1729 {
1730         struct perf_event *event = info;
1731         struct perf_event_context *ctx = event->ctx;
1732         struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
1733
1734         /*
1735          * If this is a per-task event, need to check whether this
1736          * event's task is the current task on this cpu.
1737          *
1738          * Can trigger due to concurrent perf_event_context_sched_out()
1739          * flipping contexts around.
1740          */
1741         if (ctx->task && cpuctx->task_ctx != ctx)
1742                 return -EINVAL;
1743
1744         raw_spin_lock(&ctx->lock);
1745
1746         /*
1747          * If the event is on, turn it off.
1748          * If it is in error state, leave it in error state.
1749          */
1750         if (event->state >= PERF_EVENT_STATE_INACTIVE) {
1751                 update_context_time(ctx);
1752                 update_cgrp_time_from_event(event);
1753                 update_group_times(event);
1754                 if (event == event->group_leader)
1755                         group_sched_out(event, cpuctx, ctx);
1756                 else
1757                         event_sched_out(event, cpuctx, ctx);
1758                 event->state = PERF_EVENT_STATE_OFF;
1759         }
1760
1761         raw_spin_unlock(&ctx->lock);
1762
1763         return 0;
1764 }
1765
1766 /*
1767  * Disable a event.
1768  *
1769  * If event->ctx is a cloned context, callers must make sure that
1770  * every task struct that event->ctx->task could possibly point to
1771  * remains valid.  This condition is satisifed when called through
1772  * perf_event_for_each_child or perf_event_for_each because they
1773  * hold the top-level event's child_mutex, so any descendant that
1774  * goes to exit will block in sync_child_event.
1775  * When called from perf_pending_event it's OK because event->ctx
1776  * is the current context on this CPU and preemption is disabled,
1777  * hence we can't get into perf_event_task_sched_out for this context.
1778  */
1779 static void _perf_event_disable(struct perf_event *event)
1780 {
1781         struct perf_event_context *ctx = event->ctx;
1782         struct task_struct *task = ctx->task;
1783
1784         if (!task) {
1785                 /*
1786                  * Disable the event on the cpu that it's on
1787                  */
1788                 cpu_function_call(event->cpu, __perf_event_disable, event);
1789                 return;
1790         }
1791
1792 retry:
1793         if (!task_function_call(task, __perf_event_disable, event))
1794                 return;
1795
1796         raw_spin_lock_irq(&ctx->lock);
1797         /*
1798          * If the event is still active, we need to retry the cross-call.
1799          */
1800         if (event->state == PERF_EVENT_STATE_ACTIVE) {
1801                 raw_spin_unlock_irq(&ctx->lock);
1802                 /*
1803                  * Reload the task pointer, it might have been changed by
1804                  * a concurrent perf_event_context_sched_out().
1805                  */
1806                 task = ctx->task;
1807                 goto retry;
1808         }
1809
1810         /*
1811          * Since we have the lock this context can't be scheduled
1812          * in, so we can change the state safely.
1813          */
1814         if (event->state == PERF_EVENT_STATE_INACTIVE) {
1815                 update_group_times(event);
1816                 event->state = PERF_EVENT_STATE_OFF;
1817         }
1818         raw_spin_unlock_irq(&ctx->lock);
1819 }
1820
1821 /*
1822  * Strictly speaking kernel users cannot create groups and therefore this
1823  * interface does not need the perf_event_ctx_lock() magic.
1824  */
1825 void perf_event_disable(struct perf_event *event)
1826 {
1827         struct perf_event_context *ctx;
1828
1829         ctx = perf_event_ctx_lock(event);
1830         _perf_event_disable(event);
1831         perf_event_ctx_unlock(event, ctx);
1832 }
1833 EXPORT_SYMBOL_GPL(perf_event_disable);
1834
1835 static void perf_set_shadow_time(struct perf_event *event,
1836                                  struct perf_event_context *ctx,
1837                                  u64 tstamp)
1838 {
1839         /*
1840          * use the correct time source for the time snapshot
1841          *
1842          * We could get by without this by leveraging the
1843          * fact that to get to this function, the caller
1844          * has most likely already called update_context_time()
1845          * and update_cgrp_time_xx() and thus both timestamp
1846          * are identical (or very close). Given that tstamp is,
1847          * already adjusted for cgroup, we could say that:
1848          *    tstamp - ctx->timestamp
1849          * is equivalent to
1850          *    tstamp - cgrp->timestamp.
1851          *
1852          * Then, in perf_output_read(), the calculation would
1853          * work with no changes because:
1854          * - event is guaranteed scheduled in
1855          * - no scheduled out in between
1856          * - thus the timestamp would be the same
1857          *
1858          * But this is a bit hairy.
1859          *
1860          * So instead, we have an explicit cgroup call to remain
1861          * within the time time source all along. We believe it
1862          * is cleaner and simpler to understand.
1863          */
1864         if (is_cgroup_event(event))
1865                 perf_cgroup_set_shadow_time(event, tstamp);
1866         else
1867                 event->shadow_ctx_time = tstamp - ctx->timestamp;
1868 }
1869
1870 #define MAX_INTERRUPTS (~0ULL)
1871
1872 static void perf_log_throttle(struct perf_event *event, int enable);
1873 static void perf_log_itrace_start(struct perf_event *event);
1874
1875 static int
1876 event_sched_in(struct perf_event *event,
1877                  struct perf_cpu_context *cpuctx,
1878                  struct perf_event_context *ctx)
1879 {
1880         u64 tstamp = perf_event_time(event);
1881         int ret = 0;
1882
1883         lockdep_assert_held(&ctx->lock);
1884
1885         if (event->state <= PERF_EVENT_STATE_OFF)
1886                 return 0;
1887
1888         WRITE_ONCE(event->oncpu, smp_processor_id());
1889         /*
1890          * Order event::oncpu write to happen before the ACTIVE state
1891          * is visible.
1892          */
1893         smp_wmb();
1894         WRITE_ONCE(event->state, PERF_EVENT_STATE_ACTIVE);
1895
1896         /*
1897          * Unthrottle events, since we scheduled we might have missed several
1898          * ticks already, also for a heavily scheduling task there is little
1899          * guarantee it'll get a tick in a timely manner.
1900          */
1901         if (unlikely(event->hw.interrupts == MAX_INTERRUPTS)) {
1902                 perf_log_throttle(event, 1);
1903                 event->hw.interrupts = 0;
1904         }
1905
1906         /*
1907          * The new state must be visible before we turn it on in the hardware:
1908          */
1909         smp_wmb();
1910
1911         perf_pmu_disable(event->pmu);
1912
1913         perf_set_shadow_time(event, ctx, tstamp);
1914
1915         perf_log_itrace_start(event);
1916
1917         if (event->pmu->add(event, PERF_EF_START)) {
1918                 event->state = PERF_EVENT_STATE_INACTIVE;
1919                 event->oncpu = -1;
1920                 ret = -EAGAIN;
1921                 goto out;
1922         }
1923
1924         event->tstamp_running += tstamp - event->tstamp_stopped;
1925
1926         if (!is_software_event(event))
1927                 cpuctx->active_oncpu++;
1928         if (!ctx->nr_active++)
1929                 perf_event_ctx_activate(ctx);
1930         if (event->attr.freq && event->attr.sample_freq)
1931                 ctx->nr_freq++;
1932
1933         if (event->attr.exclusive)
1934                 cpuctx->exclusive = 1;
1935
1936         if (is_orphaned_child(event))
1937                 schedule_orphans_remove(ctx);
1938
1939 out:
1940         perf_pmu_enable(event->pmu);
1941
1942         return ret;
1943 }
1944
1945 static int
1946 group_sched_in(struct perf_event *group_event,
1947                struct perf_cpu_context *cpuctx,
1948                struct perf_event_context *ctx)
1949 {
1950         struct perf_event *event, *partial_group = NULL;
1951         struct pmu *pmu = ctx->pmu;
1952         u64 now = ctx->time;
1953         bool simulate = false;
1954
1955         if (group_event->state == PERF_EVENT_STATE_OFF)
1956                 return 0;
1957
1958         pmu->start_txn(pmu, PERF_PMU_TXN_ADD);
1959
1960         if (event_sched_in(group_event, cpuctx, ctx)) {
1961                 pmu->cancel_txn(pmu);
1962                 perf_mux_hrtimer_restart(cpuctx);
1963                 return -EAGAIN;
1964         }
1965
1966         /*
1967          * Schedule in siblings as one group (if any):
1968          */
1969         list_for_each_entry(event, &group_event->sibling_list, group_entry) {
1970                 if (event_sched_in(event, cpuctx, ctx)) {
1971                         partial_group = event;
1972                         goto group_error;
1973                 }
1974         }
1975
1976         if (!pmu->commit_txn(pmu))
1977                 return 0;
1978
1979 group_error:
1980         /*
1981          * Groups can be scheduled in as one unit only, so undo any
1982          * partial group before returning:
1983          * The events up to the failed event are scheduled out normally,
1984          * tstamp_stopped will be updated.
1985          *
1986          * The failed events and the remaining siblings need to have
1987          * their timings updated as if they had gone thru event_sched_in()
1988          * and event_sched_out(). This is required to get consistent timings
1989          * across the group. This also takes care of the case where the group
1990          * could never be scheduled by ensuring tstamp_stopped is set to mark
1991          * the time the event was actually stopped, such that time delta
1992          * calculation in update_event_times() is correct.
1993          */
1994         list_for_each_entry(event, &group_event->sibling_list, group_entry) {
1995                 if (event == partial_group)
1996                         simulate = true;
1997
1998                 if (simulate) {
1999                         event->tstamp_running += now - event->tstamp_stopped;
2000                         event->tstamp_stopped = now;
2001                 } else {
2002                         event_sched_out(event, cpuctx, ctx);
2003                 }
2004         }
2005         event_sched_out(group_event, cpuctx, ctx);
2006
2007         pmu->cancel_txn(pmu);
2008
2009         perf_mux_hrtimer_restart(cpuctx);
2010
2011         return -EAGAIN;
2012 }
2013
2014 /*
2015  * Work out whether we can put this event group on the CPU now.
2016  */
2017 static int group_can_go_on(struct perf_event *event,
2018                            struct perf_cpu_context *cpuctx,
2019                            int can_add_hw)
2020 {
2021         /*
2022          * Groups consisting entirely of software events can always go on.
2023          */
2024         if (event->group_flags & PERF_GROUP_SOFTWARE)
2025                 return 1;
2026         /*
2027          * If an exclusive group is already on, no other hardware
2028          * events can go on.
2029          */
2030         if (cpuctx->exclusive)
2031                 return 0;
2032         /*
2033          * If this group is exclusive and there are already
2034          * events on the CPU, it can't go on.
2035          */
2036         if (event->attr.exclusive && cpuctx->active_oncpu)
2037                 return 0;
2038         /*
2039          * Otherwise, try to add it if all previous groups were able
2040          * to go on.
2041          */
2042         return can_add_hw;
2043 }
2044
2045 static void add_event_to_ctx(struct perf_event *event,
2046                                struct perf_event_context *ctx)
2047 {
2048         u64 tstamp = perf_event_time(event);
2049
2050         list_add_event(event, ctx);
2051         perf_group_attach(event);
2052         event->tstamp_enabled = tstamp;
2053         event->tstamp_running = tstamp;
2054         event->tstamp_stopped = tstamp;
2055 }
2056
2057 static void task_ctx_sched_out(struct perf_event_context *ctx);
2058 static void
2059 ctx_sched_in(struct perf_event_context *ctx,
2060              struct perf_cpu_context *cpuctx,
2061              enum event_type_t event_type,
2062              struct task_struct *task);
2063
2064 static void perf_event_sched_in(struct perf_cpu_context *cpuctx,
2065                                 struct perf_event_context *ctx,
2066                                 struct task_struct *task)
2067 {
2068         cpu_ctx_sched_in(cpuctx, EVENT_PINNED, task);
2069         if (ctx)
2070                 ctx_sched_in(ctx, cpuctx, EVENT_PINNED, task);
2071         cpu_ctx_sched_in(cpuctx, EVENT_FLEXIBLE, task);
2072         if (ctx)
2073                 ctx_sched_in(ctx, cpuctx, EVENT_FLEXIBLE, task);
2074 }
2075
2076 /*
2077  * Cross CPU call to install and enable a performance event
2078  *
2079  * Must be called with ctx->mutex held
2080  */
2081 static int  __perf_install_in_context(void *info)
2082 {
2083         struct perf_event *event = info;
2084         struct perf_event_context *ctx = event->ctx;
2085         struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
2086         struct perf_event_context *task_ctx = cpuctx->task_ctx;
2087         struct task_struct *task = current;
2088
2089         perf_ctx_lock(cpuctx, task_ctx);
2090         perf_pmu_disable(cpuctx->ctx.pmu);
2091
2092         /*
2093          * If there was an active task_ctx schedule it out.
2094          */
2095         if (task_ctx)
2096                 task_ctx_sched_out(task_ctx);
2097
2098         /*
2099          * If the context we're installing events in is not the
2100          * active task_ctx, flip them.
2101          */
2102         if (ctx->task && task_ctx != ctx) {
2103                 if (task_ctx)
2104                         raw_spin_unlock(&task_ctx->lock);
2105                 raw_spin_lock(&ctx->lock);
2106                 task_ctx = ctx;
2107         }
2108
2109         if (task_ctx) {
2110                 cpuctx->task_ctx = task_ctx;
2111                 task = task_ctx->task;
2112         }
2113
2114         cpu_ctx_sched_out(cpuctx, EVENT_ALL);
2115
2116         update_context_time(ctx);
2117         /*
2118          * update cgrp time only if current cgrp
2119          * matches event->cgrp. Must be done before
2120          * calling add_event_to_ctx()
2121          */
2122         update_cgrp_time_from_event(event);
2123
2124         add_event_to_ctx(event, ctx);
2125
2126         /*
2127          * Schedule everything back in
2128          */
2129         perf_event_sched_in(cpuctx, task_ctx, task);
2130
2131         perf_pmu_enable(cpuctx->ctx.pmu);
2132         perf_ctx_unlock(cpuctx, task_ctx);
2133
2134         return 0;
2135 }
2136
2137 /*
2138  * Attach a performance event to a context
2139  *
2140  * First we add the event to the list with the hardware enable bit
2141  * in event->hw_config cleared.
2142  *
2143  * If the event is attached to a task which is on a CPU we use a smp
2144  * call to enable it in the task context. The task might have been
2145  * scheduled away, but we check this in the smp call again.
2146  */
2147 static void
2148 perf_install_in_context(struct perf_event_context *ctx,
2149                         struct perf_event *event,
2150                         int cpu)
2151 {
2152         struct task_struct *task = ctx->task;
2153
2154         lockdep_assert_held(&ctx->mutex);
2155
2156         event->ctx = ctx;
2157         if (event->cpu != -1)
2158                 event->cpu = cpu;
2159
2160         if (!task) {
2161                 /*
2162                  * Per cpu events are installed via an smp call and
2163                  * the install is always successful.
2164                  */
2165                 cpu_function_call(cpu, __perf_install_in_context, event);
2166                 return;
2167         }
2168
2169 retry:
2170         if (!task_function_call(task, __perf_install_in_context, event))
2171                 return;
2172
2173         raw_spin_lock_irq(&ctx->lock);
2174         /*
2175          * If we failed to find a running task, but find the context active now
2176          * that we've acquired the ctx->lock, retry.
2177          */
2178         if (ctx->is_active) {
2179                 raw_spin_unlock_irq(&ctx->lock);
2180                 /*
2181                  * Reload the task pointer, it might have been changed by
2182                  * a concurrent perf_event_context_sched_out().
2183                  */
2184                 task = ctx->task;
2185                 goto retry;
2186         }
2187
2188         /*
2189          * Since the task isn't running, its safe to add the event, us holding
2190          * the ctx->lock ensures the task won't get scheduled in.
2191          */
2192         add_event_to_ctx(event, ctx);
2193         raw_spin_unlock_irq(&ctx->lock);
2194 }
2195
2196 /*
2197  * Put a event into inactive state and update time fields.
2198  * Enabling the leader of a group effectively enables all
2199  * the group members that aren't explicitly disabled, so we
2200  * have to update their ->tstamp_enabled also.
2201  * Note: this works for group members as well as group leaders
2202  * since the non-leader members' sibling_lists will be empty.
2203  */
2204 static void __perf_event_mark_enabled(struct perf_event *event)
2205 {
2206         struct perf_event *sub;
2207         u64 tstamp = perf_event_time(event);
2208
2209         event->state = PERF_EVENT_STATE_INACTIVE;
2210         event->tstamp_enabled = tstamp - event->total_time_enabled;
2211         list_for_each_entry(sub, &event->sibling_list, group_entry) {
2212                 if (sub->state >= PERF_EVENT_STATE_INACTIVE)
2213                         sub->tstamp_enabled = tstamp - sub->total_time_enabled;
2214         }
2215 }
2216
2217 /*
2218  * Cross CPU call to enable a performance event
2219  */
2220 static int __perf_event_enable(void *info)
2221 {
2222         struct perf_event *event = info;
2223         struct perf_event_context *ctx = event->ctx;
2224         struct perf_event *leader = event->group_leader;
2225         struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
2226         int err;
2227
2228         /*
2229          * There's a time window between 'ctx->is_active' check
2230          * in perf_event_enable function and this place having:
2231          *   - IRQs on
2232          *   - ctx->lock unlocked
2233          *
2234          * where the task could be killed and 'ctx' deactivated
2235          * by perf_event_exit_task.
2236          */
2237         if (!ctx->is_active)
2238                 return -EINVAL;
2239
2240         raw_spin_lock(&ctx->lock);
2241         update_context_time(ctx);
2242
2243         if (event->state >= PERF_EVENT_STATE_INACTIVE)
2244                 goto unlock;
2245
2246         /*
2247          * set current task's cgroup time reference point
2248          */
2249         perf_cgroup_set_timestamp(current, ctx);
2250
2251         __perf_event_mark_enabled(event);
2252
2253         if (!event_filter_match(event)) {
2254                 if (is_cgroup_event(event))
2255                         perf_cgroup_defer_enabled(event);
2256                 goto unlock;
2257         }
2258
2259         /*
2260          * If the event is in a group and isn't the group leader,
2261          * then don't put it on unless the group is on.
2262          */
2263         if (leader != event && leader->state != PERF_EVENT_STATE_ACTIVE)
2264                 goto unlock;
2265
2266         if (!group_can_go_on(event, cpuctx, 1)) {
2267                 err = -EEXIST;
2268         } else {
2269                 if (event == leader)
2270                         err = group_sched_in(event, cpuctx, ctx);
2271                 else
2272                         err = event_sched_in(event, cpuctx, ctx);
2273         }
2274
2275         if (err) {
2276                 /*
2277                  * If this event can't go on and it's part of a
2278                  * group, then the whole group has to come off.
2279                  */
2280                 if (leader != event) {
2281                         group_sched_out(leader, cpuctx, ctx);
2282                         perf_mux_hrtimer_restart(cpuctx);
2283                 }
2284                 if (leader->attr.pinned) {
2285                         update_group_times(leader);
2286                         leader->state = PERF_EVENT_STATE_ERROR;
2287                 }
2288         }
2289
2290 unlock:
2291         raw_spin_unlock(&ctx->lock);
2292
2293         return 0;
2294 }
2295
2296 /*
2297  * Enable a event.
2298  *
2299  * If event->ctx is a cloned context, callers must make sure that
2300  * every task struct that event->ctx->task could possibly point to
2301  * remains valid.  This condition is satisfied when called through
2302  * perf_event_for_each_child or perf_event_for_each as described
2303  * for perf_event_disable.
2304  */
2305 static void _perf_event_enable(struct perf_event *event)
2306 {
2307         struct perf_event_context *ctx = event->ctx;
2308         struct task_struct *task = ctx->task;
2309
2310         if (!task) {
2311                 /*
2312                  * Enable the event on the cpu that it's on
2313                  */
2314                 cpu_function_call(event->cpu, __perf_event_enable, event);
2315                 return;
2316         }
2317
2318         raw_spin_lock_irq(&ctx->lock);
2319         if (event->state >= PERF_EVENT_STATE_INACTIVE)
2320                 goto out;
2321
2322         /*
2323          * If the event is in error state, clear that first.
2324          * That way, if we see the event in error state below, we
2325          * know that it has gone back into error state, as distinct
2326          * from the task having been scheduled away before the
2327          * cross-call arrived.
2328          */
2329         if (event->state == PERF_EVENT_STATE_ERROR)
2330                 event->state = PERF_EVENT_STATE_OFF;
2331
2332 retry:
2333         if (!ctx->is_active) {
2334                 __perf_event_mark_enabled(event);
2335                 goto out;
2336         }
2337
2338         raw_spin_unlock_irq(&ctx->lock);
2339
2340         if (!task_function_call(task, __perf_event_enable, event))
2341                 return;
2342
2343         raw_spin_lock_irq(&ctx->lock);
2344
2345         /*
2346          * If the context is active and the event is still off,
2347          * we need to retry the cross-call.
2348          */
2349         if (ctx->is_active && event->state == PERF_EVENT_STATE_OFF) {
2350                 /*
2351                  * task could have been flipped by a concurrent
2352                  * perf_event_context_sched_out()
2353                  */
2354                 task = ctx->task;
2355                 goto retry;
2356         }
2357
2358 out:
2359         raw_spin_unlock_irq(&ctx->lock);
2360 }
2361
2362 /*
2363  * See perf_event_disable();
2364  */
2365 void perf_event_enable(struct perf_event *event)
2366 {
2367         struct perf_event_context *ctx;
2368
2369         ctx = perf_event_ctx_lock(event);
2370         _perf_event_enable(event);
2371         perf_event_ctx_unlock(event, ctx);
2372 }
2373 EXPORT_SYMBOL_GPL(perf_event_enable);
2374
2375 static int __perf_event_stop(void *info)
2376 {
2377         struct perf_event *event = info;
2378
2379         /* for AUX events, our job is done if the event is already inactive */
2380         if (READ_ONCE(event->state) != PERF_EVENT_STATE_ACTIVE)
2381                 return 0;
2382
2383         /* matches smp_wmb() in event_sched_in() */
2384         smp_rmb();
2385
2386         /*
2387          * There is a window with interrupts enabled before we get here,
2388          * so we need to check again lest we try to stop another CPU's event.
2389          */
2390         if (READ_ONCE(event->oncpu) != smp_processor_id())
2391                 return -EAGAIN;
2392
2393         event->pmu->stop(event, PERF_EF_UPDATE);
2394
2395         return 0;
2396 }
2397
2398 static int _perf_event_refresh(struct perf_event *event, int refresh)
2399 {
2400         /*
2401          * not supported on inherited events
2402          */
2403         if (event->attr.inherit || !is_sampling_event(event))
2404                 return -EINVAL;
2405
2406         atomic_add(refresh, &event->event_limit);
2407         _perf_event_enable(event);
2408
2409         return 0;
2410 }
2411
2412 /*
2413  * See perf_event_disable()
2414  */
2415 int perf_event_refresh(struct perf_event *event, int refresh)
2416 {
2417         struct perf_event_context *ctx;
2418         int ret;
2419
2420         ctx = perf_event_ctx_lock(event);
2421         ret = _perf_event_refresh(event, refresh);
2422         perf_event_ctx_unlock(event, ctx);
2423
2424         return ret;
2425 }
2426 EXPORT_SYMBOL_GPL(perf_event_refresh);
2427
2428 static void ctx_sched_out(struct perf_event_context *ctx,
2429                           struct perf_cpu_context *cpuctx,
2430                           enum event_type_t event_type)
2431 {
2432         struct perf_event *event;
2433         int is_active = ctx->is_active;
2434
2435         ctx->is_active &= ~event_type;
2436         if (likely(!ctx->nr_events))
2437                 return;
2438
2439         update_context_time(ctx);
2440         update_cgrp_time_from_cpuctx(cpuctx);
2441         if (!ctx->nr_active)
2442                 return;
2443
2444         perf_pmu_disable(ctx->pmu);
2445         if ((is_active & EVENT_PINNED) && (event_type & EVENT_PINNED)) {
2446                 list_for_each_entry(event, &ctx->pinned_groups, group_entry)
2447                         group_sched_out(event, cpuctx, ctx);
2448         }
2449
2450         if ((is_active & EVENT_FLEXIBLE) && (event_type & EVENT_FLEXIBLE)) {
2451                 list_for_each_entry(event, &ctx->flexible_groups, group_entry)
2452                         group_sched_out(event, cpuctx, ctx);
2453         }
2454         perf_pmu_enable(ctx->pmu);
2455 }
2456
2457 /*
2458  * Test whether two contexts are equivalent, i.e. whether they have both been
2459  * cloned from the same version of the same context.
2460  *
2461  * Equivalence is measured using a generation number in the context that is
2462  * incremented on each modification to it; see unclone_ctx(), list_add_event()
2463  * and list_del_event().
2464  */
2465 static int context_equiv(struct perf_event_context *ctx1,
2466                          struct perf_event_context *ctx2)
2467 {
2468         lockdep_assert_held(&ctx1->lock);
2469         lockdep_assert_held(&ctx2->lock);
2470
2471         /* Pinning disables the swap optimization */
2472         if (ctx1->pin_count || ctx2->pin_count)
2473                 return 0;
2474
2475         /* If ctx1 is the parent of ctx2 */
2476         if (ctx1 == ctx2->parent_ctx && ctx1->generation == ctx2->parent_gen)
2477                 return 1;
2478
2479         /* If ctx2 is the parent of ctx1 */
2480         if (ctx1->parent_ctx == ctx2 && ctx1->parent_gen == ctx2->generation)
2481                 return 1;
2482
2483         /*
2484          * If ctx1 and ctx2 have the same parent; we flatten the parent
2485          * hierarchy, see perf_event_init_context().
2486          */
2487         if (ctx1->parent_ctx && ctx1->parent_ctx == ctx2->parent_ctx &&
2488                         ctx1->parent_gen == ctx2->parent_gen)
2489                 return 1;
2490
2491         /* Unmatched */
2492         return 0;
2493 }
2494
2495 static void __perf_event_sync_stat(struct perf_event *event,
2496                                      struct perf_event *next_event)
2497 {
2498         u64 value;
2499
2500         if (!event->attr.inherit_stat)
2501                 return;
2502
2503         /*
2504          * Update the event value, we cannot use perf_event_read()
2505          * because we're in the middle of a context switch and have IRQs
2506          * disabled, which upsets smp_call_function_single(), however
2507          * we know the event must be on the current CPU, therefore we
2508          * don't need to use it.
2509          */
2510         switch (event->state) {
2511         case PERF_EVENT_STATE_ACTIVE:
2512                 event->pmu->read(event);
2513                 /* fall-through */
2514
2515         case PERF_EVENT_STATE_INACTIVE:
2516                 update_event_times(event);
2517                 break;
2518
2519         default:
2520                 break;
2521         }
2522
2523         /*
2524          * In order to keep per-task stats reliable we need to flip the event
2525          * values when we flip the contexts.
2526          */
2527         value = local64_read(&next_event->count);
2528         value = local64_xchg(&event->count, value);
2529         local64_set(&next_event->count, value);
2530
2531         swap(event->total_time_enabled, next_event->total_time_enabled);
2532         swap(event->total_time_running, next_event->total_time_running);
2533
2534         /*
2535          * Since we swizzled the values, update the user visible data too.
2536          */
2537         perf_event_update_userpage(event);
2538         perf_event_update_userpage(next_event);
2539 }
2540
2541 static void perf_event_sync_stat(struct perf_event_context *ctx,
2542                                    struct perf_event_context *next_ctx)
2543 {
2544         struct perf_event *event, *next_event;
2545
2546         if (!ctx->nr_stat)
2547                 return;
2548
2549         update_context_time(ctx);
2550
2551         event = list_first_entry(&ctx->event_list,
2552                                    struct perf_event, event_entry);
2553
2554         next_event = list_first_entry(&next_ctx->event_list,
2555                                         struct perf_event, event_entry);
2556
2557         while (&event->event_entry != &ctx->event_list &&
2558                &next_event->event_entry != &next_ctx->event_list) {
2559
2560                 __perf_event_sync_stat(event, next_event);
2561
2562                 event = list_next_entry(event, event_entry);
2563                 next_event = list_next_entry(next_event, event_entry);
2564         }
2565 }
2566
2567 static void perf_event_context_sched_out(struct task_struct *task, int ctxn,
2568                                          struct task_struct *next)
2569 {
2570         struct perf_event_context *ctx = task->perf_event_ctxp[ctxn];
2571         struct perf_event_context *next_ctx;
2572         struct perf_event_context *parent, *next_parent;
2573         struct perf_cpu_context *cpuctx;
2574         int do_switch = 1;
2575
2576         if (likely(!ctx))
2577                 return;
2578
2579         cpuctx = __get_cpu_context(ctx);
2580         if (!cpuctx->task_ctx)
2581                 return;
2582
2583         rcu_read_lock();
2584         next_ctx = next->perf_event_ctxp[ctxn];
2585         if (!next_ctx)
2586                 goto unlock;
2587
2588         parent = rcu_dereference(ctx->parent_ctx);
2589         next_parent = rcu_dereference(next_ctx->parent_ctx);
2590
2591         /* If neither context have a parent context; they cannot be clones. */
2592         if (!parent && !next_parent)
2593                 goto unlock;
2594
2595         if (next_parent == ctx || next_ctx == parent || next_parent == parent) {
2596                 /*
2597                  * Looks like the two contexts are clones, so we might be
2598                  * able to optimize the context switch.  We lock both
2599                  * contexts and check that they are clones under the
2600                  * lock (including re-checking that neither has been
2601                  * uncloned in the meantime).  It doesn't matter which
2602                  * order we take the locks because no other cpu could
2603                  * be trying to lock both of these tasks.
2604                  */
2605                 raw_spin_lock(&ctx->lock);
2606                 raw_spin_lock_nested(&next_ctx->lock, SINGLE_DEPTH_NESTING);
2607                 if (context_equiv(ctx, next_ctx)) {
2608                         /*
2609                          * XXX do we need a memory barrier of sorts
2610                          * wrt to rcu_dereference() of perf_event_ctxp
2611                          */
2612                         task->perf_event_ctxp[ctxn] = next_ctx;
2613                         next->perf_event_ctxp[ctxn] = ctx;
2614                         ctx->task = next;
2615                         next_ctx->task = task;
2616
2617                         swap(ctx->task_ctx_data, next_ctx->task_ctx_data);
2618
2619                         do_switch = 0;
2620
2621                         perf_event_sync_stat(ctx, next_ctx);
2622                 }
2623                 raw_spin_unlock(&next_ctx->lock);
2624                 raw_spin_unlock(&ctx->lock);
2625         }
2626 unlock:
2627         rcu_read_unlock();
2628
2629         if (do_switch) {
2630                 raw_spin_lock(&ctx->lock);
2631                 ctx_sched_out(ctx, cpuctx, EVENT_ALL);
2632                 cpuctx->task_ctx = NULL;
2633                 raw_spin_unlock(&ctx->lock);
2634         }
2635 }
2636
2637 void perf_sched_cb_dec(struct pmu *pmu)
2638 {
2639         this_cpu_dec(perf_sched_cb_usages);
2640 }
2641
2642 void perf_sched_cb_inc(struct pmu *pmu)
2643 {
2644         this_cpu_inc(perf_sched_cb_usages);
2645 }
2646
2647 /*
2648  * This function provides the context switch callback to the lower code
2649  * layer. It is invoked ONLY when the context switch callback is enabled.
2650  */
2651 static void perf_pmu_sched_task(struct task_struct *prev,
2652                                 struct task_struct *next,
2653                                 bool sched_in)
2654 {
2655         struct perf_cpu_context *cpuctx;
2656         struct pmu *pmu;
2657         unsigned long flags;
2658
2659         if (prev == next)
2660                 return;
2661
2662         local_irq_save(flags);
2663
2664         rcu_read_lock();
2665
2666         list_for_each_entry_rcu(pmu, &pmus, entry) {
2667                 if (pmu->sched_task) {
2668                         cpuctx = this_cpu_ptr(pmu->pmu_cpu_context);
2669
2670                         perf_ctx_lock(cpuctx, cpuctx->task_ctx);
2671
2672                         perf_pmu_disable(pmu);
2673
2674                         pmu->sched_task(cpuctx->task_ctx, sched_in);
2675
2676                         perf_pmu_enable(pmu);
2677
2678                         perf_ctx_unlock(cpuctx, cpuctx->task_ctx);
2679                 }
2680         }
2681
2682         rcu_read_unlock();
2683
2684         local_irq_restore(flags);
2685 }
2686
2687 static void perf_event_switch(struct task_struct *task,
2688                               struct task_struct *next_prev, bool sched_in);
2689
2690 #define for_each_task_context_nr(ctxn)                                  \
2691         for ((ctxn) = 0; (ctxn) < perf_nr_task_contexts; (ctxn)++)
2692
2693 /*
2694  * Called from scheduler to remove the events of the current task,
2695  * with interrupts disabled.
2696  *
2697  * We stop each event and update the event value in event->count.
2698  *
2699  * This does not protect us against NMI, but disable()
2700  * sets the disabled bit in the control field of event _before_
2701  * accessing the event control register. If a NMI hits, then it will
2702  * not restart the event.
2703  */
2704 void __perf_event_task_sched_out(struct task_struct *task,
2705                                  struct task_struct *next)
2706 {
2707         int ctxn;
2708
2709         if (__this_cpu_read(perf_sched_cb_usages))
2710                 perf_pmu_sched_task(task, next, false);
2711
2712         if (atomic_read(&nr_switch_events))
2713                 perf_event_switch(task, next, false);
2714
2715         for_each_task_context_nr(ctxn)
2716                 perf_event_context_sched_out(task, ctxn, next);
2717
2718         /*
2719          * if cgroup events exist on this CPU, then we need
2720          * to check if we have to switch out PMU state.
2721          * cgroup event are system-wide mode only
2722          */
2723         if (atomic_read(this_cpu_ptr(&perf_cgroup_events)))
2724                 perf_cgroup_sched_out(task, next);
2725 }
2726
2727 static void task_ctx_sched_out(struct perf_event_context *ctx)
2728 {
2729         struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
2730
2731         if (!cpuctx->task_ctx)
2732                 return;
2733
2734         if (WARN_ON_ONCE(ctx != cpuctx->task_ctx))
2735                 return;
2736
2737         ctx_sched_out(ctx, cpuctx, EVENT_ALL);
2738         cpuctx->task_ctx = NULL;
2739 }
2740
2741 /*
2742  * Called with IRQs disabled
2743  */
2744 static void cpu_ctx_sched_out(struct perf_cpu_context *cpuctx,
2745                               enum event_type_t event_type)
2746 {
2747         ctx_sched_out(&cpuctx->ctx, cpuctx, event_type);
2748 }
2749
2750 static void
2751 ctx_pinned_sched_in(struct perf_event_context *ctx,
2752                     struct perf_cpu_context *cpuctx)
2753 {
2754         struct perf_event *event;
2755
2756         list_for_each_entry(event, &ctx->pinned_groups, group_entry) {
2757                 if (event->state <= PERF_EVENT_STATE_OFF)
2758                         continue;
2759                 if (!event_filter_match(event))
2760                         continue;
2761
2762                 /* may need to reset tstamp_enabled */
2763                 if (is_cgroup_event(event))
2764                         perf_cgroup_mark_enabled(event, ctx);
2765
2766                 if (group_can_go_on(event, cpuctx, 1))
2767                         group_sched_in(event, cpuctx, ctx);
2768
2769                 /*
2770                  * If this pinned group hasn't been scheduled,
2771                  * put it in error state.
2772                  */
2773                 if (event->state == PERF_EVENT_STATE_INACTIVE) {
2774                         update_group_times(event);
2775                         event->state = PERF_EVENT_STATE_ERROR;
2776                 }
2777         }
2778 }
2779
2780 static void
2781 ctx_flexible_sched_in(struct perf_event_context *ctx,
2782                       struct perf_cpu_context *cpuctx)
2783 {
2784         struct perf_event *event;
2785         int can_add_hw = 1;
2786
2787         list_for_each_entry(event, &ctx->flexible_groups, group_entry) {
2788                 /* Ignore events in OFF or ERROR state */
2789                 if (event->state <= PERF_EVENT_STATE_OFF)
2790                         continue;
2791                 /*
2792                  * Listen to the 'cpu' scheduling filter constraint
2793                  * of events:
2794                  */
2795                 if (!event_filter_match(event))
2796                         continue;
2797
2798                 /* may need to reset tstamp_enabled */
2799                 if (is_cgroup_event(event))
2800                         perf_cgroup_mark_enabled(event, ctx);
2801
2802                 if (group_can_go_on(event, cpuctx, can_add_hw)) {
2803                         if (group_sched_in(event, cpuctx, ctx))
2804                                 can_add_hw = 0;
2805                 }
2806         }
2807 }
2808
2809 static void
2810 ctx_sched_in(struct perf_event_context *ctx,
2811              struct perf_cpu_context *cpuctx,
2812              enum event_type_t event_type,
2813              struct task_struct *task)
2814 {
2815         u64 now;
2816         int is_active = ctx->is_active;
2817
2818         ctx->is_active |= event_type;
2819         if (likely(!ctx->nr_events))
2820                 return;
2821
2822         now = perf_clock();
2823         ctx->timestamp = now;
2824         perf_cgroup_set_timestamp(task, ctx);
2825         /*
2826          * First go through the list and put on any pinned groups
2827          * in order to give them the best chance of going on.
2828          */
2829         if (!(is_active & EVENT_PINNED) && (event_type & EVENT_PINNED))
2830                 ctx_pinned_sched_in(ctx, cpuctx);
2831
2832         /* Then walk through the lower prio flexible groups */
2833         if (!(is_active & EVENT_FLEXIBLE) && (event_type & EVENT_FLEXIBLE))
2834                 ctx_flexible_sched_in(ctx, cpuctx);
2835 }
2836
2837 static void cpu_ctx_sched_in(struct perf_cpu_context *cpuctx,
2838                              enum event_type_t event_type,
2839                              struct task_struct *task)
2840 {
2841         struct perf_event_context *ctx = &cpuctx->ctx;
2842
2843         ctx_sched_in(ctx, cpuctx, event_type, task);
2844 }
2845
2846 static void perf_event_context_sched_in(struct perf_event_context *ctx,
2847                                         struct task_struct *task)
2848 {
2849         struct perf_cpu_context *cpuctx;
2850
2851         cpuctx = __get_cpu_context(ctx);
2852         if (cpuctx->task_ctx == ctx)
2853                 return;
2854
2855         perf_ctx_lock(cpuctx, ctx);
2856         perf_pmu_disable(ctx->pmu);
2857         /*
2858          * We want to keep the following priority order:
2859          * cpu pinned (that don't need to move), task pinned,
2860          * cpu flexible, task flexible.
2861          */
2862         cpu_ctx_sched_out(cpuctx, EVENT_FLEXIBLE);
2863
2864         if (ctx->nr_events)
2865                 cpuctx->task_ctx = ctx;
2866
2867         perf_event_sched_in(cpuctx, cpuctx->task_ctx, task);
2868
2869         perf_pmu_enable(ctx->pmu);
2870         perf_ctx_unlock(cpuctx, ctx);
2871 }
2872
2873 /*
2874  * Called from scheduler to add the events of the current task
2875  * with interrupts disabled.
2876  *
2877  * We restore the event value and then enable it.
2878  *
2879  * This does not protect us against NMI, but enable()
2880  * sets the enabled bit in the control field of event _before_
2881  * accessing the event control register. If a NMI hits, then it will
2882  * keep the event running.
2883  */
2884 void __perf_event_task_sched_in(struct task_struct *prev,
2885                                 struct task_struct *task)
2886 {
2887         struct perf_event_context *ctx;
2888         int ctxn;
2889
2890         for_each_task_context_nr(ctxn) {
2891                 ctx = task->perf_event_ctxp[ctxn];
2892                 if (likely(!ctx))
2893                         continue;
2894
2895                 perf_event_context_sched_in(ctx, task);
2896         }
2897         /*
2898          * if cgroup events exist on this CPU, then we need
2899          * to check if we have to switch in PMU state.
2900          * cgroup event are system-wide mode only
2901          */
2902         if (atomic_read(this_cpu_ptr(&perf_cgroup_events)))
2903                 perf_cgroup_sched_in(prev, task);
2904
2905         if (atomic_read(&nr_switch_events))
2906                 perf_event_switch(task, prev, true);
2907
2908         if (__this_cpu_read(perf_sched_cb_usages))
2909                 perf_pmu_sched_task(prev, task, true);
2910 }
2911
2912 static u64 perf_calculate_period(struct perf_event *event, u64 nsec, u64 count)
2913 {
2914         u64 frequency = event->attr.sample_freq;
2915         u64 sec = NSEC_PER_SEC;
2916         u64 divisor, dividend;
2917
2918         int count_fls, nsec_fls, frequency_fls, sec_fls;
2919
2920         count_fls = fls64(count);
2921         nsec_fls = fls64(nsec);
2922         frequency_fls = fls64(frequency);
2923         sec_fls = 30;
2924
2925         /*
2926          * We got @count in @nsec, with a target of sample_freq HZ
2927          * the target period becomes:
2928          *
2929          *             @count * 10^9
2930          * period = -------------------
2931          *          @nsec * sample_freq
2932          *
2933          */
2934
2935         /*
2936          * Reduce accuracy by one bit such that @a and @b converge
2937          * to a similar magnitude.
2938          */
2939 #define REDUCE_FLS(a, b)                \
2940 do {                                    \
2941         if (a##_fls > b##_fls) {        \
2942                 a >>= 1;                \
2943                 a##_fls--;              \
2944         } else {                        \
2945                 b >>= 1;                \
2946                 b##_fls--;              \
2947         }                               \
2948 } while (0)
2949
2950         /*
2951          * Reduce accuracy until either term fits in a u64, then proceed with
2952          * the other, so that finally we can do a u64/u64 division.
2953          */
2954         while (count_fls + sec_fls > 64 && nsec_fls + frequency_fls > 64) {
2955                 REDUCE_FLS(nsec, frequency);
2956                 REDUCE_FLS(sec, count);
2957         }
2958
2959         if (count_fls + sec_fls > 64) {
2960                 divisor = nsec * frequency;
2961
2962                 while (count_fls + sec_fls > 64) {
2963                         REDUCE_FLS(count, sec);
2964                         divisor >>= 1;
2965                 }
2966
2967                 dividend = count * sec;
2968         } else {
2969                 dividend = count * sec;
2970
2971                 while (nsec_fls + frequency_fls > 64) {
2972                         REDUCE_FLS(nsec, frequency);
2973                         dividend >>= 1;
2974                 }
2975
2976                 divisor = nsec * frequency;
2977         }
2978
2979         if (!divisor)
2980                 return dividend;
2981
2982         return div64_u64(dividend, divisor);
2983 }
2984
2985 static DEFINE_PER_CPU(int, perf_throttled_count);
2986 static DEFINE_PER_CPU(u64, perf_throttled_seq);
2987
2988 static void perf_adjust_period(struct perf_event *event, u64 nsec, u64 count, bool disable)
2989 {
2990         struct hw_perf_event *hwc = &event->hw;
2991         s64 period, sample_period;
2992         s64 delta;
2993
2994         period = perf_calculate_period(event, nsec, count);
2995
2996         delta = (s64)(period - hwc->sample_period);
2997         delta = (delta + 7) / 8; /* low pass filter */
2998
2999         sample_period = hwc->sample_period + delta;
3000
3001         if (!sample_period)
3002                 sample_period = 1;
3003
3004         hwc->sample_period = sample_period;
3005
3006         if (local64_read(&hwc->period_left) > 8*sample_period) {
3007                 if (disable)
3008                         event->pmu->stop(event, PERF_EF_UPDATE);
3009
3010                 local64_set(&hwc->period_left, 0);
3011
3012                 if (disable)
3013                         event->pmu->start(event, PERF_EF_RELOAD);
3014         }
3015 }
3016
3017 /*
3018  * combine freq adjustment with unthrottling to avoid two passes over the
3019  * events. At the same time, make sure, having freq events does not change
3020  * the rate of unthrottling as that would introduce bias.
3021  */
3022 static void perf_adjust_freq_unthr_context(struct perf_event_context *ctx,
3023                                            int needs_unthr)
3024 {
3025         struct perf_event *event;
3026         struct hw_perf_event *hwc;
3027         u64 now, period = TICK_NSEC;
3028         s64 delta;
3029
3030         /*
3031          * only need to iterate over all events iff:
3032          * - context have events in frequency mode (needs freq adjust)
3033          * - there are events to unthrottle on this cpu
3034          */
3035         if (!(ctx->nr_freq || needs_unthr))
3036                 return;
3037
3038         raw_spin_lock(&ctx->lock);
3039         perf_pmu_disable(ctx->pmu);
3040
3041         list_for_each_entry_rcu(event, &ctx->event_list, event_entry) {
3042                 if (event->state != PERF_EVENT_STATE_ACTIVE)
3043                         continue;
3044
3045                 if (!event_filter_match(event))
3046                         continue;
3047
3048                 perf_pmu_disable(event->pmu);
3049
3050                 hwc = &event->hw;
3051
3052                 if (hwc->interrupts == MAX_INTERRUPTS) {
3053                         hwc->interrupts = 0;
3054                         perf_log_throttle(event, 1);
3055                         event->pmu->start(event, 0);
3056                 }
3057
3058                 if (!event->attr.freq || !event->attr.sample_freq)
3059                         goto next;
3060
3061                 /*
3062                  * stop the event and update event->count
3063                  */
3064                 event->pmu->stop(event, PERF_EF_UPDATE);
3065
3066                 now = local64_read(&event->count);
3067                 delta = now - hwc->freq_count_stamp;
3068                 hwc->freq_count_stamp = now;
3069
3070                 /*
3071                  * restart the event
3072                  * reload only if value has changed
3073                  * we have stopped the event so tell that
3074                  * to perf_adjust_period() to avoid stopping it
3075                  * twice.
3076                  */
3077                 if (delta > 0)
3078                         perf_adjust_period(event, period, delta, false);
3079
3080                 event->pmu->start(event, delta > 0 ? PERF_EF_RELOAD : 0);
3081         next:
3082                 perf_pmu_enable(event->pmu);
3083         }
3084
3085         perf_pmu_enable(ctx->pmu);
3086         raw_spin_unlock(&ctx->lock);
3087 }
3088
3089 /*
3090  * Round-robin a context's events:
3091  */
3092 static void rotate_ctx(struct perf_event_context *ctx)
3093 {
3094         /*
3095          * Rotate the first entry last of non-pinned groups. Rotation might be
3096          * disabled by the inheritance code.
3097          */
3098         if (!ctx->rotate_disable)
3099                 list_rotate_left(&ctx->flexible_groups);
3100 }
3101
3102 static int perf_rotate_context(struct perf_cpu_context *cpuctx)
3103 {
3104         struct perf_event_context *ctx = NULL;
3105         int rotate = 0;
3106
3107         if (cpuctx->ctx.nr_events) {
3108                 if (cpuctx->ctx.nr_events != cpuctx->ctx.nr_active)
3109                         rotate = 1;
3110         }
3111
3112         ctx = cpuctx->task_ctx;
3113         if (ctx && ctx->nr_events) {
3114                 if (ctx->nr_events != ctx->nr_active)
3115                         rotate = 1;
3116         }
3117
3118         if (!rotate)
3119                 goto done;
3120
3121         perf_ctx_lock(cpuctx, cpuctx->task_ctx);
3122         perf_pmu_disable(cpuctx->ctx.pmu);
3123
3124         cpu_ctx_sched_out(cpuctx, EVENT_FLEXIBLE);
3125         if (ctx)
3126                 ctx_sched_out(ctx, cpuctx, EVENT_FLEXIBLE);
3127
3128         rotate_ctx(&cpuctx->ctx);
3129         if (ctx)
3130                 rotate_ctx(ctx);
3131
3132         perf_event_sched_in(cpuctx, ctx, current);
3133
3134         perf_pmu_enable(cpuctx->ctx.pmu);
3135         perf_ctx_unlock(cpuctx, cpuctx->task_ctx);
3136 done:
3137
3138         return rotate;
3139 }
3140
3141 #ifdef CONFIG_NO_HZ_FULL
3142 bool perf_event_can_stop_tick(void)
3143 {
3144         if (atomic_read(&nr_freq_events) ||
3145             __this_cpu_read(perf_throttled_count))
3146                 return false;
3147         else
3148                 return true;
3149 }
3150 #endif
3151
3152 void perf_event_task_tick(void)
3153 {
3154         struct list_head *head = this_cpu_ptr(&active_ctx_list);
3155         struct perf_event_context *ctx, *tmp;
3156         int throttled;
3157
3158         WARN_ON(!irqs_disabled());
3159
3160         __this_cpu_inc(perf_throttled_seq);
3161         throttled = __this_cpu_xchg(perf_throttled_count, 0);
3162
3163         list_for_each_entry_safe(ctx, tmp, head, active_ctx_list)
3164                 perf_adjust_freq_unthr_context(ctx, throttled);
3165 }
3166
3167 static int event_enable_on_exec(struct perf_event *event,
3168                                 struct perf_event_context *ctx)
3169 {
3170         if (!event->attr.enable_on_exec)
3171                 return 0;
3172
3173         event->attr.enable_on_exec = 0;
3174         if (event->state >= PERF_EVENT_STATE_INACTIVE)
3175                 return 0;
3176
3177         __perf_event_mark_enabled(event);
3178
3179         return 1;
3180 }
3181
3182 /*
3183  * Enable all of a task's events that have been marked enable-on-exec.
3184  * This expects task == current.
3185  */
3186 static void perf_event_enable_on_exec(int ctxn)
3187 {
3188         struct perf_event_context *ctx, *clone_ctx = NULL;
3189         struct perf_event *event;
3190         unsigned long flags;
3191         int enabled = 0;
3192         int ret;
3193
3194         local_irq_save(flags);
3195         ctx = current->perf_event_ctxp[ctxn];
3196         if (!ctx || !ctx->nr_events)
3197                 goto out;
3198
3199         /*
3200          * We must ctxsw out cgroup events to avoid conflict
3201          * when invoking perf_task_event_sched_in() later on
3202          * in this function. Otherwise we end up trying to
3203          * ctxswin cgroup events which are already scheduled
3204          * in.
3205          */
3206         perf_cgroup_sched_out(current, NULL);
3207
3208         raw_spin_lock(&ctx->lock);
3209         task_ctx_sched_out(ctx);
3210
3211         list_for_each_entry(event, &ctx->event_list, event_entry) {
3212                 ret = event_enable_on_exec(event, ctx);
3213                 if (ret)
3214                         enabled = 1;
3215         }
3216
3217         /*
3218          * Unclone this context if we enabled any event.
3219          */
3220         if (enabled)
3221                 clone_ctx = unclone_ctx(ctx);
3222
3223         raw_spin_unlock(&ctx->lock);
3224
3225         /*
3226          * Also calls ctxswin for cgroup events, if any:
3227          */
3228         perf_event_context_sched_in(ctx, ctx->task);
3229 out:
3230         local_irq_restore(flags);
3231
3232         if (clone_ctx)
3233                 put_ctx(clone_ctx);
3234 }
3235
3236 void perf_event_exec(void)
3237 {
3238         int ctxn;
3239
3240         rcu_read_lock();
3241         for_each_task_context_nr(ctxn)
3242                 perf_event_enable_on_exec(ctxn);
3243         rcu_read_unlock();
3244 }
3245
3246 struct perf_read_data {
3247         struct perf_event *event;
3248         bool group;
3249         int ret;
3250 };
3251
3252 /*
3253  * Cross CPU call to read the hardware event
3254  */
3255 static void __perf_event_read(void *info)
3256 {
3257         struct perf_read_data *data = info;
3258         struct perf_event *sub, *event = data->event;
3259         struct perf_event_context *ctx = event->ctx;
3260         struct perf_cpu_context *cpuctx = __get_cpu_context(ctx);
3261         struct pmu *pmu = event->pmu;
3262
3263         /*
3264          * If this is a task context, we need to check whether it is
3265          * the current task context of this cpu.  If not it has been
3266          * scheduled out before the smp call arrived.  In that case
3267          * event->count would have been updated to a recent sample
3268          * when the event was scheduled out.
3269          */
3270         if (ctx->task && cpuctx->task_ctx != ctx)
3271                 return;
3272
3273         raw_spin_lock(&ctx->lock);
3274         if (ctx->is_active) {
3275                 update_context_time(ctx);
3276                 update_cgrp_time_from_event(event);
3277         }
3278
3279         update_event_times(event);
3280         if (event->state != PERF_EVENT_STATE_ACTIVE)
3281                 goto unlock;
3282
3283         if (!data->group) {
3284                 pmu->read(event);
3285                 data->ret = 0;
3286                 goto unlock;
3287         }
3288
3289         pmu->start_txn(pmu, PERF_PMU_TXN_READ);
3290
3291         pmu->read(event);
3292
3293         list_for_each_entry(sub, &event->sibling_list, group_entry) {
3294                 update_event_times(sub);
3295                 if (sub->state == PERF_EVENT_STATE_ACTIVE) {
3296                         /*
3297                          * Use sibling's PMU rather than @event's since
3298                          * sibling could be on different (eg: software) PMU.
3299                          */
3300                         sub->pmu->read(sub);
3301                 }
3302         }
3303
3304         data->ret = pmu->commit_txn(pmu);
3305
3306 unlock:
3307         raw_spin_unlock(&ctx->lock);
3308 }
3309
3310 static inline u64 perf_event_count(struct perf_event *event)
3311 {
3312         if (event->pmu->count)
3313                 return event->pmu->count(event);
3314
3315         return __perf_event_count(event);
3316 }
3317
3318 /*
3319  * NMI-safe method to read a local event, that is an event that
3320  * is:
3321  *   - either for the current task, or for this CPU
3322  *   - does not have inherit set, for inherited task events
3323  *     will not be local and we cannot read them atomically
3324  *   - must not have a pmu::count method
3325  */
3326 u64 perf_event_read_local(struct perf_event *event)
3327 {
3328         unsigned long flags;
3329         u64 val;
3330
3331         /*
3332          * Disabling interrupts avoids all counter scheduling (context
3333          * switches, timer based rotation and IPIs).
3334          */
3335         local_irq_save(flags);
3336
3337         /* If this is a per-task event, it must be for current */
3338         WARN_ON_ONCE((event->attach_state & PERF_ATTACH_TASK) &&
3339                      event->hw.target != current);
3340
3341         /* If this is a per-CPU event, it must be for this CPU */
3342         WARN_ON_ONCE(!(event->attach_state & PERF_ATTACH_TASK) &&
3343                      event->cpu != smp_processor_id());
3344
3345         /*
3346          * It must not be an event with inherit set, we cannot read
3347          * all child counters from atomic context.
3348          */
3349         WARN_ON_ONCE(event->attr.inherit);
3350
3351         /*
3352          * It must not have a pmu::count method, those are not
3353          * NMI safe.
3354          */
3355         WARN_ON_ONCE(event->pmu->count);
3356
3357         /*
3358          * If the event is currently on this CPU, its either a per-task event,
3359          * or local to this CPU. Furthermore it means its ACTIVE (otherwise
3360          * oncpu == -1).
3361          */
3362         if (event->oncpu == smp_processor_id())
3363                 event->pmu->read(event);
3364
3365         val = local64_read(&event->count);
3366         local_irq_restore(flags);
3367
3368         return val;
3369 }
3370
3371 static int perf_event_read(struct perf_event *event, bool group)
3372 {
3373         int ret = 0;
3374
3375         /*
3376          * If event is enabled and currently active on a CPU, update the
3377          * value in the event structure:
3378          */
3379         if (event->state == PERF_EVENT_STATE_ACTIVE) {
3380                 struct perf_read_data data = {
3381                         .event = event,
3382                         .group = group,
3383                         .ret = 0,
3384                 };
3385                 smp_call_function_single(event->oncpu,
3386                                          __perf_event_read, &data, 1);
3387                 ret = data.ret;
3388         } else if (event->state == PERF_EVENT_STATE_INACTIVE) {
3389                 struct perf_event_context *ctx = event->ctx;
3390                 unsigned long flags;
3391
3392                 raw_spin_lock_irqsave(&ctx->lock, flags);
3393                 /*
3394                  * may read while context is not active
3395                  * (e.g., thread is blocked), in that case
3396                  * we cannot update context time
3397                  */
3398                 if (ctx->is_active) {
3399                         update_context_time(ctx);
3400                         update_cgrp_time_from_event(event);
3401                 }
3402                 if (group)
3403                         update_group_times(event);
3404                 else
3405                         update_event_times(event);
3406                 raw_spin_unlock_irqrestore(&ctx->lock, flags);
3407         }
3408
3409         return ret;
3410 }
3411
3412 /*
3413  * Initialize the perf_event context in a task_struct:
3414  */
3415 static void __perf_event_init_context(struct perf_event_context *ctx)
3416 {
3417         raw_spin_lock_init(&ctx->lock);
3418         mutex_init(&ctx->mutex);
3419         INIT_LIST_HEAD(&ctx->active_ctx_list);
3420         INIT_LIST_HEAD(&ctx->pinned_groups);
3421         INIT_LIST_HEAD(&ctx->flexible_groups);
3422         INIT_LIST_HEAD(&ctx->event_list);
3423         atomic_set(&ctx->refcount, 1);
3424         INIT_DELAYED_WORK(&ctx->orphans_remove, orphans_remove_work);
3425 }
3426
3427 static struct perf_event_context *
3428 alloc_perf_context(struct pmu *pmu, struct task_struct *task)
3429 {
3430         struct perf_event_context *ctx;
3431
3432         ctx = kzalloc(sizeof(struct perf_event_context), GFP_KERNEL);
3433         if (!ctx)
3434                 return NULL;
3435
3436         __perf_event_init_context(ctx);
3437         if (task) {
3438                 ctx->task = task;
3439                 get_task_struct(task);
3440         }
3441         ctx->pmu = pmu;
3442
3443         return ctx;
3444 }
3445
3446 static struct task_struct *
3447 find_lively_task_by_vpid(pid_t vpid)
3448 {
3449         struct task_struct *task;
3450
3451         rcu_read_lock();
3452         if (!vpid)
3453                 task = current;
3454         else
3455                 task = find_task_by_vpid(vpid);
3456         if (task)
3457                 get_task_struct(task);
3458         rcu_read_unlock();
3459
3460         if (!task)
3461                 return ERR_PTR(-ESRCH);
3462
3463         return task;
3464 }
3465
3466 /*
3467  * Returns a matching context with refcount and pincount.
3468  */
3469 static struct perf_event_context *
3470 find_get_context(struct pmu *pmu, struct task_struct *task,
3471                 struct perf_event *event)
3472 {
3473         struct perf_event_context *ctx, *clone_ctx = NULL;
3474         struct perf_cpu_context *cpuctx;
3475         void *task_ctx_data = NULL;
3476         unsigned long flags;
3477         int ctxn, err;
3478         int cpu = event->cpu;
3479
3480         if (!task) {
3481                 /* Must be root to operate on a CPU event: */
3482                 if (perf_paranoid_cpu() && !capable(CAP_SYS_ADMIN))
3483                         return ERR_PTR(-EACCES);
3484
3485                 /*
3486                  * We could be clever and allow to attach a event to an
3487                  * offline CPU and activate it when the CPU comes up, but
3488                  * that's for later.
3489                  */
3490                 if (!cpu_online(cpu))
3491                         return ERR_PTR(-ENODEV);
3492
3493                 cpuctx = per_cpu_ptr(pmu->pmu_cpu_context, cpu);
3494                 ctx = &cpuctx->ctx;
3495                 get_ctx(ctx);
3496                 ++ctx->pin_count;
3497
3498                 return ctx;
3499         }
3500
3501         err = -EINVAL;
3502         ctxn = pmu->task_ctx_nr;
3503         if (ctxn < 0)
3504                 goto errout;
3505
3506         if (event->attach_state & PERF_ATTACH_TASK_DATA) {
3507                 task_ctx_data = kzalloc(pmu->task_ctx_size, GFP_KERNEL);
3508                 if (!task_ctx_data) {
3509                         err = -ENOMEM;
3510                         goto errout;
3511                 }
3512         }
3513
3514 retry:
3515         ctx = perf_lock_task_context(task, ctxn, &flags);
3516         if (ctx) {
3517                 clone_ctx = unclone_ctx(ctx);
3518                 ++ctx->pin_count;
3519
3520                 if (task_ctx_data && !ctx->task_ctx_data) {
3521                         ctx->task_ctx_data = task_ctx_data;
3522                         task_ctx_data = NULL;
3523                 }
3524                 raw_spin_unlock_irqrestore(&ctx->lock, flags);
3525
3526                 if (clone_ctx)
3527                         put_ctx(clone_ctx);
3528         } else {
3529                 ctx = alloc_perf_context(pmu, task);
3530                 err = -ENOMEM;
3531                 if (!ctx)
3532                         goto errout;
3533
3534                 if (task_ctx_data) {
3535                         ctx->task_ctx_data = task_ctx_data;
3536                         task_ctx_data = NULL;
3537                 }
3538
3539                 err = 0;
3540                 mutex_lock(&task->perf_event_mutex);
3541                 /*
3542                  * If it has already passed perf_event_exit_task().
3543                  * we must see PF_EXITING, it takes this mutex too.
3544                  */
3545                 if (task->flags & PF_EXITING)
3546                         err = -ESRCH;
3547                 else if (task->perf_event_ctxp[ctxn])
3548                         err = -EAGAIN;
3549                 else {
3550                         get_ctx(ctx);
3551                         ++ctx->pin_count;
3552                         rcu_assign_pointer(task->perf_event_ctxp[ctxn], ctx);
3553                 }
3554                 mutex_unlock(&task->perf_event_mutex);
3555
3556                 if (unlikely(err)) {
3557                         put_ctx(ctx);
3558
3559                         if (err == -EAGAIN)
3560                                 goto retry;
3561                         goto errout;
3562                 }
3563         }
3564
3565         kfree(task_ctx_data);
3566         return ctx;
3567
3568 errout:
3569         kfree(task_ctx_data);
3570         return ERR_PTR(err);
3571 }
3572
3573 static void perf_event_free_filter(struct perf_event *event);
3574 static void perf_event_free_bpf_prog(struct perf_event *event);
3575
3576 static void free_event_rcu(struct rcu_head *head)
3577 {
3578         struct perf_event *event;
3579
3580         event = container_of(head, struct perf_event, rcu_head);
3581         if (event->ns)
3582                 put_pid_ns(event->ns);
3583         perf_event_free_filter(event);
3584         kfree(event);
3585 }
3586
3587 static void ring_buffer_attach(struct perf_event *event,
3588                                struct ring_buffer *rb);
3589
3590 static void unaccount_event_cpu(struct perf_event *event, int cpu)
3591 {
3592         if (event->parent)
3593                 return;
3594
3595         if (is_cgroup_event(event))
3596                 atomic_dec(&per_cpu(perf_cgroup_events, cpu));
3597 }
3598
3599 static void unaccount_event(struct perf_event *event)
3600 {
3601         if (event->parent)
3602                 return;
3603
3604         if (event->attach_state & PERF_ATTACH_TASK)
3605                 static_key_slow_dec_deferred(&perf_sched_events);
3606         if (event->attr.mmap || event->attr.mmap_data)
3607                 atomic_dec(&nr_mmap_events);
3608         if (event->attr.comm)
3609                 atomic_dec(&nr_comm_events);
3610         if (event->attr.task)
3611                 atomic_dec(&nr_task_events);
3612         if (event->attr.freq)
3613                 atomic_dec(&nr_freq_events);
3614         if (event->attr.context_switch) {
3615                 static_key_slow_dec_deferred(&perf_sched_events);
3616                 atomic_dec(&nr_switch_events);
3617         }
3618         if (is_cgroup_event(event))
3619                 static_key_slow_dec_deferred(&perf_sched_events);
3620         if (has_branch_stack(event))
3621                 static_key_slow_dec_deferred(&perf_sched_events);
3622
3623         unaccount_event_cpu(event, event->cpu);
3624 }
3625
3626 /*
3627  * The following implement mutual exclusion of events on "exclusive" pmus
3628  * (PERF_PMU_CAP_EXCLUSIVE). Such pmus can only have one event scheduled
3629  * at a time, so we disallow creating events that might conflict, namely:
3630  *
3631  *  1) cpu-wide events in the presence of per-task events,
3632  *  2) per-task events in the presence of cpu-wide events,
3633  *  3) two matching events on the same context.
3634  *
3635  * The former two cases are handled in the allocation path (perf_event_alloc(),
3636  * __free_event()), the latter -- before the first perf_install_in_context().
3637  */
3638 static int exclusive_event_init(struct perf_event *event)
3639 {
3640         struct pmu *pmu = event->pmu;
3641
3642         if (!(pmu->capabilities & PERF_PMU_CAP_EXCLUSIVE))
3643                 return 0;
3644
3645         /*
3646          * Prevent co-existence of per-task and cpu-wide events on the
3647          * same exclusive pmu.
3648          *
3649          * Negative pmu::exclusive_cnt means there are cpu-wide
3650          * events on this "exclusive" pmu, positive means there are
3651          * per-task events.
3652          *
3653          * Since this is called in perf_event_alloc() path, event::ctx
3654          * doesn't exist yet; it is, however, safe to use PERF_ATTACH_TASK
3655          * to mean "per-task event", because unlike other attach states it
3656          * never gets cleared.
3657          */
3658         if (event->attach_state & PERF_ATTACH_TASK) {
3659                 if (!atomic_inc_unless_negative(&pmu->exclusive_cnt))
3660                         return -EBUSY;
3661         } else {
3662                 if (!atomic_dec_unless_positive(&pmu->exclusive_cnt))
3663                         return -EBUSY;
3664         }
3665
3666         return 0;
3667 }
3668
3669 static void exclusive_event_destroy(struct perf_event *event)
3670 {
3671         struct pmu *pmu = event->pmu;
3672
3673         if (!(pmu->capabilities & PERF_PMU_CAP_EXCLUSIVE))
3674                 return;
3675
3676         /* see comment in exclusive_event_init() */
3677         if (event->attach_state & PERF_ATTACH_TASK)
3678                 atomic_dec(&pmu->exclusive_cnt);
3679         else
3680                 atomic_inc(&pmu->exclusive_cnt);
3681 }
3682
3683 static bool exclusive_event_match(struct perf_event *e1, struct perf_event *e2)
3684 {
3685         if ((e1->pmu->capabilities & PERF_PMU_CAP_EXCLUSIVE) &&
3686             (e1->cpu == e2->cpu ||
3687              e1->cpu == -1 ||
3688              e2->cpu == -1))
3689                 return true;
3690         return false;
3691 }
3692
3693 /* Called under the same ctx::mutex as perf_install_in_context() */
3694 static bool exclusive_event_installable(struct perf_event *event,
3695                                         struct perf_event_context *ctx)
3696 {
3697         struct perf_event *iter_event;
3698         struct pmu *pmu = event->pmu;
3699
3700         if (!(pmu->capabilities & PERF_PMU_CAP_EXCLUSIVE))
3701                 return true;
3702
3703         list_for_each_entry(iter_event, &ctx->event_list, event_entry) {
3704                 if (exclusive_event_match(iter_event, event))
3705                         return false;
3706         }
3707
3708         return true;
3709 }
3710
3711 static void __free_event(struct perf_event *event)
3712 {
3713         if (!event->parent) {
3714                 if (event->attr.sample_type & PERF_SAMPLE_CALLCHAIN)
3715                         put_callchain_buffers();
3716         }
3717
3718         perf_event_free_bpf_prog(event);
3719
3720         if (event->destroy)
3721                 event->destroy(event);
3722
3723         if (event->pmu->free_drv_configs)
3724                 event->pmu->free_drv_configs(event);
3725
3726         if (event->ctx)
3727                 put_ctx(event->ctx);
3728
3729         if (event->pmu) {
3730                 exclusive_event_destroy(event);
3731                 module_put(event->pmu->module);
3732         }
3733
3734         call_rcu(&event->rcu_head, free_event_rcu);
3735 }
3736
3737 static void _free_event(struct perf_event *event)
3738 {
3739         irq_work_sync(&event->pending);
3740
3741         unaccount_event(event);
3742
3743         if (event->rb) {
3744                 /*
3745                  * Can happen when we close an event with re-directed output.
3746                  *
3747                  * Since we have a 0 refcount, perf_mmap_close() will skip
3748                  * over us; possibly making our ring_buffer_put() the last.
3749                  */
3750                 mutex_lock(&event->mmap_mutex);
3751                 ring_buffer_attach(event, NULL);
3752                 mutex_unlock(&event->mmap_mutex);
3753         }
3754
3755         if (is_cgroup_event(event))
3756                 perf_detach_cgroup(event);
3757
3758         __free_event(event);
3759 }
3760
3761 /*
3762  * Used to free events which have a known refcount of 1, such as in error paths
3763  * where the event isn't exposed yet and inherited events.
3764  */
3765 static void free_event(struct perf_event *event)
3766 {
3767         if (WARN(atomic_long_cmpxchg(&event->refcount, 1, 0) != 1,
3768                                 "unexpected event refcount: %ld; ptr=%p\n",
3769                                 atomic_long_read(&event->refcount), event)) {
3770                 /* leak to avoid use-after-free */
3771                 return;
3772         }
3773
3774         _free_event(event);
3775 }
3776
3777 /*
3778  * Remove user event from the owner task.
3779  */
3780 static void perf_remove_from_owner(struct perf_event *event)
3781 {
3782         struct task_struct *owner;
3783
3784         rcu_read_lock();
3785         owner = ACCESS_ONCE(event->owner);
3786         /*
3787          * Matches the smp_wmb() in perf_event_exit_task(). If we observe
3788          * !owner it means the list deletion is complete and we can indeed
3789          * free this event, otherwise we need to serialize on
3790          * owner->perf_event_mutex.
3791          */
3792         smp_read_barrier_depends();
3793         if (owner) {
3794                 /*
3795                  * Since delayed_put_task_struct() also drops the last
3796                  * task reference we can safely take a new reference
3797                  * while holding the rcu_read_lock().
3798                  */
3799                 get_task_struct(owner);
3800         }
3801         rcu_read_unlock();
3802
3803         if (owner) {
3804                 /*
3805                  * If we're here through perf_event_exit_task() we're already
3806                  * holding ctx->mutex which would be an inversion wrt. the
3807                  * normal lock order.
3808                  *
3809                  * However we can safely take this lock because its the child
3810                  * ctx->mutex.
3811                  */
3812                 mutex_lock_nested(&owner->perf_event_mutex, SINGLE_DEPTH_NESTING);
3813
3814                 /*
3815                  * We have to re-check the event->owner field, if it is cleared
3816                  * we raced with perf_event_exit_task(), acquiring the mutex
3817                  * ensured they're done, and we can proceed with freeing the
3818                  * event.
3819                  */
3820                 if (event->owner)
3821                         list_del_init(&event->owner_entry);
3822                 mutex_unlock(&owner->perf_event_mutex);
3823                 put_task_struct(owner);
3824         }
3825 }
3826
3827 static void put_event(struct perf_event *event)
3828 {
3829         struct perf_event_context *ctx;
3830
3831         if (!atomic_long_dec_and_test(&event->refcount))
3832                 return;
3833
3834         if (!is_kernel_event(event))
3835                 perf_remove_from_owner(event);
3836
3837         /*
3838          * There are two ways this annotation is useful:
3839          *
3840          *  1) there is a lock recursion from perf_event_exit_task
3841          *     see the comment there.
3842          *
3843          *  2) there is a lock-inversion with mmap_sem through
3844          *     perf_read_group(), which takes faults while
3845          *     holding ctx->mutex, however this is called after
3846          *     the last filedesc died, so there is no possibility
3847          *     to trigger the AB-BA case.
3848          */
3849         ctx = perf_event_ctx_lock_nested(event, SINGLE_DEPTH_NESTING);
3850         WARN_ON_ONCE(ctx->parent_ctx);
3851         perf_remove_from_context(event, true);
3852         perf_event_ctx_unlock(event, ctx);
3853
3854         _free_event(event);
3855 }
3856
3857 int perf_event_release_kernel(struct perf_event *event)
3858 {
3859         put_event(event);
3860         return 0;
3861 }
3862 EXPORT_SYMBOL_GPL(perf_event_release_kernel);
3863
3864 /*
3865  * Called when the last reference to the file is gone.
3866  */
3867 static int perf_release(struct inode *inode, struct file *file)
3868 {
3869         put_event(file->private_data);
3870         return 0;
3871 }
3872
3873 /*
3874  * Remove all orphanes events from the context.
3875  */
3876 static void orphans_remove_work(struct work_struct *work)
3877 {
3878         struct perf_event_context *ctx;
3879         struct perf_event *event, *tmp;
3880
3881         ctx = container_of(work, struct perf_event_context,
3882                            orphans_remove.work);
3883
3884         mutex_lock(&ctx->mutex);
3885         list_for_each_entry_safe(event, tmp, &ctx->event_list, event_entry) {
3886                 struct perf_event *parent_event = event->parent;
3887
3888                 if (!is_orphaned_child(event))
3889                         continue;
3890
3891                 perf_remove_from_context(event, true);
3892
3893                 mutex_lock(&parent_event->child_mutex);
3894                 list_del_init(&event->child_list);
3895                 mutex_unlock(&parent_event->child_mutex);
3896
3897                 free_event(event);
3898                 put_event(parent_event);
3899         }
3900
3901         raw_spin_lock_irq(&ctx->lock);
3902         ctx->orphans_remove_sched = false;
3903         raw_spin_unlock_irq(&ctx->lock);
3904         mutex_unlock(&ctx->mutex);
3905
3906         put_ctx(ctx);
3907 }
3908
3909 u64 perf_event_read_value(struct perf_event *event, u64 *enabled, u64 *running)
3910 {
3911         struct perf_event *child;
3912         u64 total = 0;
3913
3914         *enabled = 0;
3915         *running = 0;
3916
3917         mutex_lock(&event->child_mutex);
3918
3919         (void)perf_event_read(event, false);
3920         total += perf_event_count(event);
3921
3922         *enabled += event->total_time_enabled +
3923                         atomic64_read(&event->child_total_time_enabled);
3924         *running += event->total_time_running +
3925                         atomic64_read(&event->child_total_time_running);
3926
3927         list_for_each_entry(child, &event->child_list, child_list) {
3928                 (void)perf_event_read(child, false);
3929                 total += perf_event_count(child);
3930                 *enabled += child->total_time_enabled;
3931                 *running += child->total_time_running;
3932         }
3933         mutex_unlock(&event->child_mutex);
3934
3935         return total;
3936 }
3937 EXPORT_SYMBOL_GPL(perf_event_read_value);
3938
3939 static int __perf_read_group_add(struct perf_event *leader,
3940                                         u64 read_format, u64 *values)
3941 {
3942         struct perf_event *sub;
3943         int n = 1; /* skip @nr */
3944         int ret;
3945
3946         ret = perf_event_read(leader, true);
3947         if (ret)
3948                 return ret;
3949
3950         /*
3951          * Since we co-schedule groups, {enabled,running} times of siblings
3952          * will be identical to those of the leader, so we only publish one
3953          * set.
3954          */
3955         if (read_format & PERF_FORMAT_TOTAL_TIME_ENABLED) {
3956                 values[n++] += leader->total_time_enabled +
3957                         atomic64_read(&leader->child_total_time_enabled);
3958         }
3959
3960         if (read_format & PERF_FORMAT_TOTAL_TIME_RUNNING) {
3961                 values[n++] += leader->total_time_running +
3962                         atomic64_read(&leader->child_total_time_running);
3963         }
3964
3965         /*
3966          * Write {count,id} tuples for every sibling.
3967          */
3968         values[n++] += perf_event_count(leader);
3969         if (read_format & PERF_FORMAT_ID)
3970                 values[n++] = primary_event_id(leader);
3971
3972         list_for_each_entry(sub, &leader->sibling_list, group_entry) {
3973                 values[n++] += perf_event_count(sub);
3974                 if (read_format & PERF_FORMAT_ID)
3975                         values[n++] = primary_event_id(sub);
3976         }
3977
3978         return 0;
3979 }
3980
3981 static int perf_read_group(struct perf_event *event,
3982                                    u64 read_format, char __user *buf)
3983 {
3984         struct perf_event *leader = event->group_leader, *child;
3985         struct perf_event_context *ctx = leader->ctx;
3986         int ret;
3987         u64 *values;
3988
3989         lockdep_assert_held(&ctx->mutex);
3990
3991         values = kzalloc(event->read_size, GFP_KERNEL);
3992         if (!values)
3993                 return -ENOMEM;
3994
3995         values[0] = 1 + leader->nr_siblings;
3996
3997         /*
3998          * By locking the child_mutex of the leader we effectively
3999          * lock the child list of all siblings.. XXX explain how.
4000          */
4001         mutex_lock(&leader->child_mutex);
4002
4003         ret = __perf_read_group_add(leader, read_format, values);
4004         if (ret)
4005                 goto unlock;
4006
4007         list_for_each_entry(child, &leader->child_list, child_list) {
4008                 ret = __perf_read_group_add(child, read_format, values);
4009                 if (ret)
4010                         goto unlock;
4011         }
4012
4013         mutex_unlock(&leader->child_mutex);
4014
4015         ret = event->read_size;
4016         if (copy_to_user(buf, values, event->read_size))
4017                 ret = -EFAULT;
4018         goto out;
4019
4020 unlock:
4021         mutex_unlock(&leader->child_mutex);
4022 out:
4023         kfree(values);
4024         return ret;
4025 }
4026
4027 static int perf_read_one(struct perf_event *event,
4028                                  u64 read_format, char __user *buf)
4029 {
4030         u64 enabled, running;
4031         u64 values[4];
4032         int n = 0;
4033
4034         values[n++] = perf_event_read_value(event, &enabled, &running);
4035         if (read_format & PERF_FORMAT_TOTAL_TIME_ENABLED)
4036                 values[n++] = enabled;
4037         if (read_format & PERF_FORMAT_TOTAL_TIME_RUNNING)
4038                 values[n++] = running;
4039         if (read_format & PERF_FORMAT_ID)
4040                 values[n++] = primary_event_id(event);
4041
4042         if (copy_to_user(buf, values, n * sizeof(u64)))
4043                 return -EFAULT;
4044
4045         return n * sizeof(u64);
4046 }
4047
4048 static bool is_event_hup(struct perf_event *event)
4049 {
4050         bool no_children;
4051
4052         if (event->state != PERF_EVENT_STATE_EXIT)
4053                 return false;
4054
4055         mutex_lock(&event->child_mutex);
4056         no_children = list_empty(&event->child_list);
4057         mutex_unlock(&event->child_mutex);
4058         return no_children;
4059 }
4060
4061 /*
4062  * Read the performance event - simple non blocking version for now
4063  */
4064 static ssize_t
4065 __perf_read(struct perf_event *event, char __user *buf, size_t count)
4066 {
4067         u64 read_format = event->attr.read_format;
4068         int ret;
4069
4070         /*
4071          * Return end-of-file for a read on a event that is in
4072          * error state (i.e. because it was pinned but it couldn't be
4073          * scheduled on to the CPU at some point).
4074          */
4075         if (event->state == PERF_EVENT_STATE_ERROR)
4076                 return 0;
4077
4078         if (count < event->read_size)
4079                 return -ENOSPC;
4080
4081         WARN_ON_ONCE(event->ctx->parent_ctx);
4082         if (read_format & PERF_FORMAT_GROUP)
4083                 ret = perf_read_group(event, read_format, buf);
4084         else
4085                 ret = perf_read_one(event, read_format, buf);
4086
4087         return ret;
4088 }
4089
4090 static ssize_t
4091 perf_read(struct file *file, char __user *buf, size_t count, loff_t *ppos)
4092 {
4093         struct perf_event *event = file->private_data;
4094         struct perf_event_context *ctx;
4095         int ret;
4096
4097         ctx = perf_event_ctx_lock(event);
4098         ret = __perf_read(event, buf, count);
4099         perf_event_ctx_unlock(event, ctx);
4100
4101         return ret;
4102 }
4103
4104 static unsigned int perf_poll(struct file *file, poll_table *wait)
4105 {
4106         struct perf_event *event = file->private_data;
4107         struct ring_buffer *rb;
4108         unsigned int events = POLLHUP;
4109
4110         poll_wait(file, &event->waitq, wait);
4111
4112         if (is_event_hup(event))
4113                 return events;
4114
4115         /*
4116          * Pin the event->rb by taking event->mmap_mutex; otherwise
4117          * perf_event_set_output() can swizzle our rb and make us miss wakeups.
4118          */
4119         mutex_lock(&event->mmap_mutex);
4120         rb = event->rb;
4121         if (rb)
4122                 events = atomic_xchg(&rb->poll, 0);
4123         mutex_unlock(&event->mmap_mutex);
4124         return events;
4125 }
4126
4127 static void _perf_event_reset(struct perf_event *event)
4128 {
4129         (void)perf_event_read(event, false);
4130         local64_set(&event->count, 0);
4131         perf_event_update_userpage(event);
4132 }
4133
4134 /*
4135  * Holding the top-level event's child_mutex means that any
4136  * descendant process that has inherited this event will block
4137  * in sync_child_event if it goes to exit, thus satisfying the
4138  * task existence requirements of perf_event_enable/disable.
4139  */
4140 static void perf_event_for_each_child(struct perf_event *event,
4141                                         void (*func)(struct perf_event *))
4142 {
4143         struct perf_event *child;
4144
4145         WARN_ON_ONCE(event->ctx->parent_ctx);
4146
4147         mutex_lock(&event->child_mutex);
4148         func(event);
4149         list_for_each_entry(child, &event->child_list, child_list)
4150                 func(child);
4151         mutex_unlock(&event->child_mutex);
4152 }
4153
4154 static void perf_event_for_each(struct perf_event *event,
4155                                   void (*func)(struct perf_event *))
4156 {
4157         struct perf_event_context *ctx = event->ctx;
4158         struct perf_event *sibling;
4159
4160         lockdep_assert_held(&ctx->mutex);
4161
4162         event = event->group_leader;
4163
4164         perf_event_for_each_child(event, func);
4165         list_for_each_entry(sibling, &event->sibling_list, group_entry)
4166                 perf_event_for_each_child(sibling, func);
4167 }
4168
4169 struct period_event {
4170         struct perf_event *event;
4171         u64 value;
4172 };
4173
4174 static int __perf_event_period(void *info)
4175 {
4176         struct period_event *pe = info;
4177         struct perf_event *event = pe->event;
4178         struct perf_event_context *ctx = event->ctx;
4179         u64 value = pe->value;
4180         bool active;
4181
4182         raw_spin_lock(&ctx->lock);
4183         if (event->attr.freq) {
4184                 event->attr.sample_freq = value;
4185         } else {
4186                 event->attr.sample_period = value;
4187                 event->hw.sample_period = value;
4188         }
4189
4190         active = (event->state == PERF_EVENT_STATE_ACTIVE);
4191         if (active) {
4192                 perf_pmu_disable(ctx->pmu);
4193                 event->pmu->stop(event, PERF_EF_UPDATE);
4194         }
4195
4196         local64_set(&event->hw.period_left, 0);
4197
4198         if (active) {
4199                 event->pmu->start(event, PERF_EF_RELOAD);
4200                 perf_pmu_enable(ctx->pmu);
4201         }
4202         raw_spin_unlock(&ctx->lock);
4203
4204         return 0;
4205 }
4206
4207 static int perf_event_period(struct perf_event *event, u64 __user *arg)
4208 {
4209         struct period_event pe = { .event = event, };
4210         struct perf_event_context *ctx = event->ctx;
4211         struct task_struct *task;
4212         u64 value;
4213
4214         if (!is_sampling_event(event))
4215                 return -EINVAL;
4216
4217         if (copy_from_user(&value, arg, sizeof(value)))
4218                 return -EFAULT;
4219
4220         if (!value)
4221                 return -EINVAL;
4222
4223         if (event->attr.freq && value > sysctl_perf_event_sample_rate)
4224                 return -EINVAL;
4225
4226         task = ctx->task;
4227         pe.value = value;
4228
4229         if (!task) {
4230                 cpu_function_call(event->cpu, __perf_event_period, &pe);
4231                 return 0;
4232         }
4233
4234 retry:
4235         if (!task_function_call(task, __perf_event_period, &pe))
4236                 return 0;
4237
4238         raw_spin_lock_irq(&ctx->lock);
4239         if (ctx->is_active) {
4240                 raw_spin_unlock_irq(&ctx->lock);
4241                 task = ctx->task;
4242                 goto retry;
4243         }
4244
4245         if (event->attr.freq) {
4246                 event->attr.sample_freq = value;
4247         } else {
4248                 event->attr.sample_period = value;
4249                 event->hw.sample_period = value;
4250         }
4251
4252         local64_set(&event->hw.period_left, 0);
4253         raw_spin_unlock_irq(&ctx->lock);
4254
4255         return 0;
4256 }
4257
4258 static const struct file_operations perf_fops;
4259
4260 static inline int perf_fget_light(int fd, struct fd *p)
4261 {
4262         struct fd f = fdget(fd);
4263         if (!f.file)
4264                 return -EBADF;
4265
4266         if (f.file->f_op != &perf_fops) {
4267                 fdput(f);
4268                 return -EBADF;
4269         }
4270         *p = f;
4271         return 0;
4272 }
4273
4274 static int perf_event_set_output(struct perf_event *event,
4275                                  struct perf_event *output_event);
4276 static int perf_event_set_filter(struct perf_event *event, void __user *arg);
4277 static int perf_event_set_bpf_prog(struct perf_event *event, u32 prog_fd);
4278 static int perf_event_drv_configs(struct perf_event *event,
4279                                   void __user *arg);
4280
4281 static long _perf_ioctl(struct perf_event *event, unsigned int cmd, unsigned long arg)
4282 {
4283         void (*func)(struct perf_event *);
4284         u32 flags = arg;
4285
4286         switch (cmd) {
4287         case PERF_EVENT_IOC_ENABLE:
4288                 func = _perf_event_enable;
4289                 break;
4290         case PERF_EVENT_IOC_DISABLE:
4291                 func = _perf_event_disable;
4292                 break;
4293         case PERF_EVENT_IOC_RESET:
4294                 func = _perf_event_reset;
4295                 break;
4296
4297         case PERF_EVENT_IOC_REFRESH:
4298                 return _perf_event_refresh(event, arg);
4299
4300         case PERF_EVENT_IOC_PERIOD:
4301                 return perf_event_period(event, (u64 __user *)arg);
4302
4303         case PERF_EVENT_IOC_ID:
4304         {
4305                 u64 id = primary_event_id(event);
4306
4307                 if (copy_to_user((void __user *)arg, &id, sizeof(id)))
4308                         return -EFAULT;
4309                 return 0;
4310         }
4311
4312         case PERF_EVENT_IOC_SET_OUTPUT:
4313         {
4314                 int ret;
4315                 if (arg != -1) {
4316                         struct perf_event *output_event;
4317                         struct fd output;
4318                         ret = perf_fget_light(arg, &output);
4319                         if (ret)
4320                                 return ret;
4321                         output_event = output.file->private_data;
4322                         ret = perf_event_set_output(event, output_event);
4323                         fdput(output);
4324                 } else {
4325                         ret = perf_event_set_output(event, NULL);
4326                 }
4327                 return ret;
4328         }
4329
4330         case PERF_EVENT_IOC_SET_FILTER:
4331                 return perf_event_set_filter(event, (void __user *)arg);
4332
4333         case PERF_EVENT_IOC_SET_BPF:
4334                 return perf_event_set_bpf_prog(event, arg);
4335
4336         case PERF_EVENT_IOC_SET_DRV_CONFIGS:
4337                 return perf_event_drv_configs(event, (void __user *)arg);
4338
4339         default:
4340                 return -ENOTTY;
4341         }
4342
4343         if (flags & PERF_IOC_FLAG_GROUP)
4344                 perf_event_for_each(event, func);
4345         else
4346                 perf_event_for_each_child(event, func);
4347
4348         return 0;
4349 }
4350
4351 static long perf_ioctl(struct file *file, unsigned int cmd, unsigned long arg)
4352 {
4353         struct perf_event *event = file->private_data;
4354         struct perf_event_context *ctx;
4355         long ret;
4356
4357         ctx = perf_event_ctx_lock(event);
4358         ret = _perf_ioctl(event, cmd, arg);
4359         perf_event_ctx_unlock(event, ctx);
4360
4361         return ret;
4362 }
4363
4364 #ifdef CONFIG_COMPAT
4365 static long perf_compat_ioctl(struct file *file, unsigned int cmd,
4366                                 unsigned long arg)
4367 {
4368         switch (_IOC_NR(cmd)) {
4369         case _IOC_NR(PERF_EVENT_IOC_SET_FILTER):
4370         case _IOC_NR(PERF_EVENT_IOC_ID):
4371         case _IOC_NR(PERF_EVENT_IOC_SET_DRV_CONFIGS):
4372                 /* Fix up pointer size (usually 4 -> 8 in 32-on-64-bit case */
4373                 if (_IOC_SIZE(cmd) == sizeof(compat_uptr_t)) {
4374                         cmd &= ~IOCSIZE_MASK;
4375                         cmd |= sizeof(void *) << IOCSIZE_SHIFT;
4376                 }
4377                 break;
4378         }
4379         return perf_ioctl(file, cmd, arg);
4380 }
4381 #else
4382 # define perf_compat_ioctl NULL
4383 #endif
4384
4385 int perf_event_task_enable(void)
4386 {
4387         struct perf_event_context *ctx;
4388         struct perf_event *event;
4389
4390         mutex_lock(&current->perf_event_mutex);
4391         list_for_each_entry(event, &current->perf_event_list, owner_entry) {
4392                 ctx = perf_event_ctx_lock(event);
4393                 perf_event_for_each_child(event, _perf_event_enable);
4394                 perf_event_ctx_unlock(event, ctx);
4395         }
4396         mutex_unlock(&current->perf_event_mutex);
4397
4398         return 0;
4399 }
4400
4401 int perf_event_task_disable(void)
4402 {
4403         struct perf_event_context *ctx;
4404         struct perf_event *event;
4405
4406         mutex_lock(&current->perf_event_mutex);
4407         list_for_each_entry(event, &current->perf_event_list, owner_entry) {
4408                 ctx = perf_event_ctx_lock(event);
4409                 perf_event_for_each_child(event, _perf_event_disable);
4410                 perf_event_ctx_unlock(event, ctx);
4411         }
4412         mutex_unlock(&current->perf_event_mutex);
4413
4414         return 0;
4415 }
4416
4417 static int perf_event_index(struct perf_event *event)
4418 {
4419         if (event->hw.state & PERF_HES_STOPPED)
4420                 return 0;
4421
4422         if (event->state != PERF_EVENT_STATE_ACTIVE)
4423                 return 0;
4424
4425         return event->pmu->event_idx(event);
4426 }
4427
4428 static void calc_timer_values(struct perf_event *event,
4429                                 u64 *now,
4430                                 u64 *enabled,
4431                                 u64 *running)
4432 {
4433         u64 ctx_time;
4434
4435         *now = perf_clock();
4436         ctx_time = event->shadow_ctx_time + *now;
4437         *enabled = ctx_time - event->tstamp_enabled;
4438         *running = ctx_time - event->tstamp_running;
4439 }
4440
4441 static void perf_event_init_userpage(struct perf_event *event)
4442 {
4443         struct perf_event_mmap_page *userpg;
4444         struct ring_buffer *rb;
4445
4446         rcu_read_lock();
4447         rb = rcu_dereference(event->rb);
4448         if (!rb)
4449                 goto unlock;
4450
4451         userpg = rb->user_page;
4452
4453         /* Allow new userspace to detect that bit 0 is deprecated */
4454         userpg->cap_bit0_is_deprecated = 1;
4455         userpg->size = offsetof(struct perf_event_mmap_page, __reserved);
4456         userpg->data_offset = PAGE_SIZE;
4457         userpg->data_size = perf_data_size(rb);
4458
4459 unlock:
4460         rcu_read_unlock();
4461 }
4462
4463 void __weak arch_perf_update_userpage(
4464         struct perf_event *event, struct perf_event_mmap_page *userpg, u64 now)
4465 {
4466 }
4467
4468 /*
4469  * Callers need to ensure there can be no nesting of this function, otherwise
4470  * the seqlock logic goes bad. We can not serialize this because the arch
4471  * code calls this from NMI context.
4472  */
4473 void perf_event_update_userpage(struct perf_event *event)
4474 {
4475         struct perf_event_mmap_page *userpg;
4476         struct ring_buffer *rb;
4477         u64 enabled, running, now;
4478
4479         rcu_read_lock();
4480         rb = rcu_dereference(event->rb);
4481         if (!rb)
4482                 goto unlock;
4483
4484         /*
4485          * compute total_time_enabled, total_time_running
4486          * based on snapshot values taken when the event
4487          * was last scheduled in.
4488          *
4489          * we cannot simply called update_context_time()
4490          * because of locking issue as we can be called in
4491          * NMI context
4492          */
4493         calc_timer_values(event, &now, &enabled, &running);
4494
4495         userpg = rb->user_page;
4496         /*
4497          * Disable preemption so as to not let the corresponding user-space
4498          * spin too long if we get preempted.
4499          */
4500         preempt_disable();
4501         ++userpg->lock;
4502         barrier();
4503         userpg->index = perf_event_index(event);
4504         userpg->offset = perf_event_count(event);
4505         if (userpg->index)
4506                 userpg->offset -= local64_read(&event->hw.prev_count);
4507
4508         userpg->time_enabled = enabled +
4509                         atomic64_read(&event->child_total_time_enabled);
4510
4511         userpg->time_running = running +
4512                         atomic64_read(&event->child_total_time_running);
4513
4514         arch_perf_update_userpage(event, userpg, now);
4515
4516         barrier();
4517         ++userpg->lock;
4518         preempt_enable();
4519 unlock:
4520         rcu_read_unlock();
4521 }
4522
4523 static int perf_mmap_fault(struct vm_area_struct *vma, struct vm_fault *vmf)
4524 {
4525         struct perf_event *event = vma->vm_file->private_data;
4526         struct ring_buffer *rb;
4527         int ret = VM_FAULT_SIGBUS;
4528
4529         if (vmf->flags & FAULT_FLAG_MKWRITE) {
4530                 if (vmf->pgoff == 0)
4531                         ret = 0;
4532                 return ret;
4533         }
4534
4535         rcu_read_lock();
4536         rb = rcu_dereference(event->rb);
4537         if (!rb)
4538                 goto unlock;
4539
4540         if (vmf->pgoff && (vmf->flags & FAULT_FLAG_WRITE))
4541                 goto unlock;
4542
4543         vmf->page = perf_mmap_to_page(rb, vmf->pgoff);
4544         if (!vmf->page)
4545                 goto unlock;
4546
4547         get_page(vmf->page);
4548         vmf->page->mapping = vma->vm_file->f_mapping;
4549         vmf->page->index   = vmf->pgoff;
4550
4551         ret = 0;
4552 unlock:
4553         rcu_read_unlock();
4554
4555         return ret;
4556 }
4557
4558 static void ring_buffer_attach(struct perf_event *event,
4559                                struct ring_buffer *rb)
4560 {
4561         struct ring_buffer *old_rb = NULL;
4562         unsigned long flags;
4563
4564         if (event->rb) {
4565                 /*
4566                  * Should be impossible, we set this when removing
4567                  * event->rb_entry and wait/clear when adding event->rb_entry.
4568                  */
4569                 WARN_ON_ONCE(event->rcu_pending);
4570
4571                 old_rb = event->rb;
4572                 spin_lock_irqsave(&old_rb->event_lock, flags);
4573                 list_del_rcu(&event->rb_entry);
4574                 spin_unlock_irqrestore(&old_rb->event_lock, flags);
4575
4576                 event->rcu_batches = get_state_synchronize_rcu();
4577                 event->rcu_pending = 1;
4578         }
4579
4580         if (rb) {
4581                 if (event->rcu_pending) {
4582                         cond_synchronize_rcu(event->rcu_batches);
4583                         event->rcu_pending = 0;
4584                 }
4585
4586                 spin_lock_irqsave(&rb->event_lock, flags);
4587                 list_add_rcu(&event->rb_entry, &rb->event_list);
4588                 spin_unlock_irqrestore(&rb->event_lock, flags);
4589         }
4590
4591         rcu_assign_pointer(event->rb, rb);
4592
4593         if (old_rb) {
4594                 ring_buffer_put(old_rb);
4595                 /*
4596                  * Since we detached before setting the new rb, so that we
4597                  * could attach the new rb, we could have missed a wakeup.
4598                  * Provide it now.
4599                  */
4600                 wake_up_all(&event->waitq);
4601         }
4602 }
4603
4604 static void ring_buffer_wakeup(struct perf_event *event)
4605 {
4606         struct ring_buffer *rb;
4607
4608         rcu_read_lock();
4609         rb = rcu_dereference(event->rb);
4610         if (rb) {
4611                 list_for_each_entry_rcu(event, &rb->event_list, rb_entry)
4612                         wake_up_all(&event->waitq);
4613         }
4614         rcu_read_unlock();
4615 }
4616
4617 struct ring_buffer *ring_buffer_get(struct perf_event *event)
4618 {
4619         struct ring_buffer *rb;
4620
4621         rcu_read_lock();
4622         rb = rcu_dereference(event->rb);
4623         if (rb) {
4624                 if (!atomic_inc_not_zero(&rb->refcount))
4625                         rb = NULL;
4626         }
4627         rcu_read_unlock();
4628
4629         return rb;
4630 }
4631
4632 void ring_buffer_put(struct ring_buffer *rb)
4633 {
4634         if (!atomic_dec_and_test(&rb->refcount))
4635                 return;
4636
4637         WARN_ON_ONCE(!list_empty(&rb->event_list));
4638
4639         call_rcu(&rb->rcu_head, rb_free_rcu);
4640 }
4641
4642 static void perf_mmap_open(struct vm_area_struct *vma)
4643 {
4644         struct perf_event *event = vma->vm_file->private_data;
4645
4646         atomic_inc(&event->mmap_count);
4647         atomic_inc(&event->rb->mmap_count);
4648
4649         if (vma->vm_pgoff)
4650                 atomic_inc(&event->rb->aux_mmap_count);
4651
4652         if (event->pmu->event_mapped)
4653                 event->pmu->event_mapped(event);
4654 }
4655
4656 static void perf_pmu_output_stop(struct perf_event *event);
4657
4658 /*
4659  * A buffer can be mmap()ed multiple times; either directly through the same
4660  * event, or through other events by use of perf_event_set_output().
4661  *
4662  * In order to undo the VM accounting done by perf_mmap() we need to destroy
4663  * the buffer here, where we still have a VM context. This means we need
4664  * to detach all events redirecting to us.
4665  */
4666 static void perf_mmap_close(struct vm_area_struct *vma)
4667 {
4668         struct perf_event *event = vma->vm_file->private_data;
4669
4670         struct ring_buffer *rb = ring_buffer_get(event);
4671         struct user_struct *mmap_user = rb->mmap_user;
4672         int mmap_locked = rb->mmap_locked;
4673         unsigned long size = perf_data_size(rb);
4674
4675         if (event->pmu->event_unmapped)
4676                 event->pmu->event_unmapped(event);
4677
4678         /*
4679          * rb->aux_mmap_count will always drop before rb->mmap_count and
4680          * event->mmap_count, so it is ok to use event->mmap_mutex to
4681          * serialize with perf_mmap here.
4682          */
4683         if (rb_has_aux(rb) && vma->vm_pgoff == rb->aux_pgoff &&
4684             atomic_dec_and_mutex_lock(&rb->aux_mmap_count, &event->mmap_mutex)) {
4685                 /*
4686                  * Stop all AUX events that are writing to this buffer,
4687                  * so that we can free its AUX pages and corresponding PMU
4688                  * data. Note that after rb::aux_mmap_count dropped to zero,
4689                  * they won't start any more (see perf_aux_output_begin()).
4690                  */
4691                 perf_pmu_output_stop(event);
4692
4693                 /* now it's safe to free the pages */
4694                 atomic_long_sub(rb->aux_nr_pages, &mmap_user->locked_vm);
4695                 vma->vm_mm->pinned_vm -= rb->aux_mmap_locked;
4696
4697                 /* this has to be the last one */
4698                 rb_free_aux(rb);
4699                 WARN_ON_ONCE(atomic_read(&rb->aux_refcount));
4700
4701                 mutex_unlock(&event->mmap_mutex);
4702         }
4703
4704         atomic_dec(&rb->mmap_count);
4705
4706         if (!atomic_dec_and_mutex_lock(&event->mmap_count, &event->mmap_mutex))
4707                 goto out_put;
4708
4709         ring_buffer_attach(event, NULL);
4710         mutex_unlock(&event->mmap_mutex);
4711
4712         /* If there's still other mmap()s of this buffer, we're done. */
4713         if (atomic_read(&rb->mmap_count))
4714                 goto out_put;
4715
4716         /*
4717          * No other mmap()s, detach from all other events that might redirect
4718          * into the now unreachable buffer. Somewhat complicated by the
4719          * fact that rb::event_lock otherwise nests inside mmap_mutex.
4720          */
4721 again:
4722         rcu_read_lock();
4723         list_for_each_entry_rcu(event, &rb->event_list, rb_entry) {
4724                 if (!atomic_long_inc_not_zero(&event->refcount)) {
4725                         /*
4726                          * This event is en-route to free_event() which will
4727                          * detach it and remove it from the list.
4728                          */
4729                         continue;
4730                 }
4731                 rcu_read_unlock();
4732
4733                 mutex_lock(&event->mmap_mutex);
4734                 /*
4735                  * Check we didn't race with perf_event_set_output() which can
4736                  * swizzle the rb from under us while we were waiting to
4737                  * acquire mmap_mutex.
4738                  *
4739                  * If we find a different rb; ignore this event, a next
4740                  * iteration will no longer find it on the list. We have to
4741                  * still restart the iteration to make sure we're not now
4742                  * iterating the wrong list.
4743                  */
4744                 if (event->rb == rb)
4745                         ring_buffer_attach(event, NULL);
4746
4747                 mutex_unlock(&event->mmap_mutex);
4748                 put_event(event);
4749
4750                 /*
4751                  * Restart the iteration; either we're on the wrong list or
4752                  * destroyed its integrity by doing a deletion.
4753                  */
4754                 goto again;
4755         }
4756         rcu_read_unlock();
4757
4758         /*
4759          * It could be there's still a few 0-ref events on the list; they'll
4760          * get cleaned up by free_event() -- they'll also still have their
4761          * ref on the rb and will free it whenever they are done with it.
4762          *
4763          * Aside from that, this buffer is 'fully' detached and unmapped,
4764          * undo the VM accounting.
4765          */
4766
4767         atomic_long_sub((size >> PAGE_SHIFT) + 1, &mmap_user->locked_vm);
4768         vma->vm_mm->pinned_vm -= mmap_locked;
4769         free_uid(mmap_user);
4770
4771 out_put:
4772         ring_buffer_put(rb); /* could be last */
4773 }
4774
4775 static const struct vm_operations_struct perf_mmap_vmops = {
4776         .open           = perf_mmap_open,
4777         .close          = perf_mmap_close, /* non mergable */
4778         .fault          = perf_mmap_fault,
4779         .page_mkwrite   = perf_mmap_fault,
4780 };
4781
4782 static int perf_mmap(struct file *file, struct vm_area_struct *vma)
4783 {
4784         struct perf_event *event = file->private_data;
4785         unsigned long user_locked, user_lock_limit;
4786         struct user_struct *user = current_user();
4787         unsigned long locked, lock_limit;
4788         struct ring_buffer *rb = NULL;
4789         unsigned long vma_size;
4790         unsigned long nr_pages;
4791         long user_extra = 0, extra = 0;
4792         int ret = 0, flags = 0;
4793
4794         /*
4795          * Don't allow mmap() of inherited per-task counters. This would
4796          * create a performance issue due to all children writing to the
4797          * same rb.
4798          */
4799         if (event->cpu == -1 && event->attr.inherit)
4800                 return -EINVAL;
4801
4802         if (!(vma->vm_flags & VM_SHARED))
4803                 return -EINVAL;
4804
4805         vma_size = vma->vm_end - vma->vm_start;
4806
4807         if (vma->vm_pgoff == 0) {
4808                 nr_pages = (vma_size / PAGE_SIZE) - 1;
4809         } else {
4810                 /*
4811                  * AUX area mapping: if rb->aux_nr_pages != 0, it's already
4812                  * mapped, all subsequent mappings should have the same size
4813                  * and offset. Must be above the normal perf buffer.
4814                  */
4815                 u64 aux_offset, aux_size;
4816
4817                 if (!event->rb)
4818                         return -EINVAL;
4819
4820                 nr_pages = vma_size / PAGE_SIZE;
4821
4822                 mutex_lock(&event->mmap_mutex);
4823                 ret = -EINVAL;
4824
4825                 rb = event->rb;
4826                 if (!rb)
4827                         goto aux_unlock;
4828
4829                 aux_offset = ACCESS_ONCE(rb->user_page->aux_offset);
4830                 aux_size = ACCESS_ONCE(rb->user_page->aux_size);
4831
4832                 if (aux_offset < perf_data_size(rb) + PAGE_SIZE)
4833                         goto aux_unlock;
4834
4835                 if (aux_offset != vma->vm_pgoff << PAGE_SHIFT)
4836                         goto aux_unlock;
4837
4838                 /* already mapped with a different offset */
4839                 if (rb_has_aux(rb) && rb->aux_pgoff != vma->vm_pgoff)
4840                         goto aux_unlock;
4841
4842                 if (aux_size != vma_size || aux_size != nr_pages * PAGE_SIZE)
4843                         goto aux_unlock;
4844
4845                 /* already mapped with a different size */
4846                 if (rb_has_aux(rb) && rb->aux_nr_pages != nr_pages)
4847                         goto aux_unlock;
4848
4849                 if (!is_power_of_2(nr_pages))
4850                         goto aux_unlock;
4851
4852                 if (!atomic_inc_not_zero(&rb->mmap_count))
4853                         goto aux_unlock;
4854
4855                 if (rb_has_aux(rb)) {
4856                         atomic_inc(&rb->aux_mmap_count);
4857                         ret = 0;
4858                         goto unlock;
4859                 }
4860
4861                 atomic_set(&rb->aux_mmap_count, 1);
4862                 user_extra = nr_pages;
4863
4864                 goto accounting;
4865         }
4866
4867         /*
4868          * If we have rb pages ensure they're a power-of-two number, so we
4869          * can do bitmasks instead of modulo.
4870          */
4871         if (nr_pages != 0 && !is_power_of_2(nr_pages))
4872                 return -EINVAL;
4873
4874         if (vma_size != PAGE_SIZE * (1 + nr_pages))
4875                 return -EINVAL;
4876
4877         WARN_ON_ONCE(event->ctx->parent_ctx);
4878 again:
4879         mutex_lock(&event->mmap_mutex);
4880         if (event->rb) {
4881                 if (event->rb->nr_pages != nr_pages) {
4882                         ret = -EINVAL;
4883                         goto unlock;
4884                 }
4885
4886                 if (!atomic_inc_not_zero(&event->rb->mmap_count)) {
4887                         /*
4888                          * Raced against perf_mmap_close() through
4889                          * perf_event_set_output(). Try again, hope for better
4890                          * luck.
4891                          */
4892                         mutex_unlock(&event->mmap_mutex);
4893                         goto again;
4894                 }
4895
4896                 goto unlock;
4897         }
4898
4899         user_extra = nr_pages + 1;
4900
4901 accounting:
4902         user_lock_limit = sysctl_perf_event_mlock >> (PAGE_SHIFT - 10);
4903
4904         /*
4905          * Increase the limit linearly with more CPUs:
4906          */
4907         user_lock_limit *= num_online_cpus();
4908
4909         user_locked = atomic_long_read(&user->locked_vm) + user_extra;
4910
4911         if (user_locked > user_lock_limit)
4912                 extra = user_locked - user_lock_limit;
4913
4914         lock_limit = rlimit(RLIMIT_MEMLOCK);
4915         lock_limit >>= PAGE_SHIFT;
4916         locked = vma->vm_mm->pinned_vm + extra;
4917
4918         if ((locked > lock_limit) && perf_paranoid_tracepoint_raw() &&
4919                 !capable(CAP_IPC_LOCK)) {
4920                 ret = -EPERM;
4921                 goto unlock;
4922         }
4923
4924         WARN_ON(!rb && event->rb);
4925
4926         if (vma->vm_flags & VM_WRITE)
4927                 flags |= RING_BUFFER_WRITABLE;
4928
4929         if (!rb) {
4930                 rb = rb_alloc(nr_pages,
4931                               event->attr.watermark ? event->attr.wakeup_watermark : 0,
4932                               event->cpu, flags);
4933
4934                 if (!rb) {
4935                         ret = -ENOMEM;
4936                         goto unlock;
4937                 }
4938
4939                 atomic_set(&rb->mmap_count, 1);
4940                 rb->mmap_user = get_current_user();
4941                 rb->mmap_locked = extra;
4942
4943                 ring_buffer_attach(event, rb);
4944
4945                 perf_event_init_userpage(event);
4946                 perf_event_update_userpage(event);
4947         } else {
4948                 ret = rb_alloc_aux(rb, event, vma->vm_pgoff, nr_pages,
4949                                    event->attr.aux_watermark, flags);
4950                 if (!ret)
4951                         rb->aux_mmap_locked = extra;
4952         }
4953
4954 unlock:
4955         if (!ret) {
4956                 atomic_long_add(user_extra, &user->locked_vm);
4957                 vma->vm_mm->pinned_vm += extra;
4958
4959                 atomic_inc(&event->mmap_count);
4960         } else if (rb) {
4961                 atomic_dec(&rb->mmap_count);
4962         }
4963 aux_unlock:
4964         mutex_unlock(&event->mmap_mutex);
4965
4966         /*
4967          * Since pinned accounting is per vm we cannot allow fork() to copy our
4968          * vma.
4969          */
4970         vma->vm_flags |= VM_DONTCOPY | VM_DONTEXPAND | VM_DONTDUMP;
4971         vma->vm_ops = &perf_mmap_vmops;
4972
4973         if (event->pmu->event_mapped)
4974                 event->pmu->event_mapped(event);
4975
4976         return ret;
4977 }
4978
4979 static int perf_fasync(int fd, struct file *filp, int on)
4980 {
4981         struct inode *inode = file_inode(filp);
4982         struct perf_event *event = filp->private_data;
4983         int retval;
4984
4985         mutex_lock(&inode->i_mutex);
4986         retval = fasync_helper(fd, filp, on, &event->fasync);
4987         mutex_unlock(&inode->i_mutex);
4988
4989         if (retval < 0)
4990                 return retval;
4991
4992         return 0;
4993 }
4994
4995 static const struct file_operations perf_fops = {
4996         .llseek                 = no_llseek,
4997         .release                = perf_release,
4998         .read                   = perf_read,
4999         .poll                   = perf_poll,
5000         .unlocked_ioctl         = perf_ioctl,
5001         .compat_ioctl           = perf_compat_ioctl,
5002         .mmap                   = perf_mmap,
5003         .fasync                 = perf_fasync,
5004 };
5005
5006 /*
5007  * Perf event wakeup
5008  *
5009  * If there's data, ensure we set the poll() state and publish everything
5010  * to user-space before waking everybody up.
5011  */
5012
5013 static inline struct fasync_struct **perf_event_fasync(struct perf_event *event)
5014 {
5015         /* only the parent has fasync state */
5016         if (event->parent)
5017                 event = event->parent;
5018         return &event->fasync;
5019 }
5020
5021 void perf_event_wakeup(struct perf_event *event)
5022 {
5023         ring_buffer_wakeup(event);
5024
5025         if (event->pending_kill) {
5026                 kill_fasync(perf_event_fasync(event), SIGIO, event->pending_kill);
5027                 event->pending_kill = 0;
5028         }
5029 }
5030
5031 static void perf_pending_event(struct irq_work *entry)
5032 {
5033         struct perf_event *event = container_of(entry,
5034                         struct perf_event, pending);
5035         int rctx;
5036
5037         rctx = perf_swevent_get_recursion_context();
5038         /*
5039          * If we 'fail' here, that's OK, it means recursion is already disabled
5040          * and we won't recurse 'further'.
5041          */
5042
5043         if (event->pending_disable) {
5044                 event->pending_disable = 0;
5045                 __perf_event_disable(event);
5046         }
5047
5048         if (event->pending_wakeup) {
5049                 event->pending_wakeup = 0;
5050                 perf_event_wakeup(event);
5051         }
5052
5053         if (rctx >= 0)
5054                 perf_swevent_put_recursion_context(rctx);
5055 }
5056
5057 /*
5058  * We assume there is only KVM supporting the callbacks.
5059  * Later on, we might change it to a list if there is
5060  * another virtualization implementation supporting the callbacks.
5061  */
5062 struct perf_guest_info_callbacks *perf_guest_cbs;
5063
5064 int perf_register_guest_info_callbacks(struct perf_guest_info_callbacks *cbs)
5065 {
5066         perf_guest_cbs = cbs;
5067         return 0;
5068 }
5069 EXPORT_SYMBOL_GPL(perf_register_guest_info_callbacks);
5070
5071 int perf_unregister_guest_info_callbacks(struct perf_guest_info_callbacks *cbs)
5072 {
5073         perf_guest_cbs = NULL;
5074         return 0;
5075 }
5076 EXPORT_SYMBOL_GPL(perf_unregister_guest_info_callbacks);
5077
5078 static void
5079 perf_output_sample_regs(struct perf_output_handle *handle,
5080                         struct pt_regs *regs, u64 mask)
5081 {
5082         int bit;
5083
5084         for_each_set_bit(bit, (const unsigned long *) &mask,
5085                          sizeof(mask) * BITS_PER_BYTE) {
5086                 u64 val;
5087
5088                 val = perf_reg_value(regs, bit);
5089                 perf_output_put(handle, val);
5090         }
5091 }
5092
5093 static void perf_sample_regs_user(struct perf_regs *regs_user,
5094                                   struct pt_regs *regs,
5095                                   struct pt_regs *regs_user_copy)
5096 {
5097         if (user_mode(regs)) {
5098                 regs_user->abi = perf_reg_abi(current);
5099                 regs_user->regs = regs;
5100         } else if (current->mm) {
5101                 perf_get_regs_user(regs_user, regs, regs_user_copy);
5102         } else {
5103                 regs_user->abi = PERF_SAMPLE_REGS_ABI_NONE;
5104                 regs_user->regs = NULL;
5105         }
5106 }
5107
5108 static void perf_sample_regs_intr(struct perf_regs *regs_intr,
5109                                   struct pt_regs *regs)
5110 {
5111         regs_intr->regs = regs;
5112         regs_intr->abi  = perf_reg_abi(current);
5113 }
5114
5115
5116 /*
5117  * Get remaining task size from user stack pointer.
5118  *
5119  * It'd be better to take stack vma map and limit this more
5120  * precisly, but there's no way to get it safely under interrupt,
5121  * so using TASK_SIZE as limit.
5122  */
5123 static u64 perf_ustack_task_size(struct pt_regs *regs)
5124 {
5125         unsigned long addr = perf_user_stack_pointer(regs);
5126
5127         if (!addr || addr >= TASK_SIZE)
5128                 return 0;
5129
5130         return TASK_SIZE - addr;
5131 }
5132
5133 static u16
5134 perf_sample_ustack_size(u16 stack_size, u16 header_size,
5135                         struct pt_regs *regs)
5136 {
5137         u64 task_size;
5138
5139         /* No regs, no stack pointer, no dump. */
5140         if (!regs)
5141                 return 0;
5142
5143         /*
5144          * Check if we fit in with the requested stack size into the:
5145          * - TASK_SIZE
5146          *   If we don't, we limit the size to the TASK_SIZE.
5147          *
5148          * - remaining sample size
5149          *   If we don't, we customize the stack size to
5150          *   fit in to the remaining sample size.
5151          */
5152
5153         task_size  = min((u64) USHRT_MAX, perf_ustack_task_size(regs));
5154         stack_size = min(stack_size, (u16) task_size);
5155
5156         /* Current header size plus static size and dynamic size. */
5157         header_size += 2 * sizeof(u64);
5158
5159         /* Do we fit in with the current stack dump size? */
5160         if ((u16) (header_size + stack_size) < header_size) {
5161                 /*
5162                  * If we overflow the maximum size for the sample,
5163                  * we customize the stack dump size to fit in.
5164                  */
5165                 stack_size = USHRT_MAX - header_size - sizeof(u64);
5166                 stack_size = round_up(stack_size, sizeof(u64));
5167         }
5168
5169         return stack_size;
5170 }
5171
5172 static void
5173 perf_output_sample_ustack(struct perf_output_handle *handle, u64 dump_size,
5174                           struct pt_regs *regs)
5175 {
5176         /* Case of a kernel thread, nothing to dump */
5177         if (!regs) {
5178                 u64 size = 0;
5179                 perf_output_put(handle, size);
5180         } else {
5181                 unsigned long sp;
5182                 unsigned int rem;
5183                 u64 dyn_size;
5184
5185                 /*
5186                  * We dump:
5187                  * static size
5188                  *   - the size requested by user or the best one we can fit
5189                  *     in to the sample max size
5190                  * data
5191                  *   - user stack dump data
5192                  * dynamic size
5193                  *   - the actual dumped size
5194                  */
5195
5196                 /* Static size. */
5197                 perf_output_put(handle, dump_size);
5198
5199                 /* Data. */
5200                 sp = perf_user_stack_pointer(regs);
5201                 rem = __output_copy_user(handle, (void *) sp, dump_size);
5202                 dyn_size = dump_size - rem;
5203
5204                 perf_output_skip(handle, rem);
5205
5206                 /* Dynamic size. */
5207                 perf_output_put(handle, dyn_size);
5208         }
5209 }
5210
5211 static void __perf_event_header__init_id(struct perf_event_header *header,
5212                                          struct perf_sample_data *data,
5213                                          struct perf_event *event)
5214 {
5215         u64 sample_type = event->attr.sample_type;
5216
5217         data->type = sample_type;
5218         header->size += event->id_header_size;
5219
5220         if (sample_type & PERF_SAMPLE_TID) {
5221                 /* namespace issues */
5222                 data->tid_entry.pid = perf_event_pid(event, current);
5223                 data->tid_entry.tid = perf_event_tid(event, current);
5224         }
5225
5226         if (sample_type & PERF_SAMPLE_TIME)
5227                 data->time = perf_event_clock(event);
5228
5229         if (sample_type & (PERF_SAMPLE_ID | PERF_SAMPLE_IDENTIFIER))
5230                 data->id = primary_event_id(event);
5231
5232         if (sample_type & PERF_SAMPLE_STREAM_ID)
5233                 data->stream_id = event->id;
5234
5235         if (sample_type & PERF_SAMPLE_CPU) {
5236                 data->cpu_entry.cpu      = raw_smp_processor_id();
5237                 data->cpu_entry.reserved = 0;
5238         }
5239 }
5240
5241 void perf_event_header__init_id(struct perf_event_header *header,
5242                                 struct perf_sample_data *data,
5243                                 struct perf_event *event)
5244 {
5245         if (event->attr.sample_id_all)
5246                 __perf_event_header__init_id(header, data, event);
5247 }
5248
5249 static void __perf_event__output_id_sample(struct perf_output_handle *handle,
5250                                            struct perf_sample_data *data)
5251 {
5252         u64 sample_type = data->type;
5253
5254         if (sample_type & PERF_SAMPLE_TID)
5255                 perf_output_put(handle, data->tid_entry);
5256
5257         if (sample_type & PERF_SAMPLE_TIME)
5258                 perf_output_put(handle, data->time);
5259
5260         if (sample_type & PERF_SAMPLE_ID)
5261                 perf_output_put(handle, data->id);
5262
5263         if (sample_type & PERF_SAMPLE_STREAM_ID)
5264                 perf_output_put(handle, data->stream_id);
5265
5266         if (sample_type & PERF_SAMPLE_CPU)
5267                 perf_output_put(handle, data->cpu_entry);
5268
5269         if (sample_type & PERF_SAMPLE_IDENTIFIER)
5270                 perf_output_put(handle, data->id);
5271 }
5272
5273 void perf_event__output_id_sample(struct perf_event *event,
5274                                   struct perf_output_handle *handle,
5275                                   struct perf_sample_data *sample)
5276 {
5277         if (event->attr.sample_id_all)
5278                 __perf_event__output_id_sample(handle, sample);
5279 }
5280
5281 static void perf_output_read_one(struct perf_output_handle *handle,
5282                                  struct perf_event *event,
5283                                  u64 enabled, u64 running)
5284 {
5285         u64 read_format = event->attr.read_format;
5286         u64 values[4];
5287         int n = 0;
5288
5289         values[n++] = perf_event_count(event);
5290         if (read_format & PERF_FORMAT_TOTAL_TIME_ENABLED) {
5291                 values[n++] = enabled +
5292                         atomic64_read(&event->child_total_time_enabled);
5293         }
5294         if (read_format & PERF_FORMAT_TOTAL_TIME_RUNNING) {
5295                 values[n++] = running +
5296                         atomic64_read(&event->child_total_time_running);
5297         }
5298         if (read_format & PERF_FORMAT_ID)
5299                 values[n++] = primary_event_id(event);
5300
5301         __output_copy(handle, values, n * sizeof(u64));
5302 }
5303
5304 /*
5305  * XXX PERF_FORMAT_GROUP vs inherited events seems difficult.
5306  */
5307 static void perf_output_read_group(struct perf_output_handle *handle,
5308                             struct perf_event *event,
5309                             u64 enabled, u64 running)
5310 {
5311         struct perf_event *leader = event->group_leader, *sub;
5312         u64 read_format = event->attr.read_format;
5313         u64 values[5];
5314         int n = 0;
5315
5316         values[n++] = 1 + leader->nr_siblings;
5317
5318         if (read_format & PERF_FORMAT_TOTAL_TIME_ENABLED)
5319                 values[n++] = enabled;
5320
5321         if (read_format & PERF_FORMAT_TOTAL_TIME_RUNNING)
5322                 values[n++] = running;
5323
5324         if (leader != event)
5325                 leader->pmu->read(leader);
5326
5327         values[n++] = perf_event_count(leader);
5328         if (read_format & PERF_FORMAT_ID)
5329                 values[n++] = primary_event_id(leader);
5330
5331         __output_copy(handle, values, n * sizeof(u64));
5332
5333         list_for_each_entry(sub, &leader->sibling_list, group_entry) {
5334                 n = 0;
5335
5336                 if ((sub != event) &&
5337                     (sub->state == PERF_EVENT_STATE_ACTIVE))
5338                         sub->pmu->read(sub);
5339
5340                 values[n++] = perf_event_count(sub);
5341                 if (read_format & PERF_FORMAT_ID)
5342                         values[n++] = primary_event_id(sub);
5343
5344                 __output_copy(handle, values, n * sizeof(u64));
5345         }
5346 }
5347
5348 #define PERF_FORMAT_TOTAL_TIMES (PERF_FORMAT_TOTAL_TIME_ENABLED|\
5349                                  PERF_FORMAT_TOTAL_TIME_RUNNING)
5350
5351 static void perf_output_read(struct perf_output_handle *handle,
5352                              struct perf_event *event)
5353 {
5354         u64 enabled = 0, running = 0, now;
5355         u64 read_format = event->attr.read_format;
5356
5357         /*
5358          * compute total_time_enabled, total_time_running
5359          * based on snapshot values taken when the event
5360          * was last scheduled in.
5361          *
5362          * we cannot simply called update_context_time()
5363          * because of locking issue as we are called in
5364          * NMI context
5365          */
5366         if (read_format & PERF_FORMAT_TOTAL_TIMES)
5367                 calc_timer_values(event, &now, &enabled, &running);
5368
5369         if (event->attr.read_format & PERF_FORMAT_GROUP)
5370                 perf_output_read_group(handle, event, enabled, running);
5371         else
5372                 perf_output_read_one(handle, event, enabled, running);
5373 }
5374
5375 void perf_output_sample(struct perf_output_handle *handle,
5376                         struct perf_event_header *header,
5377                         struct perf_sample_data *data,
5378                         struct perf_event *event)
5379 {
5380         u64 sample_type = data->type;
5381
5382         perf_output_put(handle, *header);
5383
5384         if (sample_type & PERF_SAMPLE_IDENTIFIER)
5385                 perf_output_put(handle, data->id);
5386
5387         if (sample_type & PERF_SAMPLE_IP)
5388                 perf_output_put(handle, data->ip);
5389
5390         if (sample_type & PERF_SAMPLE_TID)
5391                 perf_output_put(handle, data->tid_entry);
5392
5393         if (sample_type & PERF_SAMPLE_TIME)
5394                 perf_output_put(handle, data->time);
5395
5396         if (sample_type & PERF_SAMPLE_ADDR)
5397                 perf_output_put(handle, data->addr);
5398
5399         if (sample_type & PERF_SAMPLE_ID)
5400                 perf_output_put(handle, data->id);
5401
5402         if (sample_type & PERF_SAMPLE_STREAM_ID)
5403                 perf_output_put(handle, data->stream_id);
5404
5405         if (sample_type & PERF_SAMPLE_CPU)
5406                 perf_output_put(handle, data->cpu_entry);
5407
5408         if (sample_type & PERF_SAMPLE_PERIOD)
5409                 perf_output_put(handle, data->period);
5410
5411         if (sample_type & PERF_SAMPLE_READ)
5412                 perf_output_read(handle, event);
5413
5414         if (sample_type & PERF_SAMPLE_CALLCHAIN) {
5415                 if (data->callchain) {
5416                         int size = 1;
5417
5418                         if (data->callchain)
5419                                 size += data->callchain->nr;
5420
5421                         size *= sizeof(u64);
5422
5423                         __output_copy(handle, data->callchain, size);
5424                 } else {
5425                         u64 nr = 0;
5426                         perf_output_put(handle, nr);
5427                 }
5428         }
5429
5430         if (sample_type & PERF_SAMPLE_RAW) {
5431                 if (data->raw) {
5432                         u32 raw_size = data->raw->size;
5433                         u32 real_size = round_up(raw_size + sizeof(u32),
5434                                                  sizeof(u64)) - sizeof(u32);
5435                         u64 zero = 0;
5436
5437                         perf_output_put(handle, real_size);
5438                         __output_copy(handle, data->raw->data, raw_size);
5439                         if (real_size - raw_size)
5440                                 __output_copy(handle, &zero, real_size - raw_size);
5441                 } else {
5442                         struct {
5443                                 u32     size;
5444                                 u32     data;
5445                         } raw = {
5446                                 .size = sizeof(u32),
5447                                 .data = 0,
5448                         };
5449                         perf_output_put(handle, raw);
5450                 }
5451         }
5452
5453         if (sample_type & PERF_SAMPLE_BRANCH_STACK) {
5454                 if (data->br_stack) {
5455                         size_t size;
5456
5457                         size = data->br_stack->nr
5458                              * sizeof(struct perf_branch_entry);
5459
5460                         perf_output_put(handle, data->br_stack->nr);
5461                         perf_output_copy(handle, data->br_stack->entries, size);
5462                 } else {
5463                         /*
5464                          * we always store at least the value of nr
5465                          */
5466                         u64 nr = 0;
5467                         perf_output_put(handle, nr);
5468                 }
5469         }
5470
5471         if (sample_type & PERF_SAMPLE_REGS_USER) {
5472                 u64 abi = data->regs_user.abi;
5473
5474                 /*
5475                  * If there are no regs to dump, notice it through
5476                  * first u64 being zero (PERF_SAMPLE_REGS_ABI_NONE).
5477                  */
5478                 perf_output_put(handle, abi);
5479
5480                 if (abi) {
5481                         u64 mask = event->attr.sample_regs_user;
5482                         perf_output_sample_regs(handle,
5483                                                 data->regs_user.regs,
5484                                                 mask);
5485                 }
5486         }
5487
5488         if (sample_type & PERF_SAMPLE_STACK_USER) {
5489                 perf_output_sample_ustack(handle,
5490                                           data->stack_user_size,
5491                                           data->regs_user.regs);
5492         }
5493
5494         if (sample_type & PERF_SAMPLE_WEIGHT)
5495                 perf_output_put(handle, data->weight);
5496
5497         if (sample_type & PERF_SAMPLE_DATA_SRC)
5498                 perf_output_put(handle, data->data_src.val);
5499
5500         if (sample_type & PERF_SAMPLE_TRANSACTION)
5501                 perf_output_put(handle, data->txn);
5502
5503         if (sample_type & PERF_SAMPLE_REGS_INTR) {
5504                 u64 abi = data->regs_intr.abi;
5505                 /*
5506                  * If there are no regs to dump, notice it through
5507                  * first u64 being zero (PERF_SAMPLE_REGS_ABI_NONE).
5508                  */
5509                 perf_output_put(handle, abi);
5510
5511                 if (abi) {
5512                         u64 mask = event->attr.sample_regs_intr;
5513
5514                         perf_output_sample_regs(handle,
5515                                                 data->regs_intr.regs,
5516                                                 mask);
5517                 }
5518         }
5519
5520         if (!event->attr.watermark) {
5521                 int wakeup_events = event->attr.wakeup_events;
5522
5523                 if (wakeup_events) {
5524                         struct ring_buffer *rb = handle->rb;
5525                         int events = local_inc_return(&rb->events);
5526
5527                         if (events >= wakeup_events) {
5528                                 local_sub(wakeup_events, &rb->events);
5529                                 local_inc(&rb->wakeup);
5530                         }
5531                 }
5532         }
5533 }
5534
5535 void perf_prepare_sample(struct perf_event_header *header,
5536                          struct perf_sample_data *data,
5537                          struct perf_event *event,
5538                          struct pt_regs *regs)
5539 {
5540         u64 sample_type = event->attr.sample_type;
5541
5542         header->type = PERF_RECORD_SAMPLE;
5543         header->size = sizeof(*header) + event->header_size;
5544
5545         header->misc = 0;
5546         header->misc |= perf_misc_flags(regs);
5547
5548         __perf_event_header__init_id(header, data, event);
5549
5550         if (sample_type & PERF_SAMPLE_IP)
5551                 data->ip = perf_instruction_pointer(regs);
5552
5553         if (sample_type & PERF_SAMPLE_CALLCHAIN) {
5554                 int size = 1;
5555
5556                 data->callchain = perf_callchain(event, regs);
5557
5558                 if (data->callchain)
5559                         size += data->callchain->nr;
5560
5561                 header->size += size * sizeof(u64);
5562         }
5563
5564         if (sample_type & PERF_SAMPLE_RAW) {
5565                 int size = sizeof(u32);
5566
5567                 if (data->raw)
5568                         size += data->raw->size;
5569                 else
5570                         size += sizeof(u32);
5571
5572                 header->size += round_up(size, sizeof(u64));
5573         }
5574
5575         if (sample_type & PERF_SAMPLE_BRANCH_STACK) {
5576                 int size = sizeof(u64); /* nr */
5577                 if (data->br_stack) {
5578                         size += data->br_stack->nr
5579                               * sizeof(struct perf_branch_entry);
5580                 }
5581                 header->size += size;
5582         }
5583
5584         if (sample_type & (PERF_SAMPLE_REGS_USER | PERF_SAMPLE_STACK_USER))
5585                 perf_sample_regs_user(&data->regs_user, regs,
5586                                       &data->regs_user_copy);
5587
5588         if (sample_type & PERF_SAMPLE_REGS_USER) {
5589                 /* regs dump ABI info */
5590                 int size = sizeof(u64);
5591
5592                 if (data->regs_user.regs) {
5593                         u64 mask = event->attr.sample_regs_user;
5594                         size += hweight64(mask) * sizeof(u64);
5595                 }
5596
5597                 header->size += size;
5598         }
5599
5600         if (sample_type & PERF_SAMPLE_STACK_USER) {
5601                 /*
5602                  * Either we need PERF_SAMPLE_STACK_USER bit to be allways
5603                  * processed as the last one or have additional check added
5604                  * in case new sample type is added, because we could eat
5605                  * up the rest of the sample size.
5606                  */
5607                 u16 stack_size = event->attr.sample_stack_user;
5608                 u16 size = sizeof(u64);
5609
5610                 stack_size = perf_sample_ustack_size(stack_size, header->size,
5611                                                      data->regs_user.regs);
5612
5613                 /*
5614                  * If there is something to dump, add space for the dump
5615                  * itself and for the field that tells the dynamic size,
5616                  * which is how many have been actually dumped.
5617                  */
5618                 if (stack_size)
5619                         size += sizeof(u64) + stack_size;
5620
5621                 data->stack_user_size = stack_size;
5622                 header->size += size;
5623         }
5624
5625         if (sample_type & PERF_SAMPLE_REGS_INTR) {
5626                 /* regs dump ABI info */
5627                 int size = sizeof(u64);
5628
5629                 perf_sample_regs_intr(&data->regs_intr, regs);
5630
5631                 if (data->regs_intr.regs) {
5632                         u64 mask = event->attr.sample_regs_intr;
5633
5634                         size += hweight64(mask) * sizeof(u64);
5635                 }
5636
5637                 header->size += size;
5638         }
5639 }
5640
5641 void perf_event_output(struct perf_event *event,
5642                         struct perf_sample_data *data,
5643                         struct pt_regs *regs)
5644 {
5645         struct perf_output_handle handle;
5646         struct perf_event_header header;
5647
5648         /* protect the callchain buffers */
5649         rcu_read_lock();
5650
5651         perf_prepare_sample(&header, data, event, regs);
5652
5653         if (perf_output_begin(&handle, event, header.size))
5654                 goto exit;
5655
5656         perf_output_sample(&handle, &header, data, event);
5657
5658         perf_output_end(&handle);
5659
5660 exit:
5661         rcu_read_unlock();
5662 }
5663
5664 /*
5665  * read event_id
5666  */
5667
5668 struct perf_read_event {
5669         struct perf_event_header        header;
5670
5671         u32                             pid;
5672         u32                             tid;
5673 };
5674
5675 static void
5676 perf_event_read_event(struct perf_event *event,
5677                         struct task_struct *task)
5678 {
5679         struct perf_output_handle handle;
5680         struct perf_sample_data sample;
5681         struct perf_read_event read_event = {
5682                 .header = {
5683                         .type = PERF_RECORD_READ,
5684                         .misc = 0,
5685                         .size = sizeof(read_event) + event->read_size,
5686                 },
5687                 .pid = perf_event_pid(event, task),
5688                 .tid = perf_event_tid(event, task),
5689         };
5690         int ret;
5691
5692         perf_event_header__init_id(&read_event.header, &sample, event);
5693         ret = perf_output_begin(&handle, event, read_event.header.size);
5694         if (ret)
5695                 return;
5696
5697         perf_output_put(&handle, read_event);
5698         perf_output_read(&handle, event);
5699         perf_event__output_id_sample(event, &handle, &sample);
5700
5701         perf_output_end(&handle);
5702 }
5703
5704 typedef void (perf_event_aux_output_cb)(struct perf_event *event, void *data);
5705
5706 static void
5707 perf_event_aux_ctx(struct perf_event_context *ctx,
5708                    perf_event_aux_output_cb output,
5709                    void *data)
5710 {
5711         struct perf_event *event;
5712
5713         list_for_each_entry_rcu(event, &ctx->event_list, event_entry) {
5714                 if (event->state < PERF_EVENT_STATE_INACTIVE)
5715                         continue;
5716                 if (!event_filter_match(event))
5717                         continue;
5718                 output(event, data);
5719         }
5720 }
5721
5722 static void
5723 perf_event_aux_task_ctx(perf_event_aux_output_cb output, void *data,
5724                         struct perf_event_context *task_ctx)
5725 {
5726         rcu_read_lock();
5727         preempt_disable();
5728         perf_event_aux_ctx(task_ctx, output, data);
5729         preempt_enable();
5730         rcu_read_unlock();
5731 }
5732
5733 static void
5734 perf_event_aux(perf_event_aux_output_cb output, void *data,
5735                struct perf_event_context *task_ctx)
5736 {
5737         struct perf_cpu_context *cpuctx;
5738         struct perf_event_context *ctx;
5739         struct pmu *pmu;
5740         int ctxn;
5741
5742         /*
5743          * If we have task_ctx != NULL we only notify
5744          * the task context itself. The task_ctx is set
5745          * only for EXIT events before releasing task
5746          * context.
5747          */
5748         if (task_ctx) {
5749                 perf_event_aux_task_ctx(output, data, task_ctx);
5750                 return;
5751         }
5752
5753         rcu_read_lock();
5754         list_for_each_entry_rcu(pmu, &pmus, entry) {
5755                 cpuctx = get_cpu_ptr(pmu->pmu_cpu_context);
5756                 if (cpuctx->unique_pmu != pmu)
5757                         goto next;
5758                 perf_event_aux_ctx(&cpuctx->ctx, output, data);
5759                 ctxn = pmu->task_ctx_nr;
5760                 if (ctxn < 0)
5761                         goto next;
5762                 ctx = rcu_dereference(current->perf_event_ctxp[ctxn]);
5763                 if (ctx)
5764                         perf_event_aux_ctx(ctx, output, data);
5765 next:
5766                 put_cpu_ptr(pmu->pmu_cpu_context);
5767         }
5768         rcu_read_unlock();
5769 }
5770
5771 struct remote_output {
5772         struct ring_buffer      *rb;
5773         int                     err;
5774 };
5775
5776 static void __perf_event_output_stop(struct perf_event *event, void *data)
5777 {
5778         struct perf_event *parent = event->parent;
5779         struct remote_output *ro = data;
5780         struct ring_buffer *rb = ro->rb;
5781
5782         if (!has_aux(event))
5783                 return;
5784
5785         if (!parent)
5786                 parent = event;
5787
5788         /*
5789          * In case of inheritance, it will be the parent that links to the
5790          * ring-buffer, but it will be the child that's actually using it:
5791          */
5792         if (rcu_dereference(parent->rb) == rb)
5793                 ro->err = __perf_event_stop(event);
5794 }
5795
5796 static int __perf_pmu_output_stop(void *info)
5797 {
5798         struct perf_event *event = info;
5799         struct pmu *pmu = event->pmu;
5800         struct perf_cpu_context *cpuctx = get_cpu_ptr(pmu->pmu_cpu_context);
5801         struct remote_output ro = {
5802                 .rb     = event->rb,
5803         };
5804
5805         rcu_read_lock();
5806         perf_event_aux_ctx(&cpuctx->ctx, __perf_event_output_stop, &ro);
5807         if (cpuctx->task_ctx)
5808                 perf_event_aux_ctx(cpuctx->task_ctx, __perf_event_output_stop,
5809                                    &ro);
5810         rcu_read_unlock();
5811
5812         return ro.err;
5813 }
5814
5815 static void perf_pmu_output_stop(struct perf_event *event)
5816 {
5817         struct perf_event *iter;
5818         int err, cpu;
5819
5820 restart:
5821         rcu_read_lock();
5822         list_for_each_entry_rcu(iter, &event->rb->event_list, rb_entry) {
5823                 /*
5824                  * For per-CPU events, we need to make sure that neither they
5825                  * nor their children are running; for cpu==-1 events it's
5826                  * sufficient to stop the event itself if it's active, since
5827                  * it can't have children.
5828                  */
5829                 cpu = iter->cpu;
5830                 if (cpu == -1)
5831                         cpu = READ_ONCE(iter->oncpu);
5832
5833                 if (cpu == -1)
5834                         continue;
5835
5836                 err = cpu_function_call(cpu, __perf_pmu_output_stop, event);
5837                 if (err == -EAGAIN) {
5838                         rcu_read_unlock();
5839                         goto restart;
5840                 }
5841         }
5842         rcu_read_unlock();
5843 }
5844
5845 /*
5846  * task tracking -- fork/exit
5847  *
5848  * enabled by: attr.comm | attr.mmap | attr.mmap2 | attr.mmap_data | attr.task
5849  */
5850
5851 struct perf_task_event {
5852         struct task_struct              *task;
5853         struct perf_event_context       *task_ctx;
5854
5855         struct {
5856                 struct perf_event_header        header;
5857
5858                 u32                             pid;
5859                 u32                             ppid;
5860                 u32                             tid;
5861                 u32                             ptid;
5862                 u64                             time;
5863         } event_id;
5864 };
5865
5866 static int perf_event_task_match(struct perf_event *event)
5867 {
5868         return event->attr.comm  || event->attr.mmap ||
5869                event->attr.mmap2 || event->attr.mmap_data ||
5870                event->attr.task;
5871 }
5872
5873 static void perf_event_task_output(struct perf_event *event,
5874                                    void *data)
5875 {
5876         struct perf_task_event *task_event = data;
5877         struct perf_output_handle handle;
5878         struct perf_sample_data sample;
5879         struct task_struct *task = task_event->task;
5880         int ret, size = task_event->event_id.header.size;
5881
5882         if (!perf_event_task_match(event))
5883                 return;
5884
5885         perf_event_header__init_id(&task_event->event_id.header, &sample, event);
5886
5887         ret = perf_output_begin(&handle, event,
5888                                 task_event->event_id.header.size);
5889         if (ret)
5890                 goto out;
5891
5892         task_event->event_id.pid = perf_event_pid(event, task);
5893         task_event->event_id.ppid = perf_event_pid(event, current);
5894
5895         task_event->event_id.tid = perf_event_tid(event, task);
5896         task_event->event_id.ptid = perf_event_tid(event, current);
5897
5898         task_event->event_id.time = perf_event_clock(event);
5899
5900         perf_output_put(&handle, task_event->event_id);
5901
5902         perf_event__output_id_sample(event, &handle, &sample);
5903
5904         perf_output_end(&handle);
5905 out:
5906         task_event->event_id.header.size = size;
5907 }
5908
5909 static void perf_event_task(struct task_struct *task,
5910                               struct perf_event_context *task_ctx,
5911                               int new)
5912 {
5913         struct perf_task_event task_event;
5914
5915         if (!atomic_read(&nr_comm_events) &&
5916             !atomic_read(&nr_mmap_events) &&
5917             !atomic_read(&nr_task_events))
5918                 return;
5919
5920         task_event = (struct perf_task_event){
5921                 .task     = task,
5922                 .task_ctx = task_ctx,
5923                 .event_id    = {
5924                         .header = {
5925                                 .type = new ? PERF_RECORD_FORK : PERF_RECORD_EXIT,
5926                                 .misc = 0,
5927                                 .size = sizeof(task_event.event_id),
5928                         },
5929                         /* .pid  */
5930                         /* .ppid */
5931                         /* .tid  */
5932                         /* .ptid */
5933                         /* .time */
5934                 },
5935         };
5936
5937         perf_event_aux(perf_event_task_output,
5938                        &task_event,
5939                        task_ctx);
5940 }
5941
5942 void perf_event_fork(struct task_struct *task)
5943 {
5944         perf_event_task(task, NULL, 1);
5945 }
5946
5947 /*
5948  * comm tracking
5949  */
5950
5951 struct perf_comm_event {
5952         struct task_struct      *task;
5953         char                    *comm;
5954         int                     comm_size;
5955
5956         struct {
5957                 struct perf_event_header        header;
5958
5959                 u32                             pid;
5960                 u32                             tid;
5961         } event_id;
5962 };
5963
5964 static int perf_event_comm_match(struct perf_event *event)
5965 {
5966         return event->attr.comm;
5967 }
5968
5969 static void perf_event_comm_output(struct perf_event *event,
5970                                    void *data)
5971 {
5972         struct perf_comm_event *comm_event = data;
5973         struct perf_output_handle handle;
5974         struct perf_sample_data sample;
5975         int size = comm_event->event_id.header.size;
5976         int ret;
5977
5978         if (!perf_event_comm_match(event))
5979                 return;
5980
5981         perf_event_header__init_id(&comm_event->event_id.header, &sample, event);
5982         ret = perf_output_begin(&handle, event,
5983                                 comm_event->event_id.header.size);
5984
5985         if (ret)
5986                 goto out;
5987
5988         comm_event->event_id.pid = perf_event_pid(event, comm_event->task);
5989         comm_event->event_id.tid = perf_event_tid(event, comm_event->task);
5990
5991         perf_output_put(&handle, comm_event->event_id);
5992         __output_copy(&handle, comm_event->comm,
5993                                    comm_event->comm_size);
5994
5995         perf_event__output_id_sample(event, &handle, &sample);
5996
5997         perf_output_end(&handle);
5998 out:
5999         comm_event->event_id.header.size = size;
6000 }
6001
6002 static void perf_event_comm_event(struct perf_comm_event *comm_event)
6003 {
6004         char comm[TASK_COMM_LEN];
6005         unsigned int size;
6006
6007         memset(comm, 0, sizeof(comm));
6008         strlcpy(comm, comm_event->task->comm, sizeof(comm));
6009         size = ALIGN(strlen(comm)+1, sizeof(u64));
6010
6011         comm_event->comm = comm;
6012         comm_event->comm_size = size;
6013
6014         comm_event->event_id.header.size = sizeof(comm_event->event_id) + size;
6015
6016         perf_event_aux(perf_event_comm_output,
6017                        comm_event,
6018                        NULL);
6019 }
6020
6021 void perf_event_comm(struct task_struct *task, bool exec)
6022 {
6023         struct perf_comm_event comm_event;
6024
6025         if (!atomic_read(&nr_comm_events))
6026                 return;
6027
6028         comm_event = (struct perf_comm_event){
6029                 .task   = task,
6030                 /* .comm      */
6031                 /* .comm_size */
6032                 .event_id  = {
6033                         .header = {
6034                                 .type = PERF_RECORD_COMM,
6035                                 .misc = exec ? PERF_RECORD_MISC_COMM_EXEC : 0,
6036                                 /* .size */
6037                         },
6038                         /* .pid */
6039                         /* .tid */
6040                 },
6041         };
6042
6043         perf_event_comm_event(&comm_event);
6044 }
6045
6046 /*
6047  * mmap tracking
6048  */
6049
6050 struct perf_mmap_event {
6051         struct vm_area_struct   *vma;
6052
6053         const char              *file_name;
6054         int                     file_size;
6055         int                     maj, min;
6056         u64                     ino;
6057         u64                     ino_generation;
6058         u32                     prot, flags;
6059
6060         struct {
6061                 struct perf_event_header        header;
6062
6063                 u32                             pid;
6064                 u32                             tid;
6065                 u64                             start;
6066                 u64                             len;
6067                 u64                             pgoff;
6068         } event_id;
6069 };
6070
6071 static int perf_event_mmap_match(struct perf_event *event,
6072                                  void *data)
6073 {
6074         struct perf_mmap_event *mmap_event = data;
6075         struct vm_area_struct *vma = mmap_event->vma;
6076         int executable = vma->vm_flags & VM_EXEC;
6077
6078         return (!executable && event->attr.mmap_data) ||
6079                (executable && (event->attr.mmap || event->attr.mmap2));
6080 }
6081
6082 static void perf_event_mmap_output(struct perf_event *event,
6083                                    void *data)
6084 {
6085         struct perf_mmap_event *mmap_event = data;
6086         struct perf_output_handle handle;
6087         struct perf_sample_data sample;
6088         int size = mmap_event->event_id.header.size;
6089         int ret;
6090
6091         if (!perf_event_mmap_match(event, data))
6092                 return;
6093
6094         if (event->attr.mmap2) {
6095                 mmap_event->event_id.header.type = PERF_RECORD_MMAP2;
6096                 mmap_event->event_id.header.size += sizeof(mmap_event->maj);
6097                 mmap_event->event_id.header.size += sizeof(mmap_event->min);
6098                 mmap_event->event_id.header.size += sizeof(mmap_event->ino);
6099                 mmap_event->event_id.header.size += sizeof(mmap_event->ino_generation);
6100                 mmap_event->event_id.header.size += sizeof(mmap_event->prot);
6101                 mmap_event->event_id.header.size += sizeof(mmap_event->flags);
6102         }
6103
6104         perf_event_header__init_id(&mmap_event->event_id.header, &sample, event);
6105         ret = perf_output_begin(&handle, event,
6106                                 mmap_event->event_id.header.size);
6107         if (ret)
6108                 goto out;
6109
6110         mmap_event->event_id.pid = perf_event_pid(event, current);
6111         mmap_event->event_id.tid = perf_event_tid(event, current);
6112
6113         perf_output_put(&handle, mmap_event->event_id);
6114
6115         if (event->attr.mmap2) {
6116                 perf_output_put(&handle, mmap_event->maj);
6117                 perf_output_put(&handle, mmap_event->min);
6118                 perf_output_put(&handle, mmap_event->ino);
6119                 perf_output_put(&handle, mmap_event->ino_generation);
6120                 perf_output_put(&handle, mmap_event->prot);
6121                 perf_output_put(&handle, mmap_event->flags);
6122         }
6123
6124         __output_copy(&handle, mmap_event->file_name,
6125                                    mmap_event->file_size);
6126
6127         perf_event__output_id_sample(event, &handle, &sample);
6128
6129         perf_output_end(&handle);
6130 out:
6131         mmap_event->event_id.header.size = size;
6132 }
6133
6134 static void perf_event_mmap_event(struct perf_mmap_event *mmap_event)
6135 {
6136         struct vm_area_struct *vma = mmap_event->vma;
6137         struct file *file = vma->vm_file;
6138         int maj = 0, min = 0;
6139         u64 ino = 0, gen = 0;
6140         u32 prot = 0, flags = 0;
6141         unsigned int size;
6142         char tmp[16];
6143         char *buf = NULL;
6144         char *name;
6145
6146         if (file) {
6147                 struct inode *inode;
6148                 dev_t dev;
6149
6150                 buf = kmalloc(PATH_MAX, GFP_KERNEL);
6151                 if (!buf) {
6152                         name = "//enomem";
6153                         goto cpy_name;
6154                 }
6155                 /*
6156                  * d_path() works from the end of the rb backwards, so we
6157                  * need to add enough zero bytes after the string to handle
6158                  * the 64bit alignment we do later.
6159                  */
6160                 name = file_path(file, buf, PATH_MAX - sizeof(u64));
6161                 if (IS_ERR(name)) {
6162                         name = "//toolong";
6163                         goto cpy_name;
6164                 }
6165                 inode = file_inode(vma->vm_file);
6166                 dev = inode->i_sb->s_dev;
6167                 ino = inode->i_ino;
6168                 gen = inode->i_generation;
6169                 maj = MAJOR(dev);
6170                 min = MINOR(dev);
6171
6172                 if (vma->vm_flags & VM_READ)
6173                         prot |= PROT_READ;
6174                 if (vma->vm_flags & VM_WRITE)
6175                         prot |= PROT_WRITE;
6176                 if (vma->vm_flags & VM_EXEC)
6177                         prot |= PROT_EXEC;
6178
6179                 if (vma->vm_flags & VM_MAYSHARE)
6180                         flags = MAP_SHARED;
6181                 else
6182                         flags = MAP_PRIVATE;
6183
6184                 if (vma->vm_flags & VM_DENYWRITE)
6185                         flags |= MAP_DENYWRITE;
6186                 if (vma->vm_flags & VM_MAYEXEC)
6187                         flags |= MAP_EXECUTABLE;
6188                 if (vma->vm_flags & VM_LOCKED)
6189                         flags |= MAP_LOCKED;
6190                 if (vma->vm_flags & VM_HUGETLB)
6191                         flags |= MAP_HUGETLB;
6192
6193                 goto got_name;
6194         } else {
6195                 if (vma->vm_ops && vma->vm_ops->name) {
6196                         name = (char *) vma->vm_ops->name(vma);
6197                         if (name)
6198                                 goto cpy_name;
6199                 }
6200
6201                 name = (char *)arch_vma_name(vma);
6202                 if (name)
6203                         goto cpy_name;
6204
6205                 if (vma->vm_start <= vma->vm_mm->start_brk &&
6206                                 vma->vm_end >= vma->vm_mm->brk) {
6207                         name = "[heap]";
6208                         goto cpy_name;
6209                 }
6210                 if (vma->vm_start <= vma->vm_mm->start_stack &&
6211                                 vma->vm_end >= vma->vm_mm->start_stack) {
6212                         name = "[stack]";
6213                         goto cpy_name;
6214                 }
6215
6216                 name = "//anon";
6217                 goto cpy_name;
6218         }
6219
6220 cpy_name:
6221         strlcpy(tmp, name, sizeof(tmp));
6222         name = tmp;
6223 got_name:
6224         /*
6225          * Since our buffer works in 8 byte units we need to align our string
6226          * size to a multiple of 8. However, we must guarantee the tail end is
6227          * zero'd out to avoid leaking random bits to userspace.
6228          */
6229         size = strlen(name)+1;
6230         while (!IS_ALIGNED(size, sizeof(u64)))
6231                 name[size++] = '\0';
6232
6233         mmap_event->file_name = name;
6234         mmap_event->file_size = size;
6235         mmap_event->maj = maj;
6236         mmap_event->min = min;
6237         mmap_event->ino = ino;
6238         mmap_event->ino_generation = gen;
6239         mmap_event->prot = prot;
6240         mmap_event->flags = flags;
6241
6242         if (!(vma->vm_flags & VM_EXEC))
6243                 mmap_event->event_id.header.misc |= PERF_RECORD_MISC_MMAP_DATA;
6244
6245         mmap_event->event_id.header.size = sizeof(mmap_event->event_id) + size;
6246
6247         perf_event_aux(perf_event_mmap_output,
6248                        mmap_event,
6249                        NULL);
6250
6251         kfree(buf);
6252 }
6253
6254 void perf_event_mmap(struct vm_area_struct *vma)
6255 {
6256         struct perf_mmap_event mmap_event;
6257
6258         if (!atomic_read(&nr_mmap_events))
6259                 return;
6260
6261         mmap_event = (struct perf_mmap_event){
6262                 .vma    = vma,
6263                 /* .file_name */
6264                 /* .file_size */
6265                 .event_id  = {
6266                         .header = {
6267                                 .type = PERF_RECORD_MMAP,
6268                                 .misc = PERF_RECORD_MISC_USER,
6269                                 /* .size */
6270                         },
6271                         /* .pid */
6272                         /* .tid */
6273                         .start  = vma->vm_start,
6274                         .len    = vma->vm_end - vma->vm_start,
6275                         .pgoff  = (u64)vma->vm_pgoff << PAGE_SHIFT,
6276                 },
6277                 /* .maj (attr_mmap2 only) */
6278                 /* .min (attr_mmap2 only) */
6279                 /* .ino (attr_mmap2 only) */
6280                 /* .ino_generation (attr_mmap2 only) */
6281                 /* .prot (attr_mmap2 only) */
6282                 /* .flags (attr_mmap2 only) */
6283         };
6284
6285         perf_event_mmap_event(&mmap_event);
6286 }
6287
6288 void perf_event_aux_event(struct perf_event *event, unsigned long head,
6289                           unsigned long size, u64 flags)
6290 {
6291         struct perf_output_handle handle;
6292         struct perf_sample_data sample;
6293         struct perf_aux_event {
6294                 struct perf_event_header        header;
6295                 u64                             offset;
6296                 u64                             size;
6297                 u64                             flags;
6298         } rec = {
6299                 .header = {
6300                         .type = PERF_RECORD_AUX,
6301                         .misc = 0,
6302                         .size = sizeof(rec),
6303                 },
6304                 .offset         = head,
6305                 .size           = size,
6306                 .flags          = flags,
6307         };
6308         int ret;
6309
6310         perf_event_header__init_id(&rec.header, &sample, event);
6311         ret = perf_output_begin(&handle, event, rec.header.size);
6312
6313         if (ret)
6314                 return;
6315
6316         perf_output_put(&handle, rec);
6317         perf_event__output_id_sample(event, &handle, &sample);
6318
6319         perf_output_end(&handle);
6320 }
6321
6322 /*
6323  * Lost/dropped samples logging
6324  */
6325 void perf_log_lost_samples(struct perf_event *event, u64 lost)
6326 {
6327         struct perf_output_handle handle;
6328         struct perf_sample_data sample;
6329         int ret;
6330
6331         struct {
6332                 struct perf_event_header        header;
6333                 u64                             lost;
6334         } lost_samples_event = {
6335                 .header = {
6336                         .type = PERF_RECORD_LOST_SAMPLES,
6337                         .misc = 0,
6338                         .size = sizeof(lost_samples_event),
6339                 },
6340                 .lost           = lost,
6341         };
6342
6343         perf_event_header__init_id(&lost_samples_event.header, &sample, event);
6344
6345         ret = perf_output_begin(&handle, event,
6346                                 lost_samples_event.header.size);
6347         if (ret)
6348                 return;
6349
6350         perf_output_put(&handle, lost_samples_event);
6351         perf_event__output_id_sample(event, &handle, &sample);
6352         perf_output_end(&handle);
6353 }
6354
6355 /*
6356  * context_switch tracking
6357  */
6358
6359 struct perf_switch_event {
6360         struct task_struct      *task;
6361         struct task_struct      *next_prev;
6362
6363         struct {
6364                 struct perf_event_header        header;
6365                 u32                             next_prev_pid;
6366                 u32                             next_prev_tid;
6367         } event_id;
6368 };
6369
6370 static int perf_event_switch_match(struct perf_event *event)
6371 {
6372         return event->attr.context_switch;
6373 }
6374
6375 static void perf_event_switch_output(struct perf_event *event, void *data)
6376 {
6377         struct perf_switch_event *se = data;
6378         struct perf_output_handle handle;
6379         struct perf_sample_data sample;
6380         int ret;
6381
6382         if (!perf_event_switch_match(event))
6383                 return;
6384
6385         /* Only CPU-wide events are allowed to see next/prev pid/tid */
6386         if (event->ctx->task) {
6387                 se->event_id.header.type = PERF_RECORD_SWITCH;
6388                 se->event_id.header.size = sizeof(se->event_id.header);
6389         } else {
6390                 se->event_id.header.type = PERF_RECORD_SWITCH_CPU_WIDE;
6391                 se->event_id.header.size = sizeof(se->event_id);
6392                 se->event_id.next_prev_pid =
6393                                         perf_event_pid(event, se->next_prev);
6394                 se->event_id.next_prev_tid =
6395                                         perf_event_tid(event, se->next_prev);
6396         }
6397
6398         perf_event_header__init_id(&se->event_id.header, &sample, event);
6399
6400         ret = perf_output_begin(&handle, event, se->event_id.header.size);
6401         if (ret)
6402                 return;
6403
6404         if (event->ctx->task)
6405                 perf_output_put(&handle, se->event_id.header);
6406         else
6407                 perf_output_put(&handle, se->event_id);
6408
6409         perf_event__output_id_sample(event, &handle, &sample);
6410
6411         perf_output_end(&handle);
6412 }
6413
6414 static void perf_event_switch(struct task_struct *task,
6415                               struct task_struct *next_prev, bool sched_in)
6416 {
6417         struct perf_switch_event switch_event;
6418
6419         /* N.B. caller checks nr_switch_events != 0 */
6420
6421         switch_event = (struct perf_switch_event){
6422                 .task           = task,
6423                 .next_prev      = next_prev,
6424                 .event_id       = {
6425                         .header = {
6426                                 /* .type */
6427                                 .misc = sched_in ? 0 : PERF_RECORD_MISC_SWITCH_OUT,
6428                                 /* .size */
6429                         },
6430                         /* .next_prev_pid */
6431                         /* .next_prev_tid */
6432                 },
6433         };
6434
6435         perf_event_aux(perf_event_switch_output,
6436                        &switch_event,
6437                        NULL);
6438 }
6439
6440 /*
6441  * IRQ throttle logging
6442  */
6443
6444 static void perf_log_throttle(struct perf_event *event, int enable)
6445 {
6446         struct perf_output_handle handle;
6447         struct perf_sample_data sample;
6448         int ret;
6449
6450         struct {
6451                 struct perf_event_header        header;
6452                 u64                             time;
6453                 u64                             id;
6454                 u64                             stream_id;
6455         } throttle_event = {
6456                 .header = {
6457                         .type = PERF_RECORD_THROTTLE,
6458                         .misc = 0,
6459                         .size = sizeof(throttle_event),
6460                 },
6461                 .time           = perf_event_clock(event),
6462                 .id             = primary_event_id(event),
6463                 .stream_id      = event->id,
6464         };
6465
6466         if (enable)
6467                 throttle_event.header.type = PERF_RECORD_UNTHROTTLE;
6468
6469         perf_event_header__init_id(&throttle_event.header, &sample, event);
6470
6471         ret = perf_output_begin(&handle, event,
6472                                 throttle_event.header.size);
6473         if (ret)
6474                 return;
6475
6476         perf_output_put(&handle, throttle_event);
6477         perf_event__output_id_sample(event, &handle, &sample);
6478         perf_output_end(&handle);
6479 }
6480
6481 static void perf_log_itrace_start(struct perf_event *event)
6482 {
6483         struct perf_output_handle handle;
6484         struct perf_sample_data sample;
6485         struct perf_aux_event {
6486                 struct perf_event_header        header;
6487                 u32                             pid;
6488                 u32                             tid;
6489         } rec;
6490         int ret;
6491
6492         if (event->parent)
6493                 event = event->parent;
6494
6495         if (!(event->pmu->capabilities & PERF_PMU_CAP_ITRACE) ||
6496             event->hw.itrace_started)
6497                 return;
6498
6499         rec.header.type = PERF_RECORD_ITRACE_START;
6500         rec.header.misc = 0;
6501         rec.header.size = sizeof(rec);
6502         rec.pid = perf_event_pid(event, current);
6503         rec.tid = perf_event_tid(event, current);
6504
6505         perf_event_header__init_id(&rec.header, &sample, event);
6506         ret = perf_output_begin(&handle, event, rec.header.size);
6507
6508         if (ret)
6509                 return;
6510
6511         perf_output_put(&handle, rec);
6512         perf_event__output_id_sample(event, &handle, &sample);
6513
6514         perf_output_end(&handle);
6515 }
6516
6517 /*
6518  * Generic event overflow handling, sampling.
6519  */
6520
6521 static int __perf_event_overflow(struct perf_event *event,
6522                                    int throttle, struct perf_sample_data *data,
6523                                    struct pt_regs *regs)
6524 {
6525         int events = atomic_read(&event->event_limit);
6526         struct hw_perf_event *hwc = &event->hw;
6527         u64 seq;
6528         int ret = 0;
6529
6530         /*
6531          * Non-sampling counters might still use the PMI to fold short
6532          * hardware counters, ignore those.
6533          */
6534         if (unlikely(!is_sampling_event(event)))
6535                 return 0;
6536
6537         seq = __this_cpu_read(perf_throttled_seq);
6538         if (seq != hwc->interrupts_seq) {
6539                 hwc->interrupts_seq = seq;
6540                 hwc->interrupts = 1;
6541         } else {
6542                 hwc->interrupts++;
6543                 if (unlikely(throttle
6544                              && hwc->interrupts >= max_samples_per_tick)) {
6545                         __this_cpu_inc(perf_throttled_count);
6546                         hwc->interrupts = MAX_INTERRUPTS;
6547                         perf_log_throttle(event, 0);
6548                         tick_nohz_full_kick();
6549                         ret = 1;
6550                 }
6551         }
6552
6553         if (event->attr.freq) {
6554                 u64 now = perf_clock();
6555                 s64 delta = now - hwc->freq_time_stamp;
6556
6557                 hwc->freq_time_stamp = now;
6558
6559                 if (delta > 0 && delta < 2*TICK_NSEC)
6560                         perf_adjust_period(event, delta, hwc->last_period, true);
6561         }
6562
6563         /*
6564          * XXX event_limit might not quite work as expected on inherited
6565          * events
6566          */
6567
6568         event->pending_kill = POLL_IN;
6569         if (events && atomic_dec_and_test(&event->event_limit)) {
6570                 ret = 1;
6571                 event->pending_kill = POLL_HUP;
6572                 event->pending_disable = 1;
6573                 irq_work_queue(&event->pending);
6574         }
6575
6576         if (event->overflow_handler)
6577                 event->overflow_handler(event, data, regs);
6578         else
6579                 perf_event_output(event, data, regs);
6580
6581         if (*perf_event_fasync(event) && event->pending_kill) {
6582                 event->pending_wakeup = 1;
6583                 irq_work_queue(&event->pending);
6584         }
6585
6586         return ret;
6587 }
6588
6589 int perf_event_overflow(struct perf_event *event,
6590                           struct perf_sample_data *data,
6591                           struct pt_regs *regs)
6592 {
6593         return __perf_event_overflow(event, 1, data, regs);
6594 }
6595
6596 /*
6597  * Generic software event infrastructure
6598  */
6599
6600 struct swevent_htable {
6601         struct swevent_hlist            *swevent_hlist;
6602         struct mutex                    hlist_mutex;
6603         int                             hlist_refcount;
6604
6605         /* Recursion avoidance in each contexts */
6606         int                             recursion[PERF_NR_CONTEXTS];
6607 };
6608
6609 static DEFINE_PER_CPU(struct swevent_htable, swevent_htable);
6610
6611 /*
6612  * We directly increment event->count and keep a second value in
6613  * event->hw.period_left to count intervals. This period event
6614  * is kept in the range [-sample_period, 0] so that we can use the
6615  * sign as trigger.
6616  */
6617
6618 u64 perf_swevent_set_period(struct perf_event *event)
6619 {
6620         struct hw_perf_event *hwc = &event->hw;
6621         u64 period = hwc->last_period;
6622         u64 nr, offset;
6623         s64 old, val;
6624
6625         hwc->last_period = hwc->sample_period;
6626
6627 again:
6628         old = val = local64_read(&hwc->period_left);
6629         if (val < 0)
6630                 return 0;
6631
6632         nr = div64_u64(period + val, period);
6633         offset = nr * period;
6634         val -= offset;
6635         if (local64_cmpxchg(&hwc->period_left, old, val) != old)
6636                 goto again;
6637
6638         return nr;
6639 }
6640
6641 static void perf_swevent_overflow(struct perf_event *event, u64 overflow,
6642                                     struct perf_sample_data *data,
6643                                     struct pt_regs *regs)
6644 {
6645         struct hw_perf_event *hwc = &event->hw;
6646         int throttle = 0;
6647
6648         if (!overflow)
6649                 overflow = perf_swevent_set_period(event);
6650
6651         if (hwc->interrupts == MAX_INTERRUPTS)
6652                 return;
6653
6654         for (; overflow; overflow--) {
6655                 if (__perf_event_overflow(event, throttle,
6656                                             data, regs)) {
6657                         /*
6658                          * We inhibit the overflow from happening when
6659                          * hwc->interrupts == MAX_INTERRUPTS.
6660                          */
6661                         break;
6662                 }
6663                 throttle = 1;
6664         }
6665 }
6666
6667 static void perf_swevent_event(struct perf_event *event, u64 nr,
6668                                struct perf_sample_data *data,
6669                                struct pt_regs *regs)
6670 {
6671         struct hw_perf_event *hwc = &event->hw;
6672
6673         local64_add(nr, &event->count);
6674
6675         if (!regs)
6676                 return;
6677
6678         if (!is_sampling_event(event))
6679                 return;
6680
6681         if ((event->attr.sample_type & PERF_SAMPLE_PERIOD) && !event->attr.freq) {
6682                 data->period = nr;
6683                 return perf_swevent_overflow(event, 1, data, regs);
6684         } else
6685                 data->period = event->hw.last_period;
6686
6687         if (nr == 1 && hwc->sample_period == 1 && !event->attr.freq)
6688                 return perf_swevent_overflow(event, 1, data, regs);
6689
6690         if (local64_add_negative(nr, &hwc->period_left))
6691                 return;
6692
6693         perf_swevent_overflow(event, 0, data, regs);
6694 }
6695
6696 static int perf_exclude_event(struct perf_event *event,
6697                               struct pt_regs *regs)
6698 {
6699         if (event->hw.state & PERF_HES_STOPPED)
6700                 return 1;
6701
6702         if (regs) {
6703                 if (event->attr.exclude_user && user_mode(regs))
6704                         return 1;
6705
6706                 if (event->attr.exclude_kernel && !user_mode(regs))
6707                         return 1;
6708         }
6709
6710         return 0;
6711 }
6712
6713 static int perf_swevent_match(struct perf_event *event,
6714                                 enum perf_type_id type,
6715                                 u32 event_id,
6716                                 struct perf_sample_data *data,
6717                                 struct pt_regs *regs)
6718 {
6719         if (event->attr.type != type)
6720                 return 0;
6721
6722         if (event->attr.config != event_id)
6723                 return 0;
6724
6725         if (perf_exclude_event(event, regs))
6726                 return 0;
6727
6728         return 1;
6729 }
6730
6731 static inline u64 swevent_hash(u64 type, u32 event_id)
6732 {
6733         u64 val = event_id | (type << 32);
6734
6735         return hash_64(val, SWEVENT_HLIST_BITS);
6736 }
6737
6738 static inline struct hlist_head *
6739 __find_swevent_head(struct swevent_hlist *hlist, u64 type, u32 event_id)
6740 {
6741         u64 hash = swevent_hash(type, event_id);
6742
6743         return &hlist->heads[hash];
6744 }
6745
6746 /* For the read side: events when they trigger */
6747 static inline struct hlist_head *
6748 find_swevent_head_rcu(struct swevent_htable *swhash, u64 type, u32 event_id)
6749 {
6750         struct swevent_hlist *hlist;
6751
6752         hlist = rcu_dereference(swhash->swevent_hlist);
6753         if (!hlist)
6754                 return NULL;
6755
6756         return __find_swevent_head(hlist, type, event_id);
6757 }
6758
6759 /* For the event head insertion and removal in the hlist */
6760 static inline struct hlist_head *
6761 find_swevent_head(struct swevent_htable *swhash, struct perf_event *event)
6762 {
6763         struct swevent_hlist *hlist;
6764         u32 event_id = event->attr.config;
6765         u64 type = event->attr.type;
6766
6767         /*
6768          * Event scheduling is always serialized against hlist allocation
6769          * and release. Which makes the protected version suitable here.
6770          * The context lock guarantees that.
6771          */
6772         hlist = rcu_dereference_protected(swhash->swevent_hlist,
6773                                           lockdep_is_held(&event->ctx->lock));
6774         if (!hlist)
6775                 return NULL;
6776
6777         return __find_swevent_head(hlist, type, event_id);
6778 }
6779
6780 static void do_perf_sw_event(enum perf_type_id type, u32 event_id,
6781                                     u64 nr,
6782                                     struct perf_sample_data *data,
6783                                     struct pt_regs *regs)
6784 {
6785         struct swevent_htable *swhash = this_cpu_ptr(&swevent_htable);
6786         struct perf_event *event;
6787         struct hlist_head *head;
6788
6789         rcu_read_lock();
6790         head = find_swevent_head_rcu(swhash, type, event_id);
6791         if (!head)
6792                 goto end;
6793
6794         hlist_for_each_entry_rcu(event, head, hlist_entry) {
6795                 if (perf_swevent_match(event, type, event_id, data, regs))
6796                         perf_swevent_event(event, nr, data, regs);
6797         }
6798 end:
6799         rcu_read_unlock();
6800 }
6801
6802 DEFINE_PER_CPU(struct pt_regs, __perf_regs[4]);
6803
6804 int perf_swevent_get_recursion_context(void)
6805 {
6806         struct swevent_htable *swhash = this_cpu_ptr(&swevent_htable);
6807
6808         return get_recursion_context(swhash->recursion);
6809 }
6810 EXPORT_SYMBOL_GPL(perf_swevent_get_recursion_context);
6811
6812 inline void perf_swevent_put_recursion_context(int rctx)
6813 {
6814         struct swevent_htable *swhash = this_cpu_ptr(&swevent_htable);
6815
6816         put_recursion_context(swhash->recursion, rctx);
6817 }
6818
6819 void ___perf_sw_event(u32 event_id, u64 nr, struct pt_regs *regs, u64 addr)
6820 {
6821         struct perf_sample_data data;
6822
6823         if (WARN_ON_ONCE(!regs))
6824                 return;
6825
6826         perf_sample_data_init(&data, addr, 0);
6827         do_perf_sw_event(PERF_TYPE_SOFTWARE, event_id, nr, &data, regs);
6828 }
6829
6830 void __perf_sw_event(u32 event_id, u64 nr, struct pt_regs *regs, u64 addr)
6831 {
6832         int rctx;
6833
6834         preempt_disable_notrace();
6835         rctx = perf_swevent_get_recursion_context();
6836         if (unlikely(rctx < 0))
6837                 goto fail;
6838
6839         ___perf_sw_event(event_id, nr, regs, addr);
6840
6841         perf_swevent_put_recursion_context(rctx);
6842 fail:
6843         preempt_enable_notrace();
6844 }
6845
6846 static void perf_swevent_read(struct perf_event *event)
6847 {
6848 }
6849
6850 static int perf_swevent_add(struct perf_event *event, int flags)
6851 {
6852         struct swevent_htable *swhash = this_cpu_ptr(&swevent_htable);
6853         struct hw_perf_event *hwc = &event->hw;
6854         struct hlist_head *head;
6855
6856         if (is_sampling_event(event)) {
6857                 hwc->last_period = hwc->sample_period;
6858                 perf_swevent_set_period(event);
6859         }
6860
6861         hwc->state = !(flags & PERF_EF_START);
6862
6863         head = find_swevent_head(swhash, event);
6864         if (WARN_ON_ONCE(!head))
6865                 return -EINVAL;
6866
6867         hlist_add_head_rcu(&event->hlist_entry, head);
6868         perf_event_update_userpage(event);
6869
6870         return 0;
6871 }
6872
6873 static void perf_swevent_del(struct perf_event *event, int flags)
6874 {
6875         hlist_del_rcu(&event->hlist_entry);
6876 }
6877
6878 static void perf_swevent_start(struct perf_event *event, int flags)
6879 {
6880         event->hw.state = 0;
6881 }
6882
6883 static void perf_swevent_stop(struct perf_event *event, int flags)
6884 {
6885         event->hw.state = PERF_HES_STOPPED;
6886 }
6887
6888 /* Deref the hlist from the update side */
6889 static inline struct swevent_hlist *
6890 swevent_hlist_deref(struct swevent_htable *swhash)
6891 {
6892         return rcu_dereference_protected(swhash->swevent_hlist,
6893                                          lockdep_is_held(&swhash->hlist_mutex));
6894 }
6895
6896 static void swevent_hlist_release(struct swevent_htable *swhash)
6897 {
6898         struct swevent_hlist *hlist = swevent_hlist_deref(swhash);
6899
6900         if (!hlist)
6901                 return;
6902
6903         RCU_INIT_POINTER(swhash->swevent_hlist, NULL);
6904         kfree_rcu(hlist, rcu_head);
6905 }
6906
6907 static void swevent_hlist_put_cpu(struct perf_event *event, int cpu)
6908 {
6909         struct swevent_htable *swhash = &per_cpu(swevent_htable, cpu);
6910
6911         mutex_lock(&swhash->hlist_mutex);
6912
6913         if (!--swhash->hlist_refcount)
6914                 swevent_hlist_release(swhash);
6915
6916         mutex_unlock(&swhash->hlist_mutex);
6917 }
6918
6919 static void swevent_hlist_put(struct perf_event *event)
6920 {
6921         int cpu;
6922
6923         for_each_possible_cpu(cpu)
6924                 swevent_hlist_put_cpu(event, cpu);
6925 }
6926
6927 static int swevent_hlist_get_cpu(struct perf_event *event, int cpu)
6928 {
6929         struct swevent_htable *swhash = &per_cpu(swevent_htable, cpu);
6930         int err = 0;
6931
6932         mutex_lock(&swhash->hlist_mutex);
6933         if (!swevent_hlist_deref(swhash) && cpu_online(cpu)) {
6934                 struct swevent_hlist *hlist;
6935
6936                 hlist = kzalloc(sizeof(*hlist), GFP_KERNEL);
6937                 if (!hlist) {
6938                         err = -ENOMEM;
6939                         goto exit;
6940                 }
6941                 rcu_assign_pointer(swhash->swevent_hlist, hlist);
6942         }
6943         swhash->hlist_refcount++;
6944 exit:
6945         mutex_unlock(&swhash->hlist_mutex);
6946
6947         return err;
6948 }
6949
6950 static int swevent_hlist_get(struct perf_event *event)
6951 {
6952         int err;
6953         int cpu, failed_cpu;
6954
6955         get_online_cpus();
6956         for_each_possible_cpu(cpu) {
6957                 err = swevent_hlist_get_cpu(event, cpu);
6958                 if (err) {
6959                         failed_cpu = cpu;
6960                         goto fail;
6961                 }
6962         }
6963         put_online_cpus();
6964
6965         return 0;
6966 fail:
6967         for_each_possible_cpu(cpu) {
6968                 if (cpu == failed_cpu)
6969                         break;
6970                 swevent_hlist_put_cpu(event, cpu);
6971         }
6972
6973         put_online_cpus();
6974         return err;
6975 }
6976
6977 struct static_key perf_swevent_enabled[PERF_COUNT_SW_MAX];
6978
6979 static void sw_perf_event_destroy(struct perf_event *event)
6980 {
6981         u64 event_id = event->attr.config;
6982
6983         WARN_ON(event->parent);
6984
6985         static_key_slow_dec(&perf_swevent_enabled[event_id]);
6986         swevent_hlist_put(event);
6987 }
6988
6989 static int perf_swevent_init(struct perf_event *event)
6990 {
6991         u64 event_id = event->attr.config;
6992
6993         if (event->attr.type != PERF_TYPE_SOFTWARE)
6994                 return -ENOENT;
6995
6996         /*
6997          * no branch sampling for software events
6998          */
6999         if (has_branch_stack(event))
7000                 return -EOPNOTSUPP;
7001
7002         switch (event_id) {
7003         case PERF_COUNT_SW_CPU_CLOCK:
7004         case PERF_COUNT_SW_TASK_CLOCK:
7005                 return -ENOENT;
7006
7007         default:
7008                 break;
7009         }
7010
7011         if (event_id >= PERF_COUNT_SW_MAX)
7012                 return -ENOENT;
7013
7014         if (!event->parent) {
7015                 int err;
7016
7017                 err = swevent_hlist_get(event);
7018                 if (err)
7019                         return err;
7020
7021                 static_key_slow_inc(&perf_swevent_enabled[event_id]);
7022                 event->destroy = sw_perf_event_destroy;
7023         }
7024
7025         return 0;
7026 }
7027
7028 static struct pmu perf_swevent = {
7029         .task_ctx_nr    = perf_sw_context,
7030
7031         .capabilities   = PERF_PMU_CAP_NO_NMI,
7032
7033         .event_init     = perf_swevent_init,
7034         .add            = perf_swevent_add,
7035         .del            = perf_swevent_del,
7036         .start          = perf_swevent_start,
7037         .stop           = perf_swevent_stop,
7038         .read           = perf_swevent_read,
7039 };
7040
7041 #ifdef CONFIG_EVENT_TRACING
7042
7043 static int perf_tp_filter_match(struct perf_event *event,
7044                                 struct perf_sample_data *data)
7045 {
7046         void *record = data->raw->data;
7047
7048         /* only top level events have filters set */
7049         if (event->parent)
7050                 event = event->parent;
7051
7052         if (likely(!event->filter) || filter_match_preds(event->filter, record))
7053                 return 1;
7054         return 0;
7055 }
7056
7057 static int perf_tp_event_match(struct perf_event *event,
7058                                 struct perf_sample_data *data,
7059                                 struct pt_regs *regs)
7060 {
7061         if (event->hw.state & PERF_HES_STOPPED)
7062                 return 0;
7063         /*
7064          * All tracepoints are from kernel-space.
7065          */
7066         if (event->attr.exclude_kernel)
7067                 return 0;
7068
7069         if (!perf_tp_filter_match(event, data))
7070                 return 0;
7071
7072         return 1;
7073 }
7074
7075 void perf_tp_event(u64 addr, u64 count, void *record, int entry_size,
7076                    struct pt_regs *regs, struct hlist_head *head, int rctx,
7077                    struct task_struct *task)
7078 {
7079         struct perf_sample_data data;
7080         struct perf_event *event;
7081
7082         struct perf_raw_record raw = {
7083                 .size = entry_size,
7084                 .data = record,
7085         };
7086
7087         perf_sample_data_init(&data, addr, 0);
7088         data.raw = &raw;
7089
7090         hlist_for_each_entry_rcu(event, head, hlist_entry) {
7091                 if (perf_tp_event_match(event, &data, regs))
7092                         perf_swevent_event(event, count, &data, regs);
7093         }
7094
7095         /*
7096          * If we got specified a target task, also iterate its context and
7097          * deliver this event there too.
7098          */
7099         if (task && task != current) {
7100                 struct perf_event_context *ctx;
7101                 struct trace_entry *entry = record;
7102
7103                 rcu_read_lock();
7104                 ctx = rcu_dereference(task->perf_event_ctxp[perf_sw_context]);
7105                 if (!ctx)
7106                         goto unlock;
7107
7108                 list_for_each_entry_rcu(event, &ctx->event_list, event_entry) {
7109                         if (event->attr.type != PERF_TYPE_TRACEPOINT)
7110                                 continue;
7111                         if (event->attr.config != entry->type)
7112                                 continue;
7113                         if (perf_tp_event_match(event, &data, regs))
7114                                 perf_swevent_event(event, count, &data, regs);
7115                 }
7116 unlock:
7117                 rcu_read_unlock();
7118         }
7119
7120         perf_swevent_put_recursion_context(rctx);
7121 }
7122 EXPORT_SYMBOL_GPL(perf_tp_event);
7123
7124 static void tp_perf_event_destroy(struct perf_event *event)
7125 {
7126         perf_trace_destroy(event);
7127 }
7128
7129 static int perf_tp_event_init(struct perf_event *event)
7130 {
7131         int err;
7132
7133         if (event->attr.type != PERF_TYPE_TRACEPOINT)
7134                 return -ENOENT;
7135
7136         /*
7137          * no branch sampling for tracepoint events
7138          */
7139         if (has_branch_stack(event))
7140                 return -EOPNOTSUPP;
7141
7142         err = perf_trace_init(event);
7143         if (err)
7144                 return err;
7145
7146         event->destroy = tp_perf_event_destroy;
7147
7148         return 0;
7149 }
7150
7151 static struct pmu perf_tracepoint = {
7152         .task_ctx_nr    = perf_sw_context,
7153
7154         .event_init     = perf_tp_event_init,
7155         .add            = perf_trace_add,
7156         .del            = perf_trace_del,
7157         .start          = perf_swevent_start,
7158         .stop           = perf_swevent_stop,
7159         .read           = perf_swevent_read,
7160 };
7161
7162 static inline void perf_tp_register(void)
7163 {
7164         perf_pmu_register(&perf_tracepoint, "tracepoint", PERF_TYPE_TRACEPOINT);
7165 }
7166
7167 static int perf_event_set_filter(struct perf_event *event, void __user *arg)
7168 {
7169         char *filter_str;
7170         int ret;
7171
7172         if (event->attr.type != PERF_TYPE_TRACEPOINT)
7173                 return -EINVAL;
7174
7175         filter_str = strndup_user(arg, PAGE_SIZE);
7176         if (IS_ERR(filter_str))
7177                 return PTR_ERR(filter_str);
7178
7179         ret = ftrace_profile_set_filter(event, event->attr.config, filter_str);
7180
7181         kfree(filter_str);
7182         return ret;
7183 }
7184
7185 static void perf_event_free_filter(struct perf_event *event)
7186 {
7187         ftrace_profile_free_filter(event);
7188 }
7189
7190 static int perf_event_set_bpf_prog(struct perf_event *event, u32 prog_fd)
7191 {
7192         struct bpf_prog *prog;
7193
7194         if (event->attr.type != PERF_TYPE_TRACEPOINT)
7195                 return -EINVAL;
7196
7197         if (event->tp_event->prog)
7198                 return -EEXIST;
7199
7200         if (!(event->tp_event->flags & TRACE_EVENT_FL_UKPROBE))
7201                 /* bpf programs can only be attached to u/kprobes */
7202                 return -EINVAL;
7203
7204         prog = bpf_prog_get(prog_fd);
7205         if (IS_ERR(prog))
7206                 return PTR_ERR(prog);
7207
7208         if (prog->type != BPF_PROG_TYPE_KPROBE) {
7209                 /* valid fd, but invalid bpf program type */
7210                 bpf_prog_put(prog);
7211                 return -EINVAL;
7212         }
7213
7214         event->tp_event->prog = prog;
7215
7216         return 0;
7217 }
7218
7219 static void perf_event_free_bpf_prog(struct perf_event *event)
7220 {
7221         struct bpf_prog *prog;
7222
7223         if (!event->tp_event)
7224                 return;
7225
7226         prog = event->tp_event->prog;
7227         if (prog) {
7228                 event->tp_event->prog = NULL;
7229                 bpf_prog_put_rcu(prog);
7230         }
7231 }
7232
7233 #else
7234
7235 static inline void perf_tp_register(void)
7236 {
7237 }
7238
7239 static int perf_event_set_filter(struct perf_event *event, void __user *arg)
7240 {
7241         return -ENOENT;
7242 }
7243
7244 static void perf_event_free_filter(struct perf_event *event)
7245 {
7246 }
7247
7248 static int perf_event_set_bpf_prog(struct perf_event *event, u32 prog_fd)
7249 {
7250         return -ENOENT;
7251 }
7252
7253 static void perf_event_free_bpf_prog(struct perf_event *event)
7254 {
7255 }
7256 #endif /* CONFIG_EVENT_TRACING */
7257
7258 #ifdef CONFIG_HAVE_HW_BREAKPOINT
7259 void perf_bp_event(struct perf_event *bp, void *data)
7260 {
7261         struct perf_sample_data sample;
7262         struct pt_regs *regs = data;
7263
7264         perf_sample_data_init(&sample, bp->attr.bp_addr, 0);
7265
7266         if (!bp->hw.state && !perf_exclude_event(bp, regs))
7267                 perf_swevent_event(bp, 1, &sample, regs);
7268 }
7269 #endif
7270
7271 static int perf_event_drv_configs(struct perf_event *event,
7272                                   void __user *arg)
7273 {
7274         if (!event->pmu->get_drv_configs)
7275                 return -EINVAL;
7276
7277         return event->pmu->get_drv_configs(event, arg);
7278 }
7279
7280 /*
7281  * hrtimer based swevent callback
7282  */
7283
7284 static enum hrtimer_restart perf_swevent_hrtimer(struct hrtimer *hrtimer)
7285 {
7286         enum hrtimer_restart ret = HRTIMER_RESTART;
7287         struct perf_sample_data data;
7288         struct pt_regs *regs;
7289         struct perf_event *event;
7290         u64 period;
7291
7292         event = container_of(hrtimer, struct perf_event, hw.hrtimer);
7293
7294         if (event->state != PERF_EVENT_STATE_ACTIVE)
7295                 return HRTIMER_NORESTART;
7296
7297         event->pmu->read(event);
7298
7299         perf_sample_data_init(&data, 0, event->hw.last_period);
7300         regs = get_irq_regs();
7301
7302         if (regs && !perf_exclude_event(event, regs)) {
7303                 if (!(event->attr.exclude_idle && is_idle_task(current)))
7304                         if (__perf_event_overflow(event, 1, &data, regs))
7305                                 ret = HRTIMER_NORESTART;
7306         }
7307
7308         period = max_t(u64, 10000, event->hw.sample_period);
7309         hrtimer_forward_now(hrtimer, ns_to_ktime(period));
7310
7311         return ret;
7312 }
7313
7314 static void perf_swevent_start_hrtimer(struct perf_event *event)
7315 {
7316         struct hw_perf_event *hwc = &event->hw;
7317         s64 period;
7318
7319         if (!is_sampling_event(event))
7320                 return;
7321
7322         period = local64_read(&hwc->period_left);
7323         if (period) {
7324                 if (period < 0)
7325                         period = 10000;
7326
7327                 local64_set(&hwc->period_left, 0);
7328         } else {
7329                 period = max_t(u64, 10000, hwc->sample_period);
7330         }
7331         hrtimer_start(&hwc->hrtimer, ns_to_ktime(period),
7332                       HRTIMER_MODE_REL_PINNED);
7333 }
7334
7335 static void perf_swevent_cancel_hrtimer(struct perf_event *event)
7336 {
7337         struct hw_perf_event *hwc = &event->hw;
7338
7339         if (is_sampling_event(event)) {
7340                 ktime_t remaining = hrtimer_get_remaining(&hwc->hrtimer);
7341                 local64_set(&hwc->period_left, ktime_to_ns(remaining));
7342
7343                 hrtimer_cancel(&hwc->hrtimer);
7344         }
7345 }
7346
7347 static void perf_swevent_init_hrtimer(struct perf_event *event)
7348 {
7349         struct hw_perf_event *hwc = &event->hw;
7350
7351         if (!is_sampling_event(event))
7352                 return;
7353
7354         hrtimer_init(&hwc->hrtimer, CLOCK_MONOTONIC, HRTIMER_MODE_REL);
7355         hwc->hrtimer.function = perf_swevent_hrtimer;
7356
7357         /*
7358          * Since hrtimers have a fixed rate, we can do a static freq->period
7359          * mapping and avoid the whole period adjust feedback stuff.
7360          */
7361         if (event->attr.freq) {
7362                 long freq = event->attr.sample_freq;
7363
7364                 event->attr.sample_period = NSEC_PER_SEC / freq;
7365                 hwc->sample_period = event->attr.sample_period;
7366                 local64_set(&hwc->period_left, hwc->sample_period);
7367                 hwc->last_period = hwc->sample_period;
7368                 event->attr.freq = 0;
7369         }
7370 }
7371
7372 /*
7373  * Software event: cpu wall time clock
7374  */
7375
7376 static void cpu_clock_event_update(struct perf_event *event)
7377 {
7378         s64 prev;
7379         u64 now;
7380
7381         now = local_clock();
7382         prev = local64_xchg(&event->hw.prev_count, now);
7383         local64_add(now - prev, &event->count);
7384 }
7385
7386 static void cpu_clock_event_start(struct perf_event *event, int flags)
7387 {
7388         local64_set(&event->hw.prev_count, local_clock());
7389         perf_swevent_start_hrtimer(event);
7390 }
7391
7392 static void cpu_clock_event_stop(struct perf_event *event, int flags)
7393 {
7394         perf_swevent_cancel_hrtimer(event);
7395         cpu_clock_event_update(event);
7396 }
7397
7398 static int cpu_clock_event_add(struct perf_event *event, int flags)
7399 {
7400         if (flags & PERF_EF_START)
7401                 cpu_clock_event_start(event, flags);
7402         perf_event_update_userpage(event);
7403
7404         return 0;
7405 }
7406
7407 static void cpu_clock_event_del(struct perf_event *event, int flags)
7408 {
7409         cpu_clock_event_stop(event, flags);
7410 }
7411
7412 static void cpu_clock_event_read(struct perf_event *event)
7413 {
7414         cpu_clock_event_update(event);
7415 }
7416
7417 static int cpu_clock_event_init(struct perf_event *event)
7418 {
7419         if (event->attr.type != PERF_TYPE_SOFTWARE)
7420                 return -ENOENT;
7421
7422         if (event->attr.config != PERF_COUNT_SW_CPU_CLOCK)
7423                 return -ENOENT;
7424
7425         /*
7426          * no branch sampling for software events
7427          */
7428         if (has_branch_stack(event))
7429                 return -EOPNOTSUPP;
7430
7431         perf_swevent_init_hrtimer(event);
7432
7433         return 0;
7434 }
7435
7436 static struct pmu perf_cpu_clock = {
7437         .task_ctx_nr    = perf_sw_context,
7438
7439         .capabilities   = PERF_PMU_CAP_NO_NMI,
7440
7441         .event_init     = cpu_clock_event_init,
7442         .add            = cpu_clock_event_add,
7443         .del            = cpu_clock_event_del,
7444         .start          = cpu_clock_event_start,
7445         .stop           = cpu_clock_event_stop,
7446         .read           = cpu_clock_event_read,
7447 };
7448
7449 /*
7450  * Software event: task time clock
7451  */
7452
7453 static void task_clock_event_update(struct perf_event *event, u64 now)
7454 {
7455         u64 prev;
7456         s64 delta;
7457
7458         prev = local64_xchg(&event->hw.prev_count, now);
7459         delta = now - prev;
7460         local64_add(delta, &event->count);
7461 }
7462
7463 static void task_clock_event_start(struct perf_event *event, int flags)
7464 {
7465         local64_set(&event->hw.prev_count, event->ctx->time);
7466         perf_swevent_start_hrtimer(event);
7467 }
7468
7469 static void task_clock_event_stop(struct perf_event *event, int flags)
7470 {
7471         perf_swevent_cancel_hrtimer(event);
7472         task_clock_event_update(event, event->ctx->time);
7473 }
7474
7475 static int task_clock_event_add(struct perf_event *event, int flags)
7476 {
7477         if (flags & PERF_EF_START)
7478                 task_clock_event_start(event, flags);
7479         perf_event_update_userpage(event);
7480
7481         return 0;
7482 }
7483
7484 static void task_clock_event_del(struct perf_event *event, int flags)
7485 {
7486         task_clock_event_stop(event, PERF_EF_UPDATE);
7487 }
7488
7489 static void task_clock_event_read(struct perf_event *event)
7490 {
7491         u64 now = perf_clock();
7492         u64 delta = now - event->ctx->timestamp;
7493         u64 time = event->ctx->time + delta;
7494
7495         task_clock_event_update(event, time);
7496 }
7497
7498 static int task_clock_event_init(struct perf_event *event)
7499 {
7500         if (event->attr.type != PERF_TYPE_SOFTWARE)
7501                 return -ENOENT;
7502
7503         if (event->attr.config != PERF_COUNT_SW_TASK_CLOCK)
7504                 return -ENOENT;
7505
7506         /*
7507          * no branch sampling for software events
7508          */
7509         if (has_branch_stack(event))
7510                 return -EOPNOTSUPP;
7511
7512         perf_swevent_init_hrtimer(event);
7513
7514         return 0;
7515 }
7516
7517 static struct pmu perf_task_clock = {
7518         .task_ctx_nr    = perf_sw_context,
7519
7520         .capabilities   = PERF_PMU_CAP_NO_NMI,
7521
7522         .event_init     = task_clock_event_init,
7523         .add            = task_clock_event_add,
7524         .del            = task_clock_event_del,
7525         .start          = task_clock_event_start,
7526         .stop           = task_clock_event_stop,
7527         .read           = task_clock_event_read,
7528 };
7529
7530 static void perf_pmu_nop_void(struct pmu *pmu)
7531 {
7532 }
7533
7534 static void perf_pmu_nop_txn(struct pmu *pmu, unsigned int flags)
7535 {
7536 }
7537
7538 static int perf_pmu_nop_int(struct pmu *pmu)
7539 {
7540         return 0;
7541 }
7542
7543 static DEFINE_PER_CPU(unsigned int, nop_txn_flags);
7544
7545 static void perf_pmu_start_txn(struct pmu *pmu, unsigned int flags)
7546 {
7547         __this_cpu_write(nop_txn_flags, flags);
7548
7549         if (flags & ~PERF_PMU_TXN_ADD)
7550                 return;
7551
7552         perf_pmu_disable(pmu);
7553 }
7554
7555 static int perf_pmu_commit_txn(struct pmu *pmu)
7556 {
7557         unsigned int flags = __this_cpu_read(nop_txn_flags);
7558
7559         __this_cpu_write(nop_txn_flags, 0);
7560
7561         if (flags & ~PERF_PMU_TXN_ADD)
7562                 return 0;
7563
7564         perf_pmu_enable(pmu);
7565         return 0;
7566 }
7567
7568 static void perf_pmu_cancel_txn(struct pmu *pmu)
7569 {
7570         unsigned int flags =  __this_cpu_read(nop_txn_flags);
7571
7572         __this_cpu_write(nop_txn_flags, 0);
7573
7574         if (flags & ~PERF_PMU_TXN_ADD)
7575                 return;
7576
7577         perf_pmu_enable(pmu);
7578 }
7579
7580 static int perf_event_idx_default(struct perf_event *event)
7581 {
7582         return 0;
7583 }
7584
7585 /*
7586  * Ensures all contexts with the same task_ctx_nr have the same
7587  * pmu_cpu_context too.
7588  */
7589 static struct perf_cpu_context __percpu *find_pmu_context(int ctxn)
7590 {
7591         struct pmu *pmu;
7592
7593         if (ctxn < 0)
7594                 return NULL;
7595
7596         list_for_each_entry(pmu, &pmus, entry) {
7597                 if (pmu->task_ctx_nr == ctxn)
7598                         return pmu->pmu_cpu_context;
7599         }
7600
7601         return NULL;
7602 }
7603
7604 static void update_pmu_context(struct pmu *pmu, struct pmu *old_pmu)
7605 {
7606         int cpu;
7607
7608         for_each_possible_cpu(cpu) {
7609                 struct perf_cpu_context *cpuctx;
7610
7611                 cpuctx = per_cpu_ptr(pmu->pmu_cpu_context, cpu);
7612
7613                 if (cpuctx->unique_pmu == old_pmu)
7614                         cpuctx->unique_pmu = pmu;
7615         }
7616 }
7617
7618 static void free_pmu_context(struct pmu *pmu)
7619 {
7620         struct pmu *i;
7621
7622         mutex_lock(&pmus_lock);
7623         /*
7624          * Like a real lame refcount.
7625          */
7626         list_for_each_entry(i, &pmus, entry) {
7627                 if (i->pmu_cpu_context == pmu->pmu_cpu_context) {
7628                         update_pmu_context(i, pmu);
7629                         goto out;
7630                 }
7631         }
7632
7633         free_percpu(pmu->pmu_cpu_context);
7634 out:
7635         mutex_unlock(&pmus_lock);
7636 }
7637 static struct idr pmu_idr;
7638
7639 static ssize_t
7640 type_show(struct device *dev, struct device_attribute *attr, char *page)
7641 {
7642         struct pmu *pmu = dev_get_drvdata(dev);
7643
7644         return snprintf(page, PAGE_SIZE-1, "%d\n", pmu->type);
7645 }
7646 static DEVICE_ATTR_RO(type);
7647
7648 static ssize_t
7649 perf_event_mux_interval_ms_show(struct device *dev,
7650                                 struct device_attribute *attr,
7651                                 char *page)
7652 {
7653         struct pmu *pmu = dev_get_drvdata(dev);
7654
7655         return snprintf(page, PAGE_SIZE-1, "%d\n", pmu->hrtimer_interval_ms);
7656 }
7657
7658 static DEFINE_MUTEX(mux_interval_mutex);
7659
7660 static ssize_t
7661 perf_event_mux_interval_ms_store(struct device *dev,
7662                                  struct device_attribute *attr,
7663                                  const char *buf, size_t count)
7664 {
7665         struct pmu *pmu = dev_get_drvdata(dev);
7666         int timer, cpu, ret;
7667
7668         ret = kstrtoint(buf, 0, &timer);
7669         if (ret)
7670                 return ret;
7671
7672         if (timer < 1)
7673                 return -EINVAL;
7674
7675         /* same value, noting to do */
7676         if (timer == pmu->hrtimer_interval_ms)
7677                 return count;
7678
7679         mutex_lock(&mux_interval_mutex);
7680         pmu->hrtimer_interval_ms = timer;
7681
7682         /* update all cpuctx for this PMU */
7683         get_online_cpus();
7684         for_each_online_cpu(cpu) {
7685                 struct perf_cpu_context *cpuctx;
7686                 cpuctx = per_cpu_ptr(pmu->pmu_cpu_context, cpu);
7687                 cpuctx->hrtimer_interval = ns_to_ktime(NSEC_PER_MSEC * timer);
7688
7689                 cpu_function_call(cpu,
7690                         (remote_function_f)perf_mux_hrtimer_restart, cpuctx);
7691         }
7692         put_online_cpus();
7693         mutex_unlock(&mux_interval_mutex);
7694
7695         return count;
7696 }
7697 static DEVICE_ATTR_RW(perf_event_mux_interval_ms);
7698
7699 static struct attribute *pmu_dev_attrs[] = {
7700         &dev_attr_type.attr,
7701         &dev_attr_perf_event_mux_interval_ms.attr,
7702         NULL,
7703 };
7704 ATTRIBUTE_GROUPS(pmu_dev);
7705
7706 static int pmu_bus_running;
7707 static struct bus_type pmu_bus = {
7708         .name           = "event_source",
7709         .dev_groups     = pmu_dev_groups,
7710 };
7711
7712 static void pmu_dev_release(struct device *dev)
7713 {
7714         kfree(dev);
7715 }
7716
7717 static int pmu_dev_alloc(struct pmu *pmu)
7718 {
7719         int ret = -ENOMEM;
7720
7721         pmu->dev = kzalloc(sizeof(struct device), GFP_KERNEL);
7722         if (!pmu->dev)
7723                 goto out;
7724
7725         pmu->dev->groups = pmu->attr_groups;
7726         device_initialize(pmu->dev);
7727         ret = dev_set_name(pmu->dev, "%s", pmu->name);
7728         if (ret)
7729                 goto free_dev;
7730
7731         dev_set_drvdata(pmu->dev, pmu);
7732         pmu->dev->bus = &pmu_bus;
7733         pmu->dev->release = pmu_dev_release;
7734         ret = device_add(pmu->dev);
7735         if (ret)
7736                 goto free_dev;
7737
7738 out:
7739         return ret;
7740
7741 free_dev:
7742         put_device(pmu->dev);
7743         goto out;
7744 }
7745
7746 static struct lock_class_key cpuctx_mutex;
7747 static struct lock_class_key cpuctx_lock;
7748
7749 int perf_pmu_register(struct pmu *pmu, const char *name, int type)
7750 {
7751         int cpu, ret;
7752
7753         mutex_lock(&pmus_lock);
7754         ret = -ENOMEM;
7755         pmu->pmu_disable_count = alloc_percpu(int);
7756         if (!pmu->pmu_disable_count)
7757                 goto unlock;
7758
7759         pmu->type = -1;
7760         if (!name)
7761                 goto skip_type;
7762         pmu->name = name;
7763
7764         if (type < 0) {
7765                 type = idr_alloc(&pmu_idr, pmu, PERF_TYPE_MAX, 0, GFP_KERNEL);
7766                 if (type < 0) {
7767                         ret = type;
7768                         goto free_pdc;
7769                 }
7770         }
7771         pmu->type = type;
7772
7773         if (pmu_bus_running) {
7774                 ret = pmu_dev_alloc(pmu);
7775                 if (ret)
7776                         goto free_idr;
7777         }
7778
7779 skip_type:
7780         pmu->pmu_cpu_context = find_pmu_context(pmu->task_ctx_nr);
7781         if (pmu->pmu_cpu_context)
7782                 goto got_cpu_context;
7783
7784         ret = -ENOMEM;
7785         pmu->pmu_cpu_context = alloc_percpu(struct perf_cpu_context);
7786         if (!pmu->pmu_cpu_context)
7787                 goto free_dev;
7788
7789         for_each_possible_cpu(cpu) {
7790                 struct perf_cpu_context *cpuctx;
7791
7792                 cpuctx = per_cpu_ptr(pmu->pmu_cpu_context, cpu);
7793                 __perf_event_init_context(&cpuctx->ctx);
7794                 lockdep_set_class(&cpuctx->ctx.mutex, &cpuctx_mutex);
7795                 lockdep_set_class(&cpuctx->ctx.lock, &cpuctx_lock);
7796                 cpuctx->ctx.pmu = pmu;
7797
7798                 __perf_mux_hrtimer_init(cpuctx, cpu);
7799
7800                 cpuctx->unique_pmu = pmu;
7801         }
7802
7803 got_cpu_context:
7804         if (!pmu->start_txn) {
7805                 if (pmu->pmu_enable) {
7806                         /*
7807                          * If we have pmu_enable/pmu_disable calls, install
7808                          * transaction stubs that use that to try and batch
7809                          * hardware accesses.
7810                          */
7811                         pmu->start_txn  = perf_pmu_start_txn;
7812                         pmu->commit_txn = perf_pmu_commit_txn;
7813                         pmu->cancel_txn = perf_pmu_cancel_txn;
7814                 } else {
7815                         pmu->start_txn  = perf_pmu_nop_txn;
7816                         pmu->commit_txn = perf_pmu_nop_int;
7817                         pmu->cancel_txn = perf_pmu_nop_void;
7818                 }
7819         }
7820
7821         if (!pmu->pmu_enable) {
7822                 pmu->pmu_enable  = perf_pmu_nop_void;
7823                 pmu->pmu_disable = perf_pmu_nop_void;
7824         }
7825
7826         if (!pmu->event_idx)
7827                 pmu->event_idx = perf_event_idx_default;
7828
7829         list_add_rcu(&pmu->entry, &pmus);
7830         atomic_set(&pmu->exclusive_cnt, 0);
7831         ret = 0;
7832 unlock:
7833         mutex_unlock(&pmus_lock);
7834
7835         return ret;
7836
7837 free_dev:
7838         device_del(pmu->dev);
7839         put_device(pmu->dev);
7840
7841 free_idr:
7842         if (pmu->type >= PERF_TYPE_MAX)
7843                 idr_remove(&pmu_idr, pmu->type);
7844
7845 free_pdc:
7846         free_percpu(pmu->pmu_disable_count);
7847         goto unlock;
7848 }
7849 EXPORT_SYMBOL_GPL(perf_pmu_register);
7850
7851 void perf_pmu_unregister(struct pmu *pmu)
7852 {
7853         mutex_lock(&pmus_lock);
7854         list_del_rcu(&pmu->entry);
7855         mutex_unlock(&pmus_lock);
7856
7857         /*
7858          * We dereference the pmu list under both SRCU and regular RCU, so
7859          * synchronize against both of those.
7860          */
7861         synchronize_srcu(&pmus_srcu);
7862         synchronize_rcu();
7863
7864         free_percpu(pmu->pmu_disable_count);
7865         if (pmu->type >= PERF_TYPE_MAX)
7866                 idr_remove(&pmu_idr, pmu->type);
7867         device_del(pmu->dev);
7868         put_device(pmu->dev);
7869         free_pmu_context(pmu);
7870 }
7871 EXPORT_SYMBOL_GPL(perf_pmu_unregister);
7872
7873 static int perf_try_init_event(struct pmu *pmu, struct perf_event *event)
7874 {
7875         struct perf_event_context *ctx = NULL;
7876         int ret;
7877
7878         if (!try_module_get(pmu->module))
7879                 return -ENODEV;
7880
7881         if (event->group_leader != event) {
7882                 /*
7883                  * This ctx->mutex can nest when we're called through
7884                  * inheritance. See the perf_event_ctx_lock_nested() comment.
7885                  */
7886                 ctx = perf_event_ctx_lock_nested(event->group_leader,
7887                                                  SINGLE_DEPTH_NESTING);
7888                 BUG_ON(!ctx);
7889         }
7890
7891         event->pmu = pmu;
7892         ret = pmu->event_init(event);
7893
7894         if (ctx)
7895                 perf_event_ctx_unlock(event->group_leader, ctx);
7896
7897         if (ret)
7898                 module_put(pmu->module);
7899
7900         return ret;
7901 }
7902
7903 static struct pmu *perf_init_event(struct perf_event *event)
7904 {
7905         struct pmu *pmu = NULL;
7906         int idx;
7907         int ret;
7908
7909         idx = srcu_read_lock(&pmus_srcu);
7910
7911         rcu_read_lock();
7912         pmu = idr_find(&pmu_idr, event->attr.type);
7913         rcu_read_unlock();
7914         if (pmu) {
7915                 ret = perf_try_init_event(pmu, event);
7916                 if (ret)
7917                         pmu = ERR_PTR(ret);
7918                 goto unlock;
7919         }
7920
7921         list_for_each_entry_rcu(pmu, &pmus, entry) {
7922                 ret = perf_try_init_event(pmu, event);
7923                 if (!ret)
7924                         goto unlock;
7925
7926                 if (ret != -ENOENT) {
7927                         pmu = ERR_PTR(ret);
7928                         goto unlock;
7929                 }
7930         }
7931         pmu = ERR_PTR(-ENOENT);
7932 unlock:
7933         srcu_read_unlock(&pmus_srcu, idx);
7934
7935         return pmu;
7936 }
7937
7938 static void account_event_cpu(struct perf_event *event, int cpu)
7939 {
7940         if (event->parent)
7941                 return;
7942
7943         if (is_cgroup_event(event))
7944                 atomic_inc(&per_cpu(perf_cgroup_events, cpu));
7945 }
7946
7947 static void account_event(struct perf_event *event)
7948 {
7949         if (event->parent)
7950                 return;
7951
7952         if (event->attach_state & PERF_ATTACH_TASK)
7953                 static_key_slow_inc(&perf_sched_events.key);
7954         if (event->attr.mmap || event->attr.mmap_data)
7955                 atomic_inc(&nr_mmap_events);
7956         if (event->attr.comm)
7957                 atomic_inc(&nr_comm_events);
7958         if (event->attr.task)
7959                 atomic_inc(&nr_task_events);
7960         if (event->attr.freq) {
7961                 if (atomic_inc_return(&nr_freq_events) == 1)
7962                         tick_nohz_full_kick_all();
7963         }
7964         if (event->attr.context_switch) {
7965                 atomic_inc(&nr_switch_events);
7966                 static_key_slow_inc(&perf_sched_events.key);
7967         }
7968         if (has_branch_stack(event))
7969                 static_key_slow_inc(&perf_sched_events.key);
7970         if (is_cgroup_event(event))
7971                 static_key_slow_inc(&perf_sched_events.key);
7972
7973         account_event_cpu(event, event->cpu);
7974 }
7975
7976 /*
7977  * Allocate and initialize a event structure
7978  */
7979 static struct perf_event *
7980 perf_event_alloc(struct perf_event_attr *attr, int cpu,
7981                  struct task_struct *task,
7982                  struct perf_event *group_leader,
7983                  struct perf_event *parent_event,
7984                  perf_overflow_handler_t overflow_handler,
7985                  void *context, int cgroup_fd)
7986 {
7987         struct pmu *pmu;
7988         struct perf_event *event;
7989         struct hw_perf_event *hwc;
7990         long err = -EINVAL;
7991
7992         if ((unsigned)cpu >= nr_cpu_ids) {
7993                 if (!task || cpu != -1)
7994                         return ERR_PTR(-EINVAL);
7995         }
7996
7997         event = kzalloc(sizeof(*event), GFP_KERNEL);
7998         if (!event)
7999                 return ERR_PTR(-ENOMEM);
8000
8001         /*
8002          * Single events are their own group leaders, with an
8003          * empty sibling list:
8004          */
8005         if (!group_leader)
8006                 group_leader = event;
8007
8008         mutex_init(&event->child_mutex);
8009         INIT_LIST_HEAD(&event->child_list);
8010
8011         INIT_LIST_HEAD(&event->group_entry);
8012         INIT_LIST_HEAD(&event->event_entry);
8013         INIT_LIST_HEAD(&event->sibling_list);
8014         INIT_LIST_HEAD(&event->rb_entry);
8015         INIT_LIST_HEAD(&event->active_entry);
8016         INIT_LIST_HEAD(&event->drv_configs);
8017         INIT_HLIST_NODE(&event->hlist_entry);
8018
8019
8020         init_waitqueue_head(&event->waitq);
8021         init_irq_work(&event->pending, perf_pending_event);
8022
8023         mutex_init(&event->mmap_mutex);
8024
8025         atomic_long_set(&event->refcount, 1);
8026         event->cpu              = cpu;
8027         event->attr             = *attr;
8028         event->group_leader     = group_leader;
8029         event->pmu              = NULL;
8030         event->oncpu            = -1;
8031
8032         event->parent           = parent_event;
8033
8034         event->ns               = get_pid_ns(task_active_pid_ns(current));
8035         event->id               = atomic64_inc_return(&perf_event_id);
8036
8037         event->state            = PERF_EVENT_STATE_INACTIVE;
8038
8039         if (task) {
8040                 event->attach_state = PERF_ATTACH_TASK;
8041                 /*
8042                  * XXX pmu::event_init needs to know what task to account to
8043                  * and we cannot use the ctx information because we need the
8044                  * pmu before we get a ctx.
8045                  */
8046                 event->hw.target = task;
8047         }
8048
8049         event->clock = &local_clock;
8050         if (parent_event)
8051                 event->clock = parent_event->clock;
8052
8053         if (!overflow_handler && parent_event) {
8054                 overflow_handler = parent_event->overflow_handler;
8055                 context = parent_event->overflow_handler_context;
8056         }
8057
8058         event->overflow_handler = overflow_handler;
8059         event->overflow_handler_context = context;
8060
8061         perf_event__state_init(event);
8062
8063         pmu = NULL;
8064
8065         hwc = &event->hw;
8066         hwc->sample_period = attr->sample_period;
8067         if (attr->freq && attr->sample_freq)
8068                 hwc->sample_period = 1;
8069         hwc->last_period = hwc->sample_period;
8070
8071         local64_set(&hwc->period_left, hwc->sample_period);
8072
8073         /*
8074          * we currently do not support PERF_FORMAT_GROUP on inherited events
8075          */
8076         if (attr->inherit && (attr->read_format & PERF_FORMAT_GROUP))
8077                 goto err_ns;
8078
8079         if (!has_branch_stack(event))
8080                 event->attr.branch_sample_type = 0;
8081
8082         if (cgroup_fd != -1) {
8083                 err = perf_cgroup_connect(cgroup_fd, event, attr, group_leader);
8084                 if (err)
8085                         goto err_ns;
8086         }
8087
8088         pmu = perf_init_event(event);
8089         if (!pmu)
8090                 goto err_ns;
8091         else if (IS_ERR(pmu)) {
8092                 err = PTR_ERR(pmu);
8093                 goto err_ns;
8094         }
8095
8096         err = exclusive_event_init(event);
8097         if (err)
8098                 goto err_pmu;
8099
8100         if (!event->parent) {
8101                 if (event->attr.sample_type & PERF_SAMPLE_CALLCHAIN) {
8102                         err = get_callchain_buffers();
8103                         if (err)
8104                                 goto err_per_task;
8105                 }
8106         }
8107
8108         /* symmetric to unaccount_event() in _free_event() */
8109         account_event(event);
8110
8111         return event;
8112
8113 err_per_task:
8114         exclusive_event_destroy(event);
8115
8116 err_pmu:
8117         if (event->destroy)
8118                 event->destroy(event);
8119         module_put(pmu->module);
8120 err_ns:
8121         if (is_cgroup_event(event))
8122                 perf_detach_cgroup(event);
8123         if (event->ns)
8124                 put_pid_ns(event->ns);
8125         kfree(event);
8126
8127         return ERR_PTR(err);
8128 }
8129
8130 static int perf_copy_attr(struct perf_event_attr __user *uattr,
8131                           struct perf_event_attr *attr)
8132 {
8133         u32 size;
8134         int ret;
8135
8136         if (!access_ok(VERIFY_WRITE, uattr, PERF_ATTR_SIZE_VER0))
8137                 return -EFAULT;
8138
8139         /*
8140          * zero the full structure, so that a short copy will be nice.
8141          */
8142         memset(attr, 0, sizeof(*attr));
8143
8144         ret = get_user(size, &uattr->size);
8145         if (ret)
8146                 return ret;
8147
8148         if (size > PAGE_SIZE)   /* silly large */
8149                 goto err_size;
8150
8151         if (!size)              /* abi compat */
8152                 size = PERF_ATTR_SIZE_VER0;
8153
8154         if (size < PERF_ATTR_SIZE_VER0)
8155                 goto err_size;
8156
8157         /*
8158          * If we're handed a bigger struct than we know of,
8159          * ensure all the unknown bits are 0 - i.e. new
8160          * user-space does not rely on any kernel feature
8161          * extensions we dont know about yet.
8162          */
8163         if (size > sizeof(*attr)) {
8164                 unsigned char __user *addr;
8165                 unsigned char __user *end;
8166                 unsigned char val;
8167
8168                 addr = (void __user *)uattr + sizeof(*attr);
8169                 end  = (void __user *)uattr + size;
8170
8171                 for (; addr < end; addr++) {
8172                         ret = get_user(val, addr);
8173                         if (ret)
8174                                 return ret;
8175                         if (val)
8176                                 goto err_size;
8177                 }
8178                 size = sizeof(*attr);
8179         }
8180
8181         ret = copy_from_user(attr, uattr, size);
8182         if (ret)
8183                 return -EFAULT;
8184
8185         if (attr->__reserved_1)
8186                 return -EINVAL;
8187
8188         if (attr->sample_type & ~(PERF_SAMPLE_MAX-1))
8189                 return -EINVAL;
8190
8191         if (attr->read_format & ~(PERF_FORMAT_MAX-1))
8192                 return -EINVAL;
8193
8194         if (attr->sample_type & PERF_SAMPLE_BRANCH_STACK) {
8195                 u64 mask = attr->branch_sample_type;
8196
8197                 /* only using defined bits */
8198                 if (mask & ~(PERF_SAMPLE_BRANCH_MAX-1))
8199                         return -EINVAL;
8200
8201                 /* at least one branch bit must be set */
8202                 if (!(mask & ~PERF_SAMPLE_BRANCH_PLM_ALL))
8203                         return -EINVAL;
8204
8205                 /* propagate priv level, when not set for branch */
8206                 if (!(mask & PERF_SAMPLE_BRANCH_PLM_ALL)) {
8207
8208                         /* exclude_kernel checked on syscall entry */
8209                         if (!attr->exclude_kernel)
8210                                 mask |= PERF_SAMPLE_BRANCH_KERNEL;
8211
8212                         if (!attr->exclude_user)
8213                                 mask |= PERF_SAMPLE_BRANCH_USER;
8214
8215                         if (!attr->exclude_hv)
8216                                 mask |= PERF_SAMPLE_BRANCH_HV;
8217                         /*
8218                          * adjust user setting (for HW filter setup)
8219                          */
8220                         attr->branch_sample_type = mask;
8221                 }
8222                 /* privileged levels capture (kernel, hv): check permissions */
8223                 if ((mask & PERF_SAMPLE_BRANCH_PERM_PLM)
8224                     && perf_paranoid_kernel() && !capable(CAP_SYS_ADMIN))
8225                         return -EACCES;
8226         }
8227
8228         if (attr->sample_type & PERF_SAMPLE_REGS_USER) {
8229                 ret = perf_reg_validate(attr->sample_regs_user);
8230                 if (ret)
8231                         return ret;
8232         }
8233
8234         if (attr->sample_type & PERF_SAMPLE_STACK_USER) {
8235                 if (!arch_perf_have_user_stack_dump())
8236                         return -ENOSYS;
8237
8238                 /*
8239                  * We have __u32 type for the size, but so far
8240                  * we can only use __u16 as maximum due to the
8241                  * __u16 sample size limit.
8242                  */
8243                 if (attr->sample_stack_user >= USHRT_MAX)
8244                         ret = -EINVAL;
8245                 else if (!IS_ALIGNED(attr->sample_stack_user, sizeof(u64)))
8246                         ret = -EINVAL;
8247         }
8248
8249         if (attr->sample_type & PERF_SAMPLE_REGS_INTR)
8250                 ret = perf_reg_validate(attr->sample_regs_intr);
8251 out:
8252         return ret;
8253
8254 err_size:
8255         put_user(sizeof(*attr), &uattr->size);
8256         ret = -E2BIG;
8257         goto out;
8258 }
8259
8260 static int
8261 perf_event_set_output(struct perf_event *event, struct perf_event *output_event)
8262 {
8263         struct ring_buffer *rb = NULL;
8264         int ret = -EINVAL;
8265
8266         if (!output_event)
8267                 goto set;
8268
8269         /* don't allow circular references */
8270         if (event == output_event)
8271                 goto out;
8272
8273         /*
8274          * Don't allow cross-cpu buffers
8275          */
8276         if (output_event->cpu != event->cpu)
8277                 goto out;
8278
8279         /*
8280          * If its not a per-cpu rb, it must be the same task.
8281          */
8282         if (output_event->cpu == -1 && output_event->ctx != event->ctx)
8283                 goto out;
8284
8285         /*
8286          * Mixing clocks in the same buffer is trouble you don't need.
8287          */
8288         if (output_event->clock != event->clock)
8289                 goto out;
8290
8291         /*
8292          * If both events generate aux data, they must be on the same PMU
8293          */
8294         if (has_aux(event) && has_aux(output_event) &&
8295             event->pmu != output_event->pmu)
8296                 goto out;
8297
8298 set:
8299         mutex_lock(&event->mmap_mutex);
8300         /* Can't redirect output if we've got an active mmap() */
8301         if (atomic_read(&event->mmap_count))
8302                 goto unlock;
8303
8304         if (output_event) {
8305                 /* get the rb we want to redirect to */
8306                 rb = ring_buffer_get(output_event);
8307                 if (!rb)
8308                         goto unlock;
8309         }
8310
8311         ring_buffer_attach(event, rb);
8312
8313         ret = 0;
8314 unlock:
8315         mutex_unlock(&event->mmap_mutex);
8316
8317 out:
8318         return ret;
8319 }
8320
8321 static void mutex_lock_double(struct mutex *a, struct mutex *b)
8322 {
8323         if (b < a)
8324                 swap(a, b);
8325
8326         mutex_lock(a);
8327         mutex_lock_nested(b, SINGLE_DEPTH_NESTING);
8328 }
8329
8330 static int perf_event_set_clock(struct perf_event *event, clockid_t clk_id)
8331 {
8332         bool nmi_safe = false;
8333
8334         switch (clk_id) {
8335         case CLOCK_MONOTONIC:
8336                 event->clock = &ktime_get_mono_fast_ns;
8337                 nmi_safe = true;
8338                 break;
8339
8340         case CLOCK_MONOTONIC_RAW:
8341                 event->clock = &ktime_get_raw_fast_ns;
8342                 nmi_safe = true;
8343                 break;
8344
8345         case CLOCK_REALTIME:
8346                 event->clock = &ktime_get_real_ns;
8347                 break;
8348
8349         case CLOCK_BOOTTIME:
8350                 event->clock = &ktime_get_boot_ns;
8351                 break;
8352
8353         case CLOCK_TAI:
8354                 event->clock = &ktime_get_tai_ns;
8355                 break;
8356
8357         default:
8358                 return -EINVAL;
8359         }
8360
8361         if (!nmi_safe && !(event->pmu->capabilities & PERF_PMU_CAP_NO_NMI))
8362                 return -EINVAL;
8363
8364         return 0;
8365 }
8366
8367 /**
8368  * sys_perf_event_open - open a performance event, associate it to a task/cpu
8369  *
8370  * @attr_uptr:  event_id type attributes for monitoring/sampling
8371  * @pid:                target pid
8372  * @cpu:                target cpu
8373  * @group_fd:           group leader event fd
8374  */
8375 SYSCALL_DEFINE5(perf_event_open,
8376                 struct perf_event_attr __user *, attr_uptr,
8377                 pid_t, pid, int, cpu, int, group_fd, unsigned long, flags)
8378 {
8379         struct perf_event *group_leader = NULL, *output_event = NULL;
8380         struct perf_event *event, *sibling;
8381         struct perf_event_attr attr;
8382         struct perf_event_context *ctx, *uninitialized_var(gctx);
8383         struct file *event_file = NULL;
8384         struct fd group = {NULL, 0};
8385         struct task_struct *task = NULL;
8386         struct pmu *pmu;
8387         int event_fd;
8388         int move_group = 0;
8389         int err;
8390         int f_flags = O_RDWR;
8391         int cgroup_fd = -1;
8392
8393         /* for future expandability... */
8394         if (flags & ~PERF_FLAG_ALL)
8395                 return -EINVAL;
8396
8397         err = perf_copy_attr(attr_uptr, &attr);
8398         if (err)
8399                 return err;
8400
8401         if (!attr.exclude_kernel) {
8402                 if (perf_paranoid_kernel() && !capable(CAP_SYS_ADMIN))
8403                         return -EACCES;
8404         }
8405
8406         if (attr.freq) {
8407                 if (attr.sample_freq > sysctl_perf_event_sample_rate)
8408                         return -EINVAL;
8409         } else {
8410                 if (attr.sample_period & (1ULL << 63))
8411                         return -EINVAL;
8412         }
8413
8414         /*
8415          * In cgroup mode, the pid argument is used to pass the fd
8416          * opened to the cgroup directory in cgroupfs. The cpu argument
8417          * designates the cpu on which to monitor threads from that
8418          * cgroup.
8419          */
8420         if ((flags & PERF_FLAG_PID_CGROUP) && (pid == -1 || cpu == -1))
8421                 return -EINVAL;
8422
8423         if (flags & PERF_FLAG_FD_CLOEXEC)
8424                 f_flags |= O_CLOEXEC;
8425
8426         event_fd = get_unused_fd_flags(f_flags);
8427         if (event_fd < 0)
8428                 return event_fd;
8429
8430         if (group_fd != -1) {
8431                 err = perf_fget_light(group_fd, &group);
8432                 if (err)
8433                         goto err_fd;
8434                 group_leader = group.file->private_data;
8435                 if (flags & PERF_FLAG_FD_OUTPUT)
8436                         output_event = group_leader;
8437                 if (flags & PERF_FLAG_FD_NO_GROUP)
8438                         group_leader = NULL;
8439         }
8440
8441         if (pid != -1 && !(flags & PERF_FLAG_PID_CGROUP)) {
8442                 task = find_lively_task_by_vpid(pid);
8443                 if (IS_ERR(task)) {
8444                         err = PTR_ERR(task);
8445                         goto err_group_fd;
8446                 }
8447         }
8448
8449         if (task && group_leader &&
8450             group_leader->attr.inherit != attr.inherit) {
8451                 err = -EINVAL;
8452                 goto err_task;
8453         }
8454
8455         get_online_cpus();
8456
8457         if (task) {
8458                 err = mutex_lock_interruptible(&task->signal->cred_guard_mutex);
8459                 if (err)
8460                         goto err_cpus;
8461
8462                 /*
8463                  * Reuse ptrace permission checks for now.
8464                  *
8465                  * We must hold cred_guard_mutex across this and any potential
8466                  * perf_install_in_context() call for this new event to
8467                  * serialize against exec() altering our credentials (and the
8468                  * perf_event_exit_task() that could imply).
8469                  */
8470                 err = -EACCES;
8471                 if (!ptrace_may_access(task, PTRACE_MODE_READ_REALCREDS))
8472                         goto err_cred;
8473         }
8474
8475         if (flags & PERF_FLAG_PID_CGROUP)
8476                 cgroup_fd = pid;
8477
8478         event = perf_event_alloc(&attr, cpu, task, group_leader, NULL,
8479                                  NULL, NULL, cgroup_fd);
8480         if (IS_ERR(event)) {
8481                 err = PTR_ERR(event);
8482                 goto err_cred;
8483         }
8484
8485         if (is_sampling_event(event)) {
8486                 if (event->pmu->capabilities & PERF_PMU_CAP_NO_INTERRUPT) {
8487                         err = -ENOTSUPP;
8488                         goto err_alloc;
8489                 }
8490         }
8491
8492         /*
8493          * Special case software events and allow them to be part of
8494          * any hardware group.
8495          */
8496         pmu = event->pmu;
8497
8498         if (attr.use_clockid) {
8499                 err = perf_event_set_clock(event, attr.clockid);
8500                 if (err)
8501                         goto err_alloc;
8502         }
8503
8504         if (group_leader &&
8505             (is_software_event(event) != is_software_event(group_leader))) {
8506                 if (is_software_event(event)) {
8507                         /*
8508                          * If event and group_leader are not both a software
8509                          * event, and event is, then group leader is not.
8510                          *
8511                          * Allow the addition of software events to !software
8512                          * groups, this is safe because software events never
8513                          * fail to schedule.
8514                          */
8515                         pmu = group_leader->pmu;
8516                 } else if (is_software_event(group_leader) &&
8517                            (group_leader->group_flags & PERF_GROUP_SOFTWARE)) {
8518                         /*
8519                          * In case the group is a pure software group, and we
8520                          * try to add a hardware event, move the whole group to
8521                          * the hardware context.
8522                          */
8523                         move_group = 1;
8524                 }
8525         }
8526
8527         /*
8528          * Get the target context (task or percpu):
8529          */
8530         ctx = find_get_context(pmu, task, event);
8531         if (IS_ERR(ctx)) {
8532                 err = PTR_ERR(ctx);
8533                 goto err_alloc;
8534         }
8535
8536         if ((pmu->capabilities & PERF_PMU_CAP_EXCLUSIVE) && group_leader) {
8537                 err = -EBUSY;
8538                 goto err_context;
8539         }
8540
8541         /*
8542          * Look up the group leader (we will attach this event to it):
8543          */
8544         if (group_leader) {
8545                 err = -EINVAL;
8546
8547                 /*
8548                  * Do not allow a recursive hierarchy (this new sibling
8549                  * becoming part of another group-sibling):
8550                  */
8551                 if (group_leader->group_leader != group_leader)
8552                         goto err_context;
8553
8554                 /* All events in a group should have the same clock */
8555                 if (group_leader->clock != event->clock)
8556                         goto err_context;
8557
8558                 /*
8559                  * Do not allow to attach to a group in a different
8560                  * task or CPU context:
8561                  */
8562                 if (move_group) {
8563                         /*
8564                          * Make sure we're both on the same task, or both
8565                          * per-cpu events.
8566                          */
8567                         if (group_leader->ctx->task != ctx->task)
8568                                 goto err_context;
8569
8570                         /*
8571                          * Make sure we're both events for the same CPU;
8572                          * grouping events for different CPUs is broken; since
8573                          * you can never concurrently schedule them anyhow.
8574                          */
8575                         if (group_leader->cpu != event->cpu)
8576                                 goto err_context;
8577                 } else {
8578                         if (group_leader->ctx != ctx)
8579                                 goto err_context;
8580                 }
8581
8582                 /*
8583                  * Only a group leader can be exclusive or pinned
8584                  */
8585                 if (attr.exclusive || attr.pinned)
8586                         goto err_context;
8587         }
8588
8589         if (output_event) {
8590                 err = perf_event_set_output(event, output_event);
8591                 if (err)
8592                         goto err_context;
8593         }
8594
8595         event_file = anon_inode_getfile("[perf_event]", &perf_fops, event,
8596                                         f_flags);
8597         if (IS_ERR(event_file)) {
8598                 err = PTR_ERR(event_file);
8599                 event_file = NULL;
8600                 goto err_context;
8601         }
8602
8603         if (move_group) {
8604                 gctx = group_leader->ctx;
8605                 mutex_lock_double(&gctx->mutex, &ctx->mutex);
8606         } else {
8607                 mutex_lock(&ctx->mutex);
8608         }
8609
8610         if (!perf_event_validate_size(event)) {
8611                 err = -E2BIG;
8612                 goto err_locked;
8613         }
8614
8615         /*
8616          * Must be under the same ctx::mutex as perf_install_in_context(),
8617          * because we need to serialize with concurrent event creation.
8618          */
8619         if (!exclusive_event_installable(event, ctx)) {
8620                 /* exclusive and group stuff are assumed mutually exclusive */
8621                 WARN_ON_ONCE(move_group);
8622
8623                 err = -EBUSY;
8624                 goto err_locked;
8625         }
8626
8627         WARN_ON_ONCE(ctx->parent_ctx);
8628
8629         /*
8630          * This is the point on no return; we cannot fail hereafter. This is
8631          * where we start modifying current state.
8632          */
8633
8634         if (move_group) {
8635                 /*
8636                  * See perf_event_ctx_lock() for comments on the details
8637                  * of swizzling perf_event::ctx.
8638                  */
8639                 perf_remove_from_context(group_leader, false);
8640
8641                 list_for_each_entry(sibling, &group_leader->sibling_list,
8642                                     group_entry) {
8643                         perf_remove_from_context(sibling, false);
8644                         put_ctx(gctx);
8645                 }
8646
8647                 /*
8648                  * Wait for everybody to stop referencing the events through
8649                  * the old lists, before installing it on new lists.
8650                  */
8651                 synchronize_rcu();
8652
8653                 /*
8654                  * Install the group siblings before the group leader.
8655                  *
8656                  * Because a group leader will try and install the entire group
8657                  * (through the sibling list, which is still in-tact), we can
8658                  * end up with siblings installed in the wrong context.
8659                  *
8660                  * By installing siblings first we NO-OP because they're not
8661                  * reachable through the group lists.
8662                  */
8663                 list_for_each_entry(sibling, &group_leader->sibling_list,
8664                                     group_entry) {
8665                         perf_event__state_init(sibling);
8666                         perf_install_in_context(ctx, sibling, sibling->cpu);
8667                         get_ctx(ctx);
8668                 }
8669
8670                 /*
8671                  * Removing from the context ends up with disabled
8672                  * event. What we want here is event in the initial
8673                  * startup state, ready to be add into new context.
8674                  */
8675                 perf_event__state_init(group_leader);
8676                 perf_install_in_context(ctx, group_leader, group_leader->cpu);
8677                 get_ctx(ctx);
8678
8679                 /*
8680                  * Now that all events are installed in @ctx, nothing
8681                  * references @gctx anymore, so drop the last reference we have
8682                  * on it.
8683                  */
8684                 put_ctx(gctx);
8685         }
8686
8687         /*
8688          * Precalculate sample_data sizes; do while holding ctx::mutex such
8689          * that we're serialized against further additions and before
8690          * perf_install_in_context() which is the point the event is active and
8691          * can use these values.
8692          */
8693         perf_event__header_size(event);
8694         perf_event__id_header_size(event);
8695
8696         perf_install_in_context(ctx, event, event->cpu);
8697         perf_unpin_context(ctx);
8698
8699         if (move_group)
8700                 mutex_unlock(&gctx->mutex);
8701         mutex_unlock(&ctx->mutex);
8702
8703         if (task) {
8704                 mutex_unlock(&task->signal->cred_guard_mutex);
8705                 put_task_struct(task);
8706         }
8707
8708         put_online_cpus();
8709
8710         event->owner = current;
8711
8712         mutex_lock(&current->perf_event_mutex);
8713         list_add_tail(&event->owner_entry, &current->perf_event_list);
8714         mutex_unlock(&current->perf_event_mutex);
8715
8716         /*
8717          * Drop the reference on the group_event after placing the
8718          * new event on the sibling_list. This ensures destruction
8719          * of the group leader will find the pointer to itself in
8720          * perf_group_detach().
8721          */
8722         fdput(group);
8723         fd_install(event_fd, event_file);
8724         return event_fd;
8725
8726 err_locked:
8727         if (move_group)
8728                 mutex_unlock(&gctx->mutex);
8729         mutex_unlock(&ctx->mutex);
8730 /* err_file: */
8731         fput(event_file);
8732 err_context:
8733         perf_unpin_context(ctx);
8734         put_ctx(ctx);
8735 err_alloc:
8736         /*
8737          * If event_file is set, the fput() above will have called ->release()
8738          * and that will take care of freeing the event.
8739          */
8740         if (!event_file)
8741                 free_event(event);
8742 err_cred:
8743         if (task)
8744                 mutex_unlock(&task->signal->cred_guard_mutex);
8745 err_cpus:
8746         put_online_cpus();
8747 err_task:
8748         if (task)
8749                 put_task_struct(task);
8750 err_group_fd:
8751         fdput(group);
8752 err_fd:
8753         put_unused_fd(event_fd);
8754         return err;
8755 }
8756
8757 /**
8758  * perf_event_create_kernel_counter
8759  *
8760  * @attr: attributes of the counter to create
8761  * @cpu: cpu in which the counter is bound
8762  * @task: task to profile (NULL for percpu)
8763  */
8764 struct perf_event *
8765 perf_event_create_kernel_counter(struct perf_event_attr *attr, int cpu,
8766                                  struct task_struct *task,
8767                                  perf_overflow_handler_t overflow_handler,
8768                                  void *context)
8769 {
8770         struct perf_event_context *ctx;
8771         struct perf_event *event;
8772         int err;
8773
8774         /*
8775          * Get the target context (task or percpu):
8776          */
8777
8778         event = perf_event_alloc(attr, cpu, task, NULL, NULL,
8779                                  overflow_handler, context, -1);
8780         if (IS_ERR(event)) {
8781                 err = PTR_ERR(event);
8782                 goto err;
8783         }
8784
8785         /* Mark owner so we could distinguish it from user events. */
8786         event->owner = EVENT_OWNER_KERNEL;
8787
8788         ctx = find_get_context(event->pmu, task, event);
8789         if (IS_ERR(ctx)) {
8790                 err = PTR_ERR(ctx);
8791                 goto err_free;
8792         }
8793
8794         WARN_ON_ONCE(ctx->parent_ctx);
8795         mutex_lock(&ctx->mutex);
8796         if (!exclusive_event_installable(event, ctx)) {
8797                 mutex_unlock(&ctx->mutex);
8798                 perf_unpin_context(ctx);
8799                 put_ctx(ctx);
8800                 err = -EBUSY;
8801                 goto err_free;
8802         }
8803
8804         perf_install_in_context(ctx, event, cpu);
8805         perf_unpin_context(ctx);
8806         mutex_unlock(&ctx->mutex);
8807
8808         return event;
8809
8810 err_free:
8811         free_event(event);
8812 err:
8813         return ERR_PTR(err);
8814 }
8815 EXPORT_SYMBOL_GPL(perf_event_create_kernel_counter);
8816
8817 void perf_pmu_migrate_context(struct pmu *pmu, int src_cpu, int dst_cpu)
8818 {
8819         struct perf_event_context *src_ctx;
8820         struct perf_event_context *dst_ctx;
8821         struct perf_event *event, *tmp;
8822         LIST_HEAD(events);
8823
8824         src_ctx = &per_cpu_ptr(pmu->pmu_cpu_context, src_cpu)->ctx;
8825         dst_ctx = &per_cpu_ptr(pmu->pmu_cpu_context, dst_cpu)->ctx;
8826
8827         /*
8828          * See perf_event_ctx_lock() for comments on the details
8829          * of swizzling perf_event::ctx.
8830          */
8831         mutex_lock_double(&src_ctx->mutex, &dst_ctx->mutex);
8832         list_for_each_entry_safe(event, tmp, &src_ctx->event_list,
8833                                  event_entry) {
8834                 perf_remove_from_context(event, false);
8835                 unaccount_event_cpu(event, src_cpu);
8836                 put_ctx(src_ctx);
8837                 list_add(&event->migrate_entry, &events);
8838         }
8839
8840         /*
8841          * Wait for the events to quiesce before re-instating them.
8842          */
8843         synchronize_rcu();
8844
8845         /*
8846          * Re-instate events in 2 passes.
8847          *
8848          * Skip over group leaders and only install siblings on this first
8849          * pass, siblings will not get enabled without a leader, however a
8850          * leader will enable its siblings, even if those are still on the old
8851          * context.
8852          */
8853         list_for_each_entry_safe(event, tmp, &events, migrate_entry) {
8854                 if (event->group_leader == event)
8855                         continue;
8856
8857                 list_del(&event->migrate_entry);
8858                 if (event->state >= PERF_EVENT_STATE_OFF)
8859                         event->state = PERF_EVENT_STATE_INACTIVE;
8860                 account_event_cpu(event, dst_cpu);
8861                 perf_install_in_context(dst_ctx, event, dst_cpu);
8862                 get_ctx(dst_ctx);
8863         }
8864
8865         /*
8866          * Once all the siblings are setup properly, install the group leaders
8867          * to make it go.
8868          */
8869         list_for_each_entry_safe(event, tmp, &events, migrate_entry) {
8870                 list_del(&event->migrate_entry);
8871                 if (event->state >= PERF_EVENT_STATE_OFF)
8872                         event->state = PERF_EVENT_STATE_INACTIVE;
8873                 account_event_cpu(event, dst_cpu);
8874                 perf_install_in_context(dst_ctx, event, dst_cpu);
8875                 get_ctx(dst_ctx);
8876         }
8877         mutex_unlock(&dst_ctx->mutex);
8878         mutex_unlock(&src_ctx->mutex);
8879 }
8880 EXPORT_SYMBOL_GPL(perf_pmu_migrate_context);
8881
8882 static void sync_child_event(struct perf_event *child_event,
8883                                struct task_struct *child)
8884 {
8885         struct perf_event *parent_event = child_event->parent;
8886         u64 child_val;
8887
8888         if (child_event->attr.inherit_stat)
8889                 perf_event_read_event(child_event, child);
8890
8891         child_val = perf_event_count(child_event);
8892
8893         /*
8894          * Add back the child's count to the parent's count:
8895          */
8896         atomic64_add(child_val, &parent_event->child_count);
8897         atomic64_add(child_event->total_time_enabled,
8898                      &parent_event->child_total_time_enabled);
8899         atomic64_add(child_event->total_time_running,
8900                      &parent_event->child_total_time_running);
8901
8902         /*
8903          * Remove this event from the parent's list
8904          */
8905         WARN_ON_ONCE(parent_event->ctx->parent_ctx);
8906         mutex_lock(&parent_event->child_mutex);
8907         list_del_init(&child_event->child_list);
8908         mutex_unlock(&parent_event->child_mutex);
8909
8910         /*
8911          * Make sure user/parent get notified, that we just
8912          * lost one event.
8913          */
8914         perf_event_wakeup(parent_event);
8915
8916         /*
8917          * Release the parent event, if this was the last
8918          * reference to it.
8919          */
8920         put_event(parent_event);
8921 }
8922
8923 static void
8924 __perf_event_exit_task(struct perf_event *child_event,
8925                          struct perf_event_context *child_ctx,
8926                          struct task_struct *child)
8927 {
8928         /*
8929          * Do not destroy the 'original' grouping; because of the context
8930          * switch optimization the original events could've ended up in a
8931          * random child task.
8932          *
8933          * If we were to destroy the original group, all group related
8934          * operations would cease to function properly after this random
8935          * child dies.
8936          *
8937          * Do destroy all inherited groups, we don't care about those
8938          * and being thorough is better.
8939          */
8940         perf_remove_from_context(child_event, !!child_event->parent);
8941
8942         /*
8943          * It can happen that the parent exits first, and has events
8944          * that are still around due to the child reference. These
8945          * events need to be zapped.
8946          */
8947         if (child_event->parent) {
8948                 sync_child_event(child_event, child);
8949                 free_event(child_event);
8950         } else {
8951                 child_event->state = PERF_EVENT_STATE_EXIT;
8952                 perf_event_wakeup(child_event);
8953         }
8954 }
8955
8956 static void perf_event_exit_task_context(struct task_struct *child, int ctxn)
8957 {
8958         struct perf_event *child_event, *next;
8959         struct perf_event_context *child_ctx, *clone_ctx = NULL;
8960         unsigned long flags;
8961
8962         if (likely(!child->perf_event_ctxp[ctxn]))
8963                 return;
8964
8965         local_irq_save(flags);
8966         /*
8967          * We can't reschedule here because interrupts are disabled,
8968          * and either child is current or it is a task that can't be
8969          * scheduled, so we are now safe from rescheduling changing
8970          * our context.
8971          */
8972         child_ctx = rcu_dereference_raw(child->perf_event_ctxp[ctxn]);
8973
8974         /*
8975          * Take the context lock here so that if find_get_context is
8976          * reading child->perf_event_ctxp, we wait until it has
8977          * incremented the context's refcount before we do put_ctx below.
8978          */
8979         raw_spin_lock(&child_ctx->lock);
8980         task_ctx_sched_out(child_ctx);
8981         child->perf_event_ctxp[ctxn] = NULL;
8982
8983         /*
8984          * If this context is a clone; unclone it so it can't get
8985          * swapped to another process while we're removing all
8986          * the events from it.
8987          */
8988         clone_ctx = unclone_ctx(child_ctx);
8989         update_context_time(child_ctx);
8990         raw_spin_unlock_irqrestore(&child_ctx->lock, flags);
8991
8992         if (clone_ctx)
8993                 put_ctx(clone_ctx);
8994
8995         /*
8996          * Report the task dead after unscheduling the events so that we
8997          * won't get any samples after PERF_RECORD_EXIT. We can however still
8998          * get a few PERF_RECORD_READ events.
8999          */
9000         perf_event_task(child, child_ctx, 0);
9001
9002         /*
9003          * We can recurse on the same lock type through:
9004          *
9005          *   __perf_event_exit_task()
9006          *     sync_child_event()
9007          *       put_event()
9008          *         mutex_lock(&ctx->mutex)
9009          *
9010          * But since its the parent context it won't be the same instance.
9011          */
9012         mutex_lock(&child_ctx->mutex);
9013
9014         list_for_each_entry_safe(child_event, next, &child_ctx->event_list, event_entry)
9015                 __perf_event_exit_task(child_event, child_ctx, child);
9016
9017         mutex_unlock(&child_ctx->mutex);
9018
9019         put_ctx(child_ctx);
9020 }
9021
9022 /*
9023  * When a child task exits, feed back event values to parent events.
9024  *
9025  * Can be called with cred_guard_mutex held when called from
9026  * install_exec_creds().
9027  */
9028 void perf_event_exit_task(struct task_struct *child)
9029 {
9030         struct perf_event *event, *tmp;
9031         int ctxn;
9032
9033         mutex_lock(&child->perf_event_mutex);
9034         list_for_each_entry_safe(event, tmp, &child->perf_event_list,
9035                                  owner_entry) {
9036                 list_del_init(&event->owner_entry);
9037
9038                 /*
9039                  * Ensure the list deletion is visible before we clear
9040                  * the owner, closes a race against perf_release() where
9041                  * we need to serialize on the owner->perf_event_mutex.
9042                  */
9043                 smp_wmb();
9044                 event->owner = NULL;
9045         }
9046         mutex_unlock(&child->perf_event_mutex);
9047
9048         for_each_task_context_nr(ctxn)
9049                 perf_event_exit_task_context(child, ctxn);
9050
9051         /*
9052          * The perf_event_exit_task_context calls perf_event_task
9053          * with child's task_ctx, which generates EXIT events for
9054          * child contexts and sets child->perf_event_ctxp[] to NULL.
9055          * At this point we need to send EXIT events to cpu contexts.
9056          */
9057         perf_event_task(child, NULL, 0);
9058 }
9059
9060 static void perf_free_event(struct perf_event *event,
9061                             struct perf_event_context *ctx)
9062 {
9063         struct perf_event *parent = event->parent;
9064
9065         if (WARN_ON_ONCE(!parent))
9066                 return;
9067
9068         mutex_lock(&parent->child_mutex);
9069         list_del_init(&event->child_list);
9070         mutex_unlock(&parent->child_mutex);
9071
9072         put_event(parent);
9073
9074         raw_spin_lock_irq(&ctx->lock);
9075         perf_group_detach(event);
9076         list_del_event(event, ctx);
9077         raw_spin_unlock_irq(&ctx->lock);
9078         free_event(event);
9079 }
9080
9081 /*
9082  * Free an unexposed, unused context as created by inheritance by
9083  * perf_event_init_task below, used by fork() in case of fail.
9084  *
9085  * Not all locks are strictly required, but take them anyway to be nice and
9086  * help out with the lockdep assertions.
9087  */
9088 void perf_event_free_task(struct task_struct *task)
9089 {
9090         struct perf_event_context *ctx;
9091         struct perf_event *event, *tmp;
9092         int ctxn;
9093
9094         for_each_task_context_nr(ctxn) {
9095                 ctx = task->perf_event_ctxp[ctxn];
9096                 if (!ctx)
9097                         continue;
9098
9099                 mutex_lock(&ctx->mutex);
9100 again:
9101                 list_for_each_entry_safe(event, tmp, &ctx->pinned_groups,
9102                                 group_entry)
9103                         perf_free_event(event, ctx);
9104
9105                 list_for_each_entry_safe(event, tmp, &ctx->flexible_groups,
9106                                 group_entry)
9107                         perf_free_event(event, ctx);
9108
9109                 if (!list_empty(&ctx->pinned_groups) ||
9110                                 !list_empty(&ctx->flexible_groups))
9111                         goto again;
9112
9113                 mutex_unlock(&ctx->mutex);
9114
9115                 put_ctx(ctx);
9116         }
9117 }
9118
9119 void perf_event_delayed_put(struct task_struct *task)
9120 {
9121         int ctxn;
9122
9123         for_each_task_context_nr(ctxn)
9124                 WARN_ON_ONCE(task->perf_event_ctxp[ctxn]);
9125 }
9126
9127 struct perf_event *perf_event_get(unsigned int fd)
9128 {
9129         int err;
9130         struct fd f;
9131         struct perf_event *event;
9132
9133         err = perf_fget_light(fd, &f);
9134         if (err)
9135                 return ERR_PTR(err);
9136
9137         event = f.file->private_data;
9138         atomic_long_inc(&event->refcount);
9139         fdput(f);
9140
9141         return event;
9142 }
9143
9144 const struct perf_event_attr *perf_event_attrs(struct perf_event *event)
9145 {
9146         if (!event)
9147                 return ERR_PTR(-EINVAL);
9148
9149         return &event->attr;
9150 }
9151
9152 /*
9153  * inherit a event from parent task to child task:
9154  */
9155 static struct perf_event *
9156 inherit_event(struct perf_event *parent_event,
9157               struct task_struct *parent,
9158               struct perf_event_context *parent_ctx,
9159               struct task_struct *child,
9160               struct perf_event *group_leader,
9161               struct perf_event_context *child_ctx)
9162 {
9163         enum perf_event_active_state parent_state = parent_event->state;
9164         struct perf_event *child_event;
9165         unsigned long flags;
9166
9167         /*
9168          * Instead of creating recursive hierarchies of events,
9169          * we link inherited events back to the original parent,
9170          * which has a filp for sure, which we use as the reference
9171          * count:
9172          */
9173         if (parent_event->parent)
9174                 parent_event = parent_event->parent;
9175
9176         child_event = perf_event_alloc(&parent_event->attr,
9177                                            parent_event->cpu,
9178                                            child,
9179                                            group_leader, parent_event,
9180                                            NULL, NULL, -1);
9181         if (IS_ERR(child_event))
9182                 return child_event;
9183
9184         if (is_orphaned_event(parent_event) ||
9185             !atomic_long_inc_not_zero(&parent_event->refcount)) {
9186                 free_event(child_event);
9187                 return NULL;
9188         }
9189
9190         get_ctx(child_ctx);
9191
9192         /*
9193          * Make the child state follow the state of the parent event,
9194          * not its attr.disabled bit.  We hold the parent's mutex,
9195          * so we won't race with perf_event_{en, dis}able_family.
9196          */
9197         if (parent_state >= PERF_EVENT_STATE_INACTIVE)
9198                 child_event->state = PERF_EVENT_STATE_INACTIVE;
9199         else
9200                 child_event->state = PERF_EVENT_STATE_OFF;
9201
9202         if (parent_event->attr.freq) {
9203                 u64 sample_period = parent_event->hw.sample_period;
9204                 struct hw_perf_event *hwc = &child_event->hw;
9205
9206                 hwc->sample_period = sample_period;
9207                 hwc->last_period   = sample_period;
9208
9209                 local64_set(&hwc->period_left, sample_period);
9210         }
9211
9212         child_event->ctx = child_ctx;
9213         child_event->overflow_handler = parent_event->overflow_handler;
9214         child_event->overflow_handler_context
9215                 = parent_event->overflow_handler_context;
9216
9217         /*
9218          * Precalculate sample_data sizes
9219          */
9220         perf_event__header_size(child_event);
9221         perf_event__id_header_size(child_event);
9222
9223         /*
9224          * Link it up in the child's context:
9225          */
9226         raw_spin_lock_irqsave(&child_ctx->lock, flags);
9227         add_event_to_ctx(child_event, child_ctx);
9228         raw_spin_unlock_irqrestore(&child_ctx->lock, flags);
9229
9230         /*
9231          * Link this into the parent event's child list
9232          */
9233         WARN_ON_ONCE(parent_event->ctx->parent_ctx);
9234         mutex_lock(&parent_event->child_mutex);
9235         list_add_tail(&child_event->child_list, &parent_event->child_list);
9236         mutex_unlock(&parent_event->child_mutex);
9237
9238         return child_event;
9239 }
9240
9241 static int inherit_group(struct perf_event *parent_event,
9242               struct task_struct *parent,
9243               struct perf_event_context *parent_ctx,
9244               struct task_struct *child,
9245               struct perf_event_context *child_ctx)
9246 {
9247         struct perf_event *leader;
9248         struct perf_event *sub;
9249         struct perf_event *child_ctr;
9250
9251         leader = inherit_event(parent_event, parent, parent_ctx,
9252                                  child, NULL, child_ctx);
9253         if (IS_ERR(leader))
9254                 return PTR_ERR(leader);
9255         list_for_each_entry(sub, &parent_event->sibling_list, group_entry) {
9256                 child_ctr = inherit_event(sub, parent, parent_ctx,
9257                                             child, leader, child_ctx);
9258                 if (IS_ERR(child_ctr))
9259                         return PTR_ERR(child_ctr);
9260         }
9261         return 0;
9262 }
9263
9264 static int
9265 inherit_task_group(struct perf_event *event, struct task_struct *parent,
9266                    struct perf_event_context *parent_ctx,
9267                    struct task_struct *child, int ctxn,
9268                    int *inherited_all)
9269 {
9270         int ret;
9271         struct perf_event_context *child_ctx;
9272
9273         if (!event->attr.inherit) {
9274                 *inherited_all = 0;
9275                 return 0;
9276         }
9277
9278         child_ctx = child->perf_event_ctxp[ctxn];
9279         if (!child_ctx) {
9280                 /*
9281                  * This is executed from the parent task context, so
9282                  * inherit events that have been marked for cloning.
9283                  * First allocate and initialize a context for the
9284                  * child.
9285                  */
9286
9287                 child_ctx = alloc_perf_context(parent_ctx->pmu, child);
9288                 if (!child_ctx)
9289                         return -ENOMEM;
9290
9291                 child->perf_event_ctxp[ctxn] = child_ctx;
9292         }
9293
9294         ret = inherit_group(event, parent, parent_ctx,
9295                             child, child_ctx);
9296
9297         if (ret)
9298                 *inherited_all = 0;
9299
9300         return ret;
9301 }
9302
9303 /*
9304  * Initialize the perf_event context in task_struct
9305  */
9306 static int perf_event_init_context(struct task_struct *child, int ctxn)
9307 {
9308         struct perf_event_context *child_ctx, *parent_ctx;
9309         struct perf_event_context *cloned_ctx;
9310         struct perf_event *event;
9311         struct task_struct *parent = current;
9312         int inherited_all = 1;
9313         unsigned long flags;
9314         int ret = 0;
9315
9316         if (likely(!parent->perf_event_ctxp[ctxn]))
9317                 return 0;
9318
9319         /*
9320          * If the parent's context is a clone, pin it so it won't get
9321          * swapped under us.
9322          */
9323         parent_ctx = perf_pin_task_context(parent, ctxn);
9324         if (!parent_ctx)
9325                 return 0;
9326
9327         /*
9328          * No need to check if parent_ctx != NULL here; since we saw
9329          * it non-NULL earlier, the only reason for it to become NULL
9330          * is if we exit, and since we're currently in the middle of
9331          * a fork we can't be exiting at the same time.
9332          */
9333
9334         /*
9335          * Lock the parent list. No need to lock the child - not PID
9336          * hashed yet and not running, so nobody can access it.
9337          */
9338         mutex_lock(&parent_ctx->mutex);
9339
9340         /*
9341          * We dont have to disable NMIs - we are only looking at
9342          * the list, not manipulating it:
9343          */
9344         list_for_each_entry(event, &parent_ctx->pinned_groups, group_entry) {
9345                 ret = inherit_task_group(event, parent, parent_ctx,
9346                                          child, ctxn, &inherited_all);
9347                 if (ret)
9348                         break;
9349         }
9350
9351         /*
9352          * We can't hold ctx->lock when iterating the ->flexible_group list due
9353          * to allocations, but we need to prevent rotation because
9354          * rotate_ctx() will change the list from interrupt context.
9355          */
9356         raw_spin_lock_irqsave(&parent_ctx->lock, flags);
9357         parent_ctx->rotate_disable = 1;
9358         raw_spin_unlock_irqrestore(&parent_ctx->lock, flags);
9359
9360         list_for_each_entry(event, &parent_ctx->flexible_groups, group_entry) {
9361                 ret = inherit_task_group(event, parent, parent_ctx,
9362                                          child, ctxn, &inherited_all);
9363                 if (ret)
9364                         break;
9365         }
9366
9367         raw_spin_lock_irqsave(&parent_ctx->lock, flags);
9368         parent_ctx->rotate_disable = 0;
9369
9370         child_ctx = child->perf_event_ctxp[ctxn];
9371
9372         if (child_ctx && inherited_all) {
9373                 /*
9374                  * Mark the child context as a clone of the parent
9375                  * context, or of whatever the parent is a clone of.
9376                  *
9377                  * Note that if the parent is a clone, the holding of
9378                  * parent_ctx->lock avoids it from being uncloned.
9379                  */
9380                 cloned_ctx = parent_ctx->parent_ctx;
9381                 if (cloned_ctx) {
9382                         child_ctx->parent_ctx = cloned_ctx;
9383                         child_ctx->parent_gen = parent_ctx->parent_gen;
9384                 } else {
9385                         child_ctx->parent_ctx = parent_ctx;
9386                         child_ctx->parent_gen = parent_ctx->generation;
9387                 }
9388                 get_ctx(child_ctx->parent_ctx);
9389         }
9390
9391         raw_spin_unlock_irqrestore(&parent_ctx->lock, flags);
9392         mutex_unlock(&parent_ctx->mutex);
9393
9394         perf_unpin_context(parent_ctx);
9395         put_ctx(parent_ctx);
9396
9397         return ret;
9398 }
9399
9400 /*
9401  * Initialize the perf_event context in task_struct
9402  */
9403 int perf_event_init_task(struct task_struct *child)
9404 {
9405         int ctxn, ret;
9406
9407         memset(child->perf_event_ctxp, 0, sizeof(child->perf_event_ctxp));
9408         mutex_init(&child->perf_event_mutex);
9409         INIT_LIST_HEAD(&child->perf_event_list);
9410
9411         for_each_task_context_nr(ctxn) {
9412                 ret = perf_event_init_context(child, ctxn);
9413                 if (ret) {
9414                         perf_event_free_task(child);
9415                         return ret;
9416                 }
9417         }
9418
9419         return 0;
9420 }
9421
9422 static void __init perf_event_init_all_cpus(void)
9423 {
9424         struct swevent_htable *swhash;
9425         int cpu;
9426
9427         for_each_possible_cpu(cpu) {
9428                 swhash = &per_cpu(swevent_htable, cpu);
9429                 mutex_init(&swhash->hlist_mutex);
9430                 INIT_LIST_HEAD(&per_cpu(active_ctx_list, cpu));
9431         }
9432 }
9433
9434 static void perf_event_init_cpu(int cpu)
9435 {
9436         struct swevent_htable *swhash = &per_cpu(swevent_htable, cpu);
9437
9438         mutex_lock(&swhash->hlist_mutex);
9439         if (swhash->hlist_refcount > 0) {
9440                 struct swevent_hlist *hlist;
9441
9442                 hlist = kzalloc_node(sizeof(*hlist), GFP_KERNEL, cpu_to_node(cpu));
9443                 WARN_ON(!hlist);
9444                 rcu_assign_pointer(swhash->swevent_hlist, hlist);
9445         }
9446         mutex_unlock(&swhash->hlist_mutex);
9447 }
9448
9449 #if defined CONFIG_HOTPLUG_CPU || defined CONFIG_KEXEC_CORE
9450 static void __perf_event_exit_context(void *__info)
9451 {
9452         struct remove_event re = { .detach_group = true };
9453         struct perf_event_context *ctx = __info;
9454
9455         rcu_read_lock();
9456         list_for_each_entry_rcu(re.event, &ctx->event_list, event_entry)
9457                 __perf_remove_from_context(&re);
9458         rcu_read_unlock();
9459 }
9460
9461 static void perf_event_exit_cpu_context(int cpu)
9462 {
9463         struct perf_event_context *ctx;
9464         struct pmu *pmu;
9465         int idx;
9466
9467         idx = srcu_read_lock(&pmus_srcu);
9468         list_for_each_entry_rcu(pmu, &pmus, entry) {
9469                 ctx = &per_cpu_ptr(pmu->pmu_cpu_context, cpu)->ctx;
9470
9471                 mutex_lock(&ctx->mutex);
9472                 smp_call_function_single(cpu, __perf_event_exit_context, ctx, 1);
9473                 mutex_unlock(&ctx->mutex);
9474         }
9475         srcu_read_unlock(&pmus_srcu, idx);
9476 }
9477
9478 static void perf_event_exit_cpu(int cpu)
9479 {
9480         perf_event_exit_cpu_context(cpu);
9481 }
9482 #else
9483 static inline void perf_event_exit_cpu(int cpu) { }
9484 #endif
9485
9486 static int
9487 perf_reboot(struct notifier_block *notifier, unsigned long val, void *v)
9488 {
9489         int cpu;
9490
9491         for_each_online_cpu(cpu)
9492                 perf_event_exit_cpu(cpu);
9493
9494         return NOTIFY_OK;
9495 }
9496
9497 /*
9498  * Run the perf reboot notifier at the very last possible moment so that
9499  * the generic watchdog code runs as long as possible.
9500  */
9501 static struct notifier_block perf_reboot_notifier = {
9502         .notifier_call = perf_reboot,
9503         .priority = INT_MIN,
9504 };
9505
9506 static int
9507 perf_cpu_notify(struct notifier_block *self, unsigned long action, void *hcpu)
9508 {
9509         unsigned int cpu = (long)hcpu;
9510
9511         switch (action & ~CPU_TASKS_FROZEN) {
9512
9513         case CPU_UP_PREPARE:
9514         case CPU_DOWN_FAILED:
9515                 perf_event_init_cpu(cpu);
9516                 break;
9517
9518         case CPU_UP_CANCELED:
9519         case CPU_DOWN_PREPARE:
9520                 perf_event_exit_cpu(cpu);
9521                 break;
9522         default:
9523                 break;
9524         }
9525
9526         return NOTIFY_OK;
9527 }
9528
9529 void __init perf_event_init(void)
9530 {
9531         int ret;
9532
9533         idr_init(&pmu_idr);
9534
9535         perf_event_init_all_cpus();
9536         init_srcu_struct(&pmus_srcu);
9537         perf_pmu_register(&perf_swevent, "software", PERF_TYPE_SOFTWARE);
9538         perf_pmu_register(&perf_cpu_clock, NULL, -1);
9539         perf_pmu_register(&perf_task_clock, NULL, -1);
9540         perf_tp_register();
9541         perf_cpu_notifier(perf_cpu_notify);
9542         register_reboot_notifier(&perf_reboot_notifier);
9543
9544         ret = init_hw_breakpoint();
9545         WARN(ret, "hw_breakpoint initialization failed with: %d", ret);
9546
9547         /* do not patch jump label more than once per second */
9548         jump_label_rate_limit(&perf_sched_events, HZ);
9549
9550         /*
9551          * Build time assertion that we keep the data_head at the intended
9552          * location.  IOW, validation we got the __reserved[] size right.
9553          */
9554         BUILD_BUG_ON((offsetof(struct perf_event_mmap_page, data_head))
9555                      != 1024);
9556 }
9557
9558 ssize_t perf_event_sysfs_show(struct device *dev, struct device_attribute *attr,
9559                               char *page)
9560 {
9561         struct perf_pmu_events_attr *pmu_attr =
9562                 container_of(attr, struct perf_pmu_events_attr, attr);
9563
9564         if (pmu_attr->event_str)
9565                 return sprintf(page, "%s\n", pmu_attr->event_str);
9566
9567         return 0;
9568 }
9569
9570 static int __init perf_event_sysfs_init(void)
9571 {
9572         struct pmu *pmu;
9573         int ret;
9574
9575         mutex_lock(&pmus_lock);
9576
9577         ret = bus_register(&pmu_bus);
9578         if (ret)
9579                 goto unlock;
9580
9581         list_for_each_entry(pmu, &pmus, entry) {
9582                 if (!pmu->name || pmu->type < 0)
9583                         continue;
9584
9585                 ret = pmu_dev_alloc(pmu);
9586                 WARN(ret, "Failed to register pmu: %s, reason %d\n", pmu->name, ret);
9587         }
9588         pmu_bus_running = 1;
9589         ret = 0;
9590
9591 unlock:
9592         mutex_unlock(&pmus_lock);
9593
9594         return ret;
9595 }
9596 device_initcall(perf_event_sysfs_init);
9597
9598 #ifdef CONFIG_CGROUP_PERF
9599 static struct cgroup_subsys_state *
9600 perf_cgroup_css_alloc(struct cgroup_subsys_state *parent_css)
9601 {
9602         struct perf_cgroup *jc;
9603
9604         jc = kzalloc(sizeof(*jc), GFP_KERNEL);
9605         if (!jc)
9606                 return ERR_PTR(-ENOMEM);
9607
9608         jc->info = alloc_percpu(struct perf_cgroup_info);
9609         if (!jc->info) {
9610                 kfree(jc);
9611                 return ERR_PTR(-ENOMEM);
9612         }
9613
9614         return &jc->css;
9615 }
9616
9617 static void perf_cgroup_css_free(struct cgroup_subsys_state *css)
9618 {
9619         struct perf_cgroup *jc = container_of(css, struct perf_cgroup, css);
9620
9621         free_percpu(jc->info);
9622         kfree(jc);
9623 }
9624
9625 static int __perf_cgroup_move(void *info)
9626 {
9627         struct task_struct *task = info;
9628         rcu_read_lock();
9629         perf_cgroup_switch(task, PERF_CGROUP_SWOUT | PERF_CGROUP_SWIN);
9630         rcu_read_unlock();
9631         return 0;
9632 }
9633
9634 static void perf_cgroup_attach(struct cgroup_taskset *tset)
9635 {
9636         struct task_struct *task;
9637         struct cgroup_subsys_state *css;
9638
9639         cgroup_taskset_for_each(task, css, tset)
9640                 task_function_call(task, __perf_cgroup_move, task);
9641 }
9642
9643 struct cgroup_subsys perf_event_cgrp_subsys = {
9644         .css_alloc      = perf_cgroup_css_alloc,
9645         .css_free       = perf_cgroup_css_free,
9646         .attach         = perf_cgroup_attach,
9647 };
9648 #endif /* CONFIG_CGROUP_PERF */