drivers/block/rbd.c

   1 /*
   2    rbd.c -- Export ceph rados objects as a Linux block device
   3
   4
   5    based on drivers/block/osdblk.c:
   6
   7    Copyright 2009 Red Hat, Inc.
   8
   9    This program is free software; you can redistribute it and/or modify
  10    it under the terms of the GNU General Public License as published by
  11    the Free Software Foundation.
  12
  13    This program is distributed in the hope that it will be useful,
  14    but WITHOUT ANY WARRANTY; without even the implied warranty of
  15    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  16    GNU General Public License for more details.
  17
  18    You should have received a copy of the GNU General Public License
  19    along with this program; see the file COPYING.  If not, write to
  20    the Free Software Foundation, 675 Mass Ave, Cambridge, MA 02139, USA.
  21
  22
  23
  24    For usage instructions, please refer to:
  25
  26                  Documentation/ABI/testing/sysfs-bus-rbd
  27
  28  */
  29
  30 #include <linux/ceph/libceph.h>
  31 #include <linux/ceph/osd_client.h>
  32 #include <linux/ceph/mon_client.h>
  33 #include <linux/ceph/decode.h>
  34 #include <linux/parser.h>
  35
  36 #include <linux/kernel.h>
  37 #include <linux/device.h>
  38 #include <linux/module.h>
  39 #include <linux/fs.h>
  40 #include <linux/blkdev.h>
  41
  42 #include "rbd_types.h"
  43
  44 #define RBD_DEBUG       /* Activate rbd_assert() calls */
  45
  46 /*
  47  * The basic unit of block I/O is a sector.  It is interpreted in a
  48  * number of contexts in Linux (blk, bio, genhd), but the default is
  49  * universally 512 bytes.  These symbols are just slightly more
  50  * meaningful than the bare numbers they represent.
  51  */
  52 #define SECTOR_SHIFT    9
  53 #define SECTOR_SIZE     (1ULL << SECTOR_SHIFT)
  54
  55 #define RBD_DRV_NAME "rbd"
  56 #define RBD_DRV_NAME_LONG "rbd (rados block device)"
  57
  58 #define RBD_MINORS_PER_MAJOR    256             /* max minors per blkdev */
  59
  60 #define RBD_SNAP_DEV_NAME_PREFIX        "snap_"
  61 #define RBD_MAX_SNAP_NAME_LEN   \
  62                         (NAME_MAX - (sizeof (RBD_SNAP_DEV_NAME_PREFIX) - 1))
  63
  64 #define RBD_MAX_SNAP_COUNT      510     /* allows max snapc to fit in 4KB */
  65
  66 #define RBD_SNAP_HEAD_NAME      "-"
  67
  68 /* This allows a single page to hold an image name sent by OSD */
  69 #define RBD_IMAGE_NAME_LEN_MAX  (PAGE_SIZE - sizeof (__le32) - 1)
  70 #define RBD_IMAGE_ID_LEN_MAX    64
  71
  72 #define RBD_OBJ_PREFIX_LEN_MAX  64
  73
  74 /* Feature bits */
  75
  76 #define RBD_FEATURE_LAYERING      1
  77
  78 /* Features supported by this (client software) implementation. */
  79
  80 #define RBD_FEATURES_ALL          (0)
  81
  82 /*
  83  * An RBD device name will be "rbd#", where the "rbd" comes from
  84  * RBD_DRV_NAME above, and # is a unique integer identifier.
  85  * MAX_INT_FORMAT_WIDTH is used in ensuring DEV_NAME_LEN is big
  86  * enough to hold all possible device names.
  87  */
  88 #define DEV_NAME_LEN            32
  89 #define MAX_INT_FORMAT_WIDTH    ((5 * sizeof (int)) / 2 + 1)
  90
  91 /*
  92  * block device image metadata (in-memory version)
  93  */
  94 struct rbd_image_header {
  95         /* These four fields never change for a given rbd image */
  96         char *object_prefix;
  97         u64 features;
  98         __u8 obj_order;
  99         __u8 crypt_type;
 100         __u8 comp_type;
 101
 102         /* The remaining fields need to be updated occasionally */
 103         u64 image_size;
 104         struct ceph_snap_context *snapc;
 105         char *snap_names;
 106         u64 *snap_sizes;
 107
 108         u64 obj_version;
 109 };
 110
 111 /*
 112  * An rbd image specification.
 113  *
 114  * The tuple (pool_id, image_id, snap_id) is sufficient to uniquely
 115  * identify an image.  Each rbd_dev structure includes a pointer to
 116  * an rbd_spec structure that encapsulates this identity.
 117  *
 118  * Each of the id's in an rbd_spec has an associated name.  For a
 119  * user-mapped image, the names are supplied and the id's associated
 120  * with them are looked up.  For a layered image, a parent image is
 121  * defined by the tuple, and the names are looked up.
 122  *
 123  * An rbd_dev structure contains a parent_spec pointer which is
 124  * non-null if the image it represents is a child in a layered
 125  * image.  This pointer will refer to the rbd_spec structure used
 126  * by the parent rbd_dev for its own identity (i.e., the structure
 127  * is shared between the parent and child).
 128  *
 129  * Since these structures are populated once, during the discovery
 130  * phase of image construction, they are effectively immutable so
 131  * we make no effort to synchronize access to them.
 132  *
 133  * Note that code herein does not assume the image name is known (it
 134  * could be a null pointer).
 135  */
 136 struct rbd_spec {
 137         u64             pool_id;
 138         char            *pool_name;
 139
 140         char            *image_id;
 141         char            *image_name;
 142
 143         u64             snap_id;
 144         char            *snap_name;
 145
 146         struct kref     kref;
 147 };
 148
 149 /*
 150  * an instance of the client.  multiple devices may share an rbd client.
 151  */
 152 struct rbd_client {
 153         struct ceph_client      *client;
 154         struct kref             kref;
 155         struct list_head        node;
 156 };
 157
 158 struct rbd_img_request;
 159 typedef void (*rbd_img_callback_t)(struct rbd_img_request *);
 160
 161 #define BAD_WHICH       U32_MAX         /* Good which or bad which, which? */
 162
 163 struct rbd_obj_request;
 164 typedef void (*rbd_obj_callback_t)(struct rbd_obj_request *);
 165
 166 enum obj_request_type {
 167         OBJ_REQUEST_NODATA, OBJ_REQUEST_BIO, OBJ_REQUEST_PAGES
 168 };
 169
 170 struct rbd_obj_request {
 171         const char              *object_name;
 172         u64                     offset;         /* object start byte */
 173         u64                     length;         /* bytes from offset */
 174
 175         struct rbd_img_request  *img_request;
 176         struct list_head        links;          /* img_request->obj_requests */
 177         u32                     which;          /* posn image request list */
 178
 179         enum obj_request_type   type;
 180         union {
 181                 struct bio      *bio_list;
 182                 struct {
 183                         struct page     **pages;
 184                         u32             page_count;
 185                 };
 186         };
 187
 188         struct ceph_osd_request *osd_req;
 189
 190         u64                     xferred;        /* bytes transferred */
 191         u64                     version;
 192         int                     result;
 193         atomic_t                done;
 194
 195         rbd_obj_callback_t      callback;
 196         struct completion       completion;
 197
 198         struct kref             kref;
 199 };
 200
 201 struct rbd_img_request {
 202         struct request          *rq;
 203         struct rbd_device       *rbd_dev;
 204         u64                     offset; /* starting image byte offset */
 205         u64                     length; /* byte count from offset */
 206         bool                    write_request;  /* false for read */
 207         union {
 208                 struct ceph_snap_context *snapc;        /* for writes */
 209                 u64             snap_id;                /* for reads */
 210         };
 211         spinlock_t              completion_lock;/* protects next_completion */
 212         u32                     next_completion;
 213         rbd_img_callback_t      callback;
 214
 215         u32                     obj_request_count;
 216         struct list_head        obj_requests;   /* rbd_obj_request structs */
 217
 218         struct kref             kref;
 219 };
 220
 221 #define for_each_obj_request(ireq, oreq) \
 222         list_for_each_entry(oreq, &(ireq)->obj_requests, links)
 223 #define for_each_obj_request_from(ireq, oreq) \
 224         list_for_each_entry_from(oreq, &(ireq)->obj_requests, links)
 225 #define for_each_obj_request_safe(ireq, oreq, n) \
 226         list_for_each_entry_safe_reverse(oreq, n, &(ireq)->obj_requests, links)
 227
 228 struct rbd_snap {
 229         struct  device          dev;
 230         const char              *name;
 231         u64                     size;
 232         struct list_head        node;
 233         u64                     id;
 234         u64                     features;
 235 };
 236
 237 struct rbd_mapping {
 238         u64                     size;
 239         u64                     features;
 240         bool                    read_only;
 241 };
 242
 243 /*
 244  * a single device
 245  */
 246 struct rbd_device {
 247         int                     dev_id;         /* blkdev unique id */
 248
 249         int                     major;          /* blkdev assigned major */
 250         struct gendisk          *disk;          /* blkdev's gendisk and rq */
 251
 252         u32                     image_format;   /* Either 1 or 2 */
 253         struct rbd_client       *rbd_client;
 254
 255         char                    name[DEV_NAME_LEN]; /* blkdev name, e.g. rbd3 */
 256
 257         spinlock_t              lock;           /* queue, flags, open_count */
 258
 259         struct rbd_image_header header;
 260         unsigned long           flags;          /* possibly lock protected */
 261         struct rbd_spec         *spec;
 262
 263         char                    *header_name;
 264
 265         struct ceph_file_layout layout;
 266
 267         struct ceph_osd_event   *watch_event;
 268         struct rbd_obj_request  *watch_request;
 269
 270         struct rbd_spec         *parent_spec;
 271         u64                     parent_overlap;
 272
 273         /* protects updating the header */
 274         struct rw_semaphore     header_rwsem;
 275
 276         struct rbd_mapping      mapping;
 277
 278         struct list_head        node;
 279
 280         /* list of snapshots */
 281         struct list_head        snaps;
 282
 283         /* sysfs related */
 284         struct device           dev;
 285         unsigned long           open_count;     /* protected by lock */
 286 };
 287
 288 /*
 289  * Flag bits for rbd_dev->flags.  If atomicity is required,
 290  * rbd_dev->lock is used to protect access.
 291  *
 292  * Currently, only the "removing" flag (which is coupled with the
 293  * "open_count" field) requires atomic access.
 294  */
 295 enum rbd_dev_flags {
 296         RBD_DEV_FLAG_EXISTS,    /* mapped snapshot has not been deleted */
 297         RBD_DEV_FLAG_REMOVING,  /* this mapping is being removed */
 298 };
 299
 300 static DEFINE_MUTEX(ctl_mutex);   /* Serialize open/close/setup/teardown */
 301
 302 static LIST_HEAD(rbd_dev_list);    /* devices */
 303 static DEFINE_SPINLOCK(rbd_dev_list_lock);
 304
 305 static LIST_HEAD(rbd_client_list);              /* clients */
 306 static DEFINE_SPINLOCK(rbd_client_list_lock);
 307
 308 static int rbd_dev_snaps_update(struct rbd_device *rbd_dev);
 309 static int rbd_dev_snaps_register(struct rbd_device *rbd_dev);
 310
 311 static void rbd_dev_release(struct device *dev);
 312 static void rbd_remove_snap_dev(struct rbd_snap *snap);
 313
 314 static ssize_t rbd_add(struct bus_type *bus, const char *buf,
 315                        size_t count);
 316 static ssize_t rbd_remove(struct bus_type *bus, const char *buf,
 317                           size_t count);
 318
 319 static struct bus_attribute rbd_bus_attrs[] = {
 320         __ATTR(add, S_IWUSR, NULL, rbd_add),
 321         __ATTR(remove, S_IWUSR, NULL, rbd_remove),
 322         __ATTR_NULL
 323 };
 324
 325 static struct bus_type rbd_bus_type = {
 326         .name           = "rbd",
 327         .bus_attrs      = rbd_bus_attrs,
 328 };
 329
 330 static void rbd_root_dev_release(struct device *dev)
 331 {
 332 }
 333
 334 static struct device rbd_root_dev = {
 335         .init_name =    "rbd",
 336         .release =      rbd_root_dev_release,
 337 };
 338
 339 static __printf(2, 3)
 340 void rbd_warn(struct rbd_device *rbd_dev, const char *fmt, ...)
 341 {
 342         struct va_format vaf;
 343         va_list args;
 344
 345         va_start(args, fmt);
 346         vaf.fmt = fmt;
 347         vaf.va = &args;
 348
 349         if (!rbd_dev)
 350                 printk(KERN_WARNING "%s: %pV\n", RBD_DRV_NAME, &vaf);
 351         else if (rbd_dev->disk)
 352                 printk(KERN_WARNING "%s: %s: %pV\n",
 353                         RBD_DRV_NAME, rbd_dev->disk->disk_name, &vaf);
 354         else if (rbd_dev->spec && rbd_dev->spec->image_name)
 355                 printk(KERN_WARNING "%s: image %s: %pV\n",
 356                         RBD_DRV_NAME, rbd_dev->spec->image_name, &vaf);
 357         else if (rbd_dev->spec && rbd_dev->spec->image_id)
 358                 printk(KERN_WARNING "%s: id %s: %pV\n",
 359                         RBD_DRV_NAME, rbd_dev->spec->image_id, &vaf);
 360         else    /* punt */
 361                 printk(KERN_WARNING "%s: rbd_dev %p: %pV\n",
 362                         RBD_DRV_NAME, rbd_dev, &vaf);
 363         va_end(args);
 364 }
 365
 366 #ifdef RBD_DEBUG
 367 #define rbd_assert(expr)                                                \
 368                 if (unlikely(!(expr))) {                                \
 369                         printk(KERN_ERR "\nAssertion failure in %s() "  \
 370                                                 "at line %d:\n\n"       \
 371                                         "\trbd_assert(%s);\n\n",        \
 372                                         __func__, __LINE__, #expr);     \
 373                         BUG();                                          \
 374                 }
 375 #else /* !RBD_DEBUG */
 376 #  define rbd_assert(expr)      ((void) 0)
 377 #endif /* !RBD_DEBUG */
 378
 379 static int rbd_dev_refresh(struct rbd_device *rbd_dev, u64 *hver);
 380 static int rbd_dev_v2_refresh(struct rbd_device *rbd_dev, u64 *hver);
 381
 382 static int rbd_open(struct block_device *bdev, fmode_t mode)
 383 {
 384         struct rbd_device *rbd_dev = bdev->bd_disk->private_data;
 385         bool removing = false;
 386
 387         if ((mode & FMODE_WRITE) && rbd_dev->mapping.read_only)
 388                 return -EROFS;
 389
 390         spin_lock_irq(&rbd_dev->lock);
 391         if (test_bit(RBD_DEV_FLAG_REMOVING, &rbd_dev->flags))
 392                 removing = true;
 393         else
 394                 rbd_dev->open_count++;
 395         spin_unlock_irq(&rbd_dev->lock);
 396         if (removing)
 397                 return -ENOENT;
 398
 399         mutex_lock_nested(&ctl_mutex, SINGLE_DEPTH_NESTING);
 400         (void) get_device(&rbd_dev->dev);
 401         set_device_ro(bdev, rbd_dev->mapping.read_only);
 402         mutex_unlock(&ctl_mutex);
 403
 404         return 0;
 405 }
 406
 407 static int rbd_release(struct gendisk *disk, fmode_t mode)
 408 {
 409         struct rbd_device *rbd_dev = disk->private_data;
 410         unsigned long open_count_before;
 411
 412         spin_lock_irq(&rbd_dev->lock);
 413         open_count_before = rbd_dev->open_count--;
 414         spin_unlock_irq(&rbd_dev->lock);
 415         rbd_assert(open_count_before > 0);
 416
 417         mutex_lock_nested(&ctl_mutex, SINGLE_DEPTH_NESTING);
 418         put_device(&rbd_dev->dev);
 419         mutex_unlock(&ctl_mutex);
 420
 421         return 0;
 422 }
 423
 424 static const struct block_device_operations rbd_bd_ops = {
 425         .owner                  = THIS_MODULE,
 426         .open                   = rbd_open,
 427         .release                = rbd_release,
 428 };
 429
 430 /*
 431  * Initialize an rbd client instance.
 432  * We own *ceph_opts.
 433  */
 434 static struct rbd_client *rbd_client_create(struct ceph_options *ceph_opts)
 435 {
 436         struct rbd_client *rbdc;
 437         int ret = -ENOMEM;
 438
 439         dout("%s:\n", __func__);
 440         rbdc = kmalloc(sizeof(struct rbd_client), GFP_KERNEL);
 441         if (!rbdc)
 442                 goto out_opt;
 443
 444         kref_init(&rbdc->kref);
 445         INIT_LIST_HEAD(&rbdc->node);
 446
 447         mutex_lock_nested(&ctl_mutex, SINGLE_DEPTH_NESTING);
 448
 449         rbdc->client = ceph_create_client(ceph_opts, rbdc, 0, 0);
 450         if (IS_ERR(rbdc->client))
 451                 goto out_mutex;
 452         ceph_opts = NULL; /* Now rbdc->client is responsible for ceph_opts */
 453
 454         ret = ceph_open_session(rbdc->client);
 455         if (ret < 0)
 456                 goto out_err;
 457
 458         spin_lock(&rbd_client_list_lock);
 459         list_add_tail(&rbdc->node, &rbd_client_list);
 460         spin_unlock(&rbd_client_list_lock);
 461
 462         mutex_unlock(&ctl_mutex);
 463         dout("%s: rbdc %p\n", __func__, rbdc);
 464
 465         return rbdc;
 466
 467 out_err:
 468         ceph_destroy_client(rbdc->client);
 469 out_mutex:
 470         mutex_unlock(&ctl_mutex);
 471         kfree(rbdc);
 472 out_opt:
 473         if (ceph_opts)
 474                 ceph_destroy_options(ceph_opts);
 475         dout("%s: error %d\n", __func__, ret);
 476
 477         return ERR_PTR(ret);
 478 }
 479
 480 /*
 481  * Find a ceph client with specific addr and configuration.  If
 482  * found, bump its reference count.
 483  */
 484 static struct rbd_client *rbd_client_find(struct ceph_options *ceph_opts)
 485 {
 486         struct rbd_client *client_node;
 487         bool found = false;
 488
 489         if (ceph_opts->flags & CEPH_OPT_NOSHARE)
 490                 return NULL;
 491
 492         spin_lock(&rbd_client_list_lock);
 493         list_for_each_entry(client_node, &rbd_client_list, node) {
 494                 if (!ceph_compare_options(ceph_opts, client_node->client)) {
 495                         kref_get(&client_node->kref);
 496                         found = true;
 497                         break;
 498                 }
 499         }
 500         spin_unlock(&rbd_client_list_lock);
 501
 502         return found ? client_node : NULL;
 503 }
 504
 505 /*
 506  * mount options
 507  */
 508 enum {
 509         Opt_last_int,
 510         /* int args above */
 511         Opt_last_string,
 512         /* string args above */
 513         Opt_read_only,
 514         Opt_read_write,
 515         /* Boolean args above */
 516         Opt_last_bool,
 517 };
 518
 519 static match_table_t rbd_opts_tokens = {
 520         /* int args above */
 521         /* string args above */
 522         {Opt_read_only, "read_only"},
 523         {Opt_read_only, "ro"},          /* Alternate spelling */
 524         {Opt_read_write, "read_write"},
 525         {Opt_read_write, "rw"},         /* Alternate spelling */
 526         /* Boolean args above */
 527         {-1, NULL}
 528 };
 529
 530 struct rbd_options {
 531         bool    read_only;
 532 };
 533
 534 #define RBD_READ_ONLY_DEFAULT   false
 535
 536 static int parse_rbd_opts_token(char *c, void *private)
 537 {
 538         struct rbd_options *rbd_opts = private;
 539         substring_t argstr[MAX_OPT_ARGS];
 540         int token, intval, ret;
 541
 542         token = match_token(c, rbd_opts_tokens, argstr);
 543         if (token < 0)
 544                 return -EINVAL;
 545
 546         if (token < Opt_last_int) {
 547                 ret = match_int(&argstr[0], &intval);
 548                 if (ret < 0) {
 549                         pr_err("bad mount option arg (not int) "
 550                                "at '%s'\n", c);
 551                         return ret;
 552                 }
 553                 dout("got int token %d val %d\n", token, intval);
 554         } else if (token > Opt_last_int && token < Opt_last_string) {
 555                 dout("got string token %d val %s\n", token,
 556                      argstr[0].from);
 557         } else if (token > Opt_last_string && token < Opt_last_bool) {
 558                 dout("got Boolean token %d\n", token);
 559         } else {
 560                 dout("got token %d\n", token);
 561         }
 562
 563         switch (token) {
 564         case Opt_read_only:
 565                 rbd_opts->read_only = true;
 566                 break;
 567         case Opt_read_write:
 568                 rbd_opts->read_only = false;
 569                 break;
 570         default:
 571                 rbd_assert(false);
 572                 break;
 573         }
 574         return 0;
 575 }
 576
 577 /*
 578  * Get a ceph client with specific addr and configuration, if one does
 579  * not exist create it.
 580  */
 581 static struct rbd_client *rbd_get_client(struct ceph_options *ceph_opts)
 582 {
 583         struct rbd_client *rbdc;
 584
 585         rbdc = rbd_client_find(ceph_opts);
 586         if (rbdc)       /* using an existing client */
 587                 ceph_destroy_options(ceph_opts);
 588         else
 589                 rbdc = rbd_client_create(ceph_opts);
 590
 591         return rbdc;
 592 }
 593
 594 /*
 595  * Destroy ceph client
 596  *
 597  * Caller must hold rbd_client_list_lock.
 598  */
 599 static void rbd_client_release(struct kref *kref)
 600 {
 601         struct rbd_client *rbdc = container_of(kref, struct rbd_client, kref);
 602
 603         dout("%s: rbdc %p\n", __func__, rbdc);
 604         spin_lock(&rbd_client_list_lock);
 605         list_del(&rbdc->node);
 606         spin_unlock(&rbd_client_list_lock);
 607
 608         ceph_destroy_client(rbdc->client);
 609         kfree(rbdc);
 610 }
 611
 612 /*
 613  * Drop reference to ceph client node. If it's not referenced anymore, release
 614  * it.
 615  */
 616 static void rbd_put_client(struct rbd_client *rbdc)
 617 {
 618         if (rbdc)
 619                 kref_put(&rbdc->kref, rbd_client_release);
 620 }
 621
 622 static bool rbd_image_format_valid(u32 image_format)
 623 {
 624         return image_format == 1 || image_format == 2;
 625 }
 626
 627 static bool rbd_dev_ondisk_valid(struct rbd_image_header_ondisk *ondisk)
 628 {
 629         size_t size;
 630         u32 snap_count;
 631
 632         /* The header has to start with the magic rbd header text */
 633         if (memcmp(&ondisk->text, RBD_HEADER_TEXT, sizeof (RBD_HEADER_TEXT)))
 634                 return false;
 635
 636         /* The bio layer requires at least sector-sized I/O */
 637
 638         if (ondisk->options.order < SECTOR_SHIFT)
 639                 return false;
 640
 641         /* If we use u64 in a few spots we may be able to loosen this */
 642
 643         if (ondisk->options.order > 8 * sizeof (int) - 1)
 644                 return false;
 645
 646         /*
 647          * The size of a snapshot header has to fit in a size_t, and
 648          * that limits the number of snapshots.
 649          */
 650         snap_count = le32_to_cpu(ondisk->snap_count);
 651         size = SIZE_MAX - sizeof (struct ceph_snap_context);
 652         if (snap_count > size / sizeof (__le64))
 653                 return false;
 654
 655         /*
 656          * Not only that, but the size of the entire the snapshot
 657          * header must also be representable in a size_t.
 658          */
 659         size -= snap_count * sizeof (__le64);
 660         if ((u64) size < le64_to_cpu(ondisk->snap_names_len))
 661                 return false;
 662
 663         return true;
 664 }
 665
 666 /*
 667  * Create a new header structure, translate header format from the on-disk
 668  * header.
 669  */
 670 static int rbd_header_from_disk(struct rbd_image_header *header,
 671                                  struct rbd_image_header_ondisk *ondisk)
 672 {
 673         u32 snap_count;
 674         size_t len;
 675         size_t size;
 676         u32 i;
 677
 678         memset(header, 0, sizeof (*header));
 679
 680         snap_count = le32_to_cpu(ondisk->snap_count);
 681
 682         len = strnlen(ondisk->object_prefix, sizeof (ondisk->object_prefix));
 683         header->object_prefix = kmalloc(len + 1, GFP_KERNEL);
 684         if (!header->object_prefix)
 685                 return -ENOMEM;
 686         memcpy(header->object_prefix, ondisk->object_prefix, len);
 687         header->object_prefix[len] = '\0';
 688
 689         if (snap_count) {
 690                 u64 snap_names_len = le64_to_cpu(ondisk->snap_names_len);
 691
 692                 /* Save a copy of the snapshot names */
 693
 694                 if (snap_names_len > (u64) SIZE_MAX)
 695                         return -EIO;
 696                 header->snap_names = kmalloc(snap_names_len, GFP_KERNEL);
 697                 if (!header->snap_names)
 698                         goto out_err;
 699                 /*
 700                  * Note that rbd_dev_v1_header_read() guarantees
 701                  * the ondisk buffer we're working with has
 702                  * snap_names_len bytes beyond the end of the
 703                  * snapshot id array, this memcpy() is safe.
 704                  */
 705                 memcpy(header->snap_names, &ondisk->snaps[snap_count],
 706                         snap_names_len);
 707
 708                 /* Record each snapshot's size */
 709
 710                 size = snap_count * sizeof (*header->snap_sizes);
 711                 header->snap_sizes = kmalloc(size, GFP_KERNEL);
 712                 if (!header->snap_sizes)
 713                         goto out_err;
 714                 for (i = 0; i < snap_count; i++)
 715                         header->snap_sizes[i] =
 716                                 le64_to_cpu(ondisk->snaps[i].image_size);
 717         } else {
 718                 WARN_ON(ondisk->snap_names_len);
 719                 header->snap_names = NULL;
 720                 header->snap_sizes = NULL;
 721         }
 722
 723         header->features = 0;   /* No features support in v1 images */
 724         header->obj_order = ondisk->options.order;
 725         header->crypt_type = ondisk->options.crypt_type;
 726         header->comp_type = ondisk->options.comp_type;
 727
 728         /* Allocate and fill in the snapshot context */
 729
 730         header->image_size = le64_to_cpu(ondisk->image_size);
 731         size = sizeof (struct ceph_snap_context);
 732         size += snap_count * sizeof (header->snapc->snaps[0]);
 733         header->snapc = kzalloc(size, GFP_KERNEL);
 734         if (!header->snapc)
 735                 goto out_err;
 736
 737         atomic_set(&header->snapc->nref, 1);
 738         header->snapc->seq = le64_to_cpu(ondisk->snap_seq);
 739         header->snapc->num_snaps = snap_count;
 740         for (i = 0; i < snap_count; i++)
 741                 header->snapc->snaps[i] =
 742                         le64_to_cpu(ondisk->snaps[i].id);
 743
 744         return 0;
 745
 746 out_err:
 747         kfree(header->snap_sizes);
 748         header->snap_sizes = NULL;
 749         kfree(header->snap_names);
 750         header->snap_names = NULL;
 751         kfree(header->object_prefix);
 752         header->object_prefix = NULL;
 753
 754         return -ENOMEM;
 755 }
 756
 757 static const char *rbd_snap_name(struct rbd_device *rbd_dev, u64 snap_id)
 758 {
 759         struct rbd_snap *snap;
 760
 761         if (snap_id == CEPH_NOSNAP)
 762                 return RBD_SNAP_HEAD_NAME;
 763
 764         list_for_each_entry(snap, &rbd_dev->snaps, node)
 765                 if (snap_id == snap->id)
 766                         return snap->name;
 767
 768         return NULL;
 769 }
 770
 771 static int snap_by_name(struct rbd_device *rbd_dev, const char *snap_name)
 772 {
 773
 774         struct rbd_snap *snap;
 775
 776         list_for_each_entry(snap, &rbd_dev->snaps, node) {
 777                 if (!strcmp(snap_name, snap->name)) {
 778                         rbd_dev->spec->snap_id = snap->id;
 779                         rbd_dev->mapping.size = snap->size;
 780                         rbd_dev->mapping.features = snap->features;
 781
 782                         return 0;
 783                 }
 784         }
 785
 786         return -ENOENT;
 787 }
 788
 789 static int rbd_dev_set_mapping(struct rbd_device *rbd_dev)
 790 {
 791         int ret;
 792
 793         if (!memcmp(rbd_dev->spec->snap_name, RBD_SNAP_HEAD_NAME,
 794                     sizeof (RBD_SNAP_HEAD_NAME))) {
 795                 rbd_dev->spec->snap_id = CEPH_NOSNAP;
 796                 rbd_dev->mapping.size = rbd_dev->header.image_size;
 797                 rbd_dev->mapping.features = rbd_dev->header.features;
 798                 ret = 0;
 799         } else {
 800                 ret = snap_by_name(rbd_dev, rbd_dev->spec->snap_name);
 801                 if (ret < 0)
 802                         goto done;
 803                 rbd_dev->mapping.read_only = true;
 804         }
 805         set_bit(RBD_DEV_FLAG_EXISTS, &rbd_dev->flags);
 806
 807 done:
 808         return ret;
 809 }
 810
 811 static void rbd_header_free(struct rbd_image_header *header)
 812 {
 813         kfree(header->object_prefix);
 814         header->object_prefix = NULL;
 815         kfree(header->snap_sizes);
 816         header->snap_sizes = NULL;
 817         kfree(header->snap_names);
 818         header->snap_names = NULL;
 819         ceph_put_snap_context(header->snapc);
 820         header->snapc = NULL;
 821 }
 822
 823 static const char *rbd_segment_name(struct rbd_device *rbd_dev, u64 offset)
 824 {
 825         char *name;
 826         u64 segment;
 827         int ret;
 828
 829         name = kmalloc(MAX_OBJ_NAME_SIZE + 1, GFP_NOIO);
 830         if (!name)
 831                 return NULL;
 832         segment = offset >> rbd_dev->header.obj_order;
 833         ret = snprintf(name, MAX_OBJ_NAME_SIZE + 1, "%s.%012llx",
 834                         rbd_dev->header.object_prefix, segment);
 835         if (ret < 0 || ret > MAX_OBJ_NAME_SIZE) {
 836                 pr_err("error formatting segment name for #%llu (%d)\n",
 837                         segment, ret);
 838                 kfree(name);
 839                 name = NULL;
 840         }
 841
 842         return name;
 843 }
 844
 845 static u64 rbd_segment_offset(struct rbd_device *rbd_dev, u64 offset)
 846 {
 847         u64 segment_size = (u64) 1 << rbd_dev->header.obj_order;
 848
 849         return offset & (segment_size - 1);
 850 }
 851
 852 static u64 rbd_segment_length(struct rbd_device *rbd_dev,
 853                                 u64 offset, u64 length)
 854 {
 855         u64 segment_size = (u64) 1 << rbd_dev->header.obj_order;
 856
 857         offset &= segment_size - 1;
 858
 859         rbd_assert(length <= U64_MAX - offset);
 860         if (offset + length > segment_size)
 861                 length = segment_size - offset;
 862
 863         return length;
 864 }
 865
 866 /*
 867  * returns the size of an object in the image
 868  */
 869 static u64 rbd_obj_bytes(struct rbd_image_header *header)
 870 {
 871         return 1 << header->obj_order;
 872 }
 873
 874 /*
 875  * bio helpers
 876  */
 877
 878 static void bio_chain_put(struct bio *chain)
 879 {
 880         struct bio *tmp;
 881
 882         while (chain) {
 883                 tmp = chain;
 884                 chain = chain->bi_next;
 885                 bio_put(tmp);
 886         }
 887 }
 888
 889 /*
 890  * zeros a bio chain, starting at specific offset
 891  */
 892 static void zero_bio_chain(struct bio *chain, int start_ofs)
 893 {
 894         struct bio_vec *bv;
 895         unsigned long flags;
 896         void *buf;
 897         int i;
 898         int pos = 0;
 899
 900         while (chain) {
 901                 bio_for_each_segment(bv, chain, i) {
 902                         if (pos + bv->bv_len > start_ofs) {
 903                                 int remainder = max(start_ofs - pos, 0);
 904                                 buf = bvec_kmap_irq(bv, &flags);
 905                                 memset(buf + remainder, 0,
 906                                        bv->bv_len - remainder);
 907                                 bvec_kunmap_irq(buf, &flags);
 908                         }
 909                         pos += bv->bv_len;
 910                 }
 911
 912                 chain = chain->bi_next;
 913         }
 914 }
 915
 916 /*
 917  * Clone a portion of a bio, starting at the given byte offset
 918  * and continuing for the number of bytes indicated.
 919  */
 920 static struct bio *bio_clone_range(struct bio *bio_src,
 921                                         unsigned int offset,
 922                                         unsigned int len,
 923                                         gfp_t gfpmask)
 924 {
 925         struct bio_vec *bv;
 926         unsigned int resid;
 927         unsigned short idx;
 928         unsigned int voff;
 929         unsigned short end_idx;
 930         unsigned short vcnt;
 931         struct bio *bio;
 932
 933         /* Handle the easy case for the caller */
 934
 935         if (!offset && len == bio_src->bi_size)
 936                 return bio_clone(bio_src, gfpmask);
 937
 938         if (WARN_ON_ONCE(!len))
 939                 return NULL;
 940         if (WARN_ON_ONCE(len > bio_src->bi_size))
 941                 return NULL;
 942         if (WARN_ON_ONCE(offset > bio_src->bi_size - len))
 943                 return NULL;
 944
 945         /* Find first affected segment... */
 946
 947         resid = offset;
 948         __bio_for_each_segment(bv, bio_src, idx, 0) {
 949                 if (resid < bv->bv_len)
 950                         break;
 951                 resid -= bv->bv_len;
 952         }
 953         voff = resid;
 954
 955         /* ...and the last affected segment */
 956
 957         resid += len;
 958         __bio_for_each_segment(bv, bio_src, end_idx, idx) {
 959                 if (resid <= bv->bv_len)
 960                         break;
 961                 resid -= bv->bv_len;
 962         }
 963         vcnt = end_idx - idx + 1;
 964
 965         /* Build the clone */
 966
 967         bio = bio_alloc(gfpmask, (unsigned int) vcnt);
 968         if (!bio)
 969                 return NULL;    /* ENOMEM */
 970
 971         bio->bi_bdev = bio_src->bi_bdev;
 972         bio->bi_sector = bio_src->bi_sector + (offset >> SECTOR_SHIFT);
 973         bio->bi_rw = bio_src->bi_rw;
 974         bio->bi_flags |= 1 << BIO_CLONED;
 975
 976         /*
 977          * Copy over our part of the bio_vec, then update the first
 978          * and last (or only) entries.
 979          */
 980         memcpy(&bio->bi_io_vec[0], &bio_src->bi_io_vec[idx],
 981                         vcnt * sizeof (struct bio_vec));
 982         bio->bi_io_vec[0].bv_offset += voff;
 983         if (vcnt > 1) {
 984                 bio->bi_io_vec[0].bv_len -= voff;
 985                 bio->bi_io_vec[vcnt - 1].bv_len = resid;
 986         } else {
 987                 bio->bi_io_vec[0].bv_len = len;
 988         }
 989
 990         bio->bi_vcnt = vcnt;
 991         bio->bi_size = len;
 992         bio->bi_idx = 0;
 993
 994         return bio;
 995 }
 996
 997 /*
 998  * Clone a portion of a bio chain, starting at the given byte offset
 999  * into the first bio in the source chain and continuing for the
1000  * number of bytes indicated.  The result is another bio chain of
1001  * exactly the given length, or a null pointer on error.
1002  *
1003  * The bio_src and offset parameters are both in-out.  On entry they
1004  * refer to the first source bio and the offset into that bio where
1005  * the start of data to be cloned is located.
1006  *
1007  * On return, bio_src is updated to refer to the bio in the source
1008  * chain that contains first un-cloned byte, and *offset will
1009  * contain the offset of that byte within that bio.
1010  */
1011 static struct bio *bio_chain_clone_range(struct bio **bio_src,
1012                                         unsigned int *offset,
1013                                         unsigned int len,
1014                                         gfp_t gfpmask)
1015 {
1016         struct bio *bi = *bio_src;
1017         unsigned int off = *offset;
1018         struct bio *chain = NULL;
1019         struct bio **end;
1020
1021         /* Build up a chain of clone bios up to the limit */
1022
1023         if (!bi || off >= bi->bi_size || !len)
1024                 return NULL;            /* Nothing to clone */
1025
1026         end = &chain;
1027         while (len) {
1028                 unsigned int bi_size;
1029                 struct bio *bio;
1030
1031                 if (!bi) {
1032                         rbd_warn(NULL, "bio_chain exhausted with %u left", len);
1033                         goto out_err;   /* EINVAL; ran out of bio's */
1034                 }
1035                 bi_size = min_t(unsigned int, bi->bi_size - off, len);
1036                 bio = bio_clone_range(bi, off, bi_size, gfpmask);
1037                 if (!bio)
1038                         goto out_err;   /* ENOMEM */
1039
1040                 *end = bio;
1041                 end = &bio->bi_next;
1042
1043                 off += bi_size;
1044                 if (off == bi->bi_size) {
1045                         bi = bi->bi_next;
1046                         off = 0;
1047                 }
1048                 len -= bi_size;
1049         }
1050         *bio_src = bi;
1051         *offset = off;
1052
1053         return chain;
1054 out_err:
1055         bio_chain_put(chain);
1056
1057         return NULL;
1058 }
1059
1060 static void rbd_obj_request_get(struct rbd_obj_request *obj_request)
1061 {
1062         dout("%s: obj %p (was %d)\n", __func__, obj_request,
1063                 atomic_read(&obj_request->kref.refcount));
1064         kref_get(&obj_request->kref);
1065 }
1066
1067 static void rbd_obj_request_destroy(struct kref *kref);
1068 static void rbd_obj_request_put(struct rbd_obj_request *obj_request)
1069 {
1070         rbd_assert(obj_request != NULL);
1071         dout("%s: obj %p (was %d)\n", __func__, obj_request,
1072                 atomic_read(&obj_request->kref.refcount));
1073         kref_put(&obj_request->kref, rbd_obj_request_destroy);
1074 }
1075
1076 static void rbd_img_request_get(struct rbd_img_request *img_request)
1077 {
1078         dout("%s: img %p (was %d)\n", __func__, img_request,
1079                 atomic_read(&img_request->kref.refcount));
1080         kref_get(&img_request->kref);
1081 }
1082
1083 static void rbd_img_request_destroy(struct kref *kref);
1084 static void rbd_img_request_put(struct rbd_img_request *img_request)
1085 {
1086         rbd_assert(img_request != NULL);
1087         dout("%s: img %p (was %d)\n", __func__, img_request,
1088                 atomic_read(&img_request->kref.refcount));
1089         kref_put(&img_request->kref, rbd_img_request_destroy);
1090 }
1091
1092 static inline void rbd_img_obj_request_add(struct rbd_img_request *img_request,
1093                                         struct rbd_obj_request *obj_request)
1094 {
1095         rbd_assert(obj_request->img_request == NULL);
1096
1097         rbd_obj_request_get(obj_request);
1098         obj_request->img_request = img_request;
1099         obj_request->which = img_request->obj_request_count;
1100         rbd_assert(obj_request->which != BAD_WHICH);
1101         img_request->obj_request_count++;
1102         list_add_tail(&obj_request->links, &img_request->obj_requests);
1103         dout("%s: img %p obj %p w=%u\n", __func__, img_request, obj_request,
1104                 obj_request->which);
1105 }
1106
1107 static inline void rbd_img_obj_request_del(struct rbd_img_request *img_request,
1108                                         struct rbd_obj_request *obj_request)
1109 {
1110         rbd_assert(obj_request->which != BAD_WHICH);
1111
1112         dout("%s: img %p obj %p w=%u\n", __func__, img_request, obj_request,
1113                 obj_request->which);
1114         list_del(&obj_request->links);
1115         rbd_assert(img_request->obj_request_count > 0);
1116         img_request->obj_request_count--;
1117         rbd_assert(obj_request->which == img_request->obj_request_count);
1118         obj_request->which = BAD_WHICH;
1119         rbd_assert(obj_request->img_request == img_request);
1120         obj_request->img_request = NULL;
1121         obj_request->callback = NULL;
1122         rbd_obj_request_put(obj_request);
1123 }
1124
1125 static bool obj_request_type_valid(enum obj_request_type type)
1126 {
1127         switch (type) {
1128         case OBJ_REQUEST_NODATA:
1129         case OBJ_REQUEST_BIO:
1130         case OBJ_REQUEST_PAGES:
1131                 return true;
1132         default:
1133                 return false;
1134         }
1135 }
1136
1137 static int rbd_obj_request_submit(struct ceph_osd_client *osdc,
1138                                 struct rbd_obj_request *obj_request)
1139 {
1140         dout("%s: osdc %p obj %p\n", __func__, osdc, obj_request);
1141
1142         return ceph_osdc_start_request(osdc, obj_request->osd_req, false);
1143 }
1144
1145 static void rbd_img_request_complete(struct rbd_img_request *img_request)
1146 {
1147         dout("%s: img %p\n", __func__, img_request);
1148         if (img_request->callback)
1149                 img_request->callback(img_request);
1150         else
1151                 rbd_img_request_put(img_request);
1152 }
1153
1154 /* Caller is responsible for rbd_obj_request_destroy(obj_request) */
1155
1156 static int rbd_obj_request_wait(struct rbd_obj_request *obj_request)
1157 {
1158         dout("%s: obj %p\n", __func__, obj_request);
1159
1160         return wait_for_completion_interruptible(&obj_request->completion);
1161 }
1162
1163 static void obj_request_done_init(struct rbd_obj_request *obj_request)
1164 {
1165         atomic_set(&obj_request->done, 0);
1166         smp_wmb();
1167 }
1168
1169 static void obj_request_done_set(struct rbd_obj_request *obj_request)
1170 {
1171         int done;
1172
1173         done = atomic_inc_return(&obj_request->done);
1174         if (done > 1) {
1175                 struct rbd_img_request *img_request = obj_request->img_request;
1176                 struct rbd_device *rbd_dev;
1177
1178                 rbd_dev = img_request ? img_request->rbd_dev : NULL;
1179                 rbd_warn(rbd_dev, "obj_request %p was already done\n",
1180                         obj_request);
1181         }
1182 }
1183
1184 static bool obj_request_done_test(struct rbd_obj_request *obj_request)
1185 {
1186         smp_mb();
1187         return atomic_read(&obj_request->done) != 0;
1188 }
1189
1190 static void
1191 rbd_img_obj_request_read_callback(struct rbd_obj_request *obj_request)
1192 {
1193         dout("%s: obj %p img %p result %d %llu/%llu\n", __func__,
1194                 obj_request, obj_request->img_request, obj_request->result,
1195                 obj_request->xferred, obj_request->length);
1196         /*
1197          * ENOENT means a hole in the image.  We zero-fill the
1198          * entire length of the request.  A short read also implies
1199          * zero-fill to the end of the request.  Either way we
1200          * update the xferred count to indicate the whole request
1201          * was satisfied.
1202          */
1203         BUG_ON(obj_request->type != OBJ_REQUEST_BIO);
1204         if (obj_request->result == -ENOENT) {
1205                 zero_bio_chain(obj_request->bio_list, 0);
1206                 obj_request->result = 0;
1207                 obj_request->xferred = obj_request->length;
1208         } else if (obj_request->xferred < obj_request->length &&
1209                         !obj_request->result) {
1210                 zero_bio_chain(obj_request->bio_list, obj_request->xferred);
1211                 obj_request->xferred = obj_request->length;
1212         }
1213         obj_request_done_set(obj_request);
1214 }
1215
1216 static void rbd_obj_request_complete(struct rbd_obj_request *obj_request)
1217 {
1218         dout("%s: obj %p cb %p\n", __func__, obj_request,
1219                 obj_request->callback);
1220         if (obj_request->callback)
1221                 obj_request->callback(obj_request);
1222         else
1223                 complete_all(&obj_request->completion);
1224 }
1225
1226 static void rbd_osd_trivial_callback(struct rbd_obj_request *obj_request)
1227 {
1228         dout("%s: obj %p\n", __func__, obj_request);
1229         obj_request_done_set(obj_request);
1230 }
1231
1232 static void rbd_osd_read_callback(struct rbd_obj_request *obj_request)
1233 {
1234         dout("%s: obj %p result %d %llu/%llu\n", __func__, obj_request,
1235                 obj_request->result, obj_request->xferred, obj_request->length);
1236         if (obj_request->img_request)
1237                 rbd_img_obj_request_read_callback(obj_request);
1238         else
1239                 obj_request_done_set(obj_request);
1240 }
1241
1242 static void rbd_osd_write_callback(struct rbd_obj_request *obj_request)
1243 {
1244         dout("%s: obj %p result %d %llu\n", __func__, obj_request,
1245                 obj_request->result, obj_request->length);
1246         /*
1247          * There is no such thing as a successful short write.
1248          * Our xferred value is the number of bytes transferred
1249          * back.  Set it to our originally-requested length.
1250          */
1251         obj_request->xferred = obj_request->length;
1252         obj_request_done_set(obj_request);
1253 }
1254
1255 /*
1256  * For a simple stat call there's nothing to do.  We'll do more if
1257  * this is part of a write sequence for a layered image.
1258  */
1259 static void rbd_osd_stat_callback(struct rbd_obj_request *obj_request)
1260 {
1261         dout("%s: obj %p\n", __func__, obj_request);
1262         obj_request_done_set(obj_request);
1263 }
1264
1265 static void rbd_osd_req_callback(struct ceph_osd_request *osd_req,
1266                                 struct ceph_msg *msg)
1267 {
1268         struct rbd_obj_request *obj_request = osd_req->r_priv;
1269         u16 opcode;
1270
1271         dout("%s: osd_req %p msg %p\n", __func__, osd_req, msg);
1272         rbd_assert(osd_req == obj_request->osd_req);
1273         rbd_assert(!!obj_request->img_request ^
1274                                 (obj_request->which == BAD_WHICH));
1275
1276         if (osd_req->r_result < 0)
1277                 obj_request->result = osd_req->r_result;
1278         obj_request->version = le64_to_cpu(osd_req->r_reassert_version.version);
1279
1280         WARN_ON(osd_req->r_num_ops != 1);       /* For now */
1281
1282         /*
1283          * We support a 64-bit length, but ultimately it has to be
1284          * passed to blk_end_request(), which takes an unsigned int.
1285          */
1286         obj_request->xferred = osd_req->r_reply_op_len[0];
1287         rbd_assert(obj_request->xferred < (u64) UINT_MAX);
1288         opcode = osd_req->r_ops[0].op;
1289         switch (opcode) {
1290         case CEPH_OSD_OP_READ:
1291                 rbd_osd_read_callback(obj_request);
1292                 break;
1293         case CEPH_OSD_OP_WRITE:
1294                 rbd_osd_write_callback(obj_request);
1295                 break;
1296         case CEPH_OSD_OP_STAT:
1297                 rbd_osd_stat_callback(obj_request);
1298                 break;
1299         case CEPH_OSD_OP_CALL:
1300         case CEPH_OSD_OP_NOTIFY_ACK:
1301         case CEPH_OSD_OP_WATCH:
1302                 rbd_osd_trivial_callback(obj_request);
1303                 break;
1304         default:
1305                 rbd_warn(NULL, "%s: unsupported op %hu\n",
1306                         obj_request->object_name, (unsigned short) opcode);
1307                 break;
1308         }
1309
1310         if (obj_request_done_test(obj_request))
1311                 rbd_obj_request_complete(obj_request);
1312 }
1313
1314 static void rbd_osd_req_format(struct rbd_obj_request *obj_request,
1315                                         bool write_request)
1316 {
1317         struct rbd_img_request *img_request = obj_request->img_request;
1318         struct ceph_osd_request *osd_req = obj_request->osd_req;
1319         struct ceph_snap_context *snapc = NULL;
1320         u64 snap_id = CEPH_NOSNAP;
1321         struct timespec *mtime = NULL;
1322         struct timespec now;
1323
1324         rbd_assert(osd_req != NULL);
1325
1326         if (write_request) {
1327                 now = CURRENT_TIME;
1328                 mtime = &now;
1329                 if (img_request)
1330                         snapc = img_request->snapc;
1331         } else if (img_request) {
1332                 snap_id = img_request->snap_id;
1333         }
1334         ceph_osdc_build_request(osd_req, obj_request->offset,
1335                         snapc, snap_id, mtime);
1336 }
1337
1338 static struct ceph_osd_request *rbd_osd_req_create(
1339                                         struct rbd_device *rbd_dev,
1340                                         bool write_request,
1341                                         struct rbd_obj_request *obj_request)
1342 {
1343         struct rbd_img_request *img_request = obj_request->img_request;
1344         struct ceph_snap_context *snapc = NULL;
1345         struct ceph_osd_client *osdc;
1346         struct ceph_osd_request *osd_req;
1347         struct ceph_osd_data *osd_data;
1348         u64 offset = obj_request->offset;
1349
1350         if (img_request) {
1351                 rbd_assert(img_request->write_request == write_request);
1352                 if (img_request->write_request)
1353                         snapc = img_request->snapc;
1354         }
1355
1356         /* Allocate and initialize the request, for the single op */
1357
1358         osdc = &rbd_dev->rbd_client->client->osdc;
1359         osd_req = ceph_osdc_alloc_request(osdc, snapc, 1, false, GFP_ATOMIC);
1360         if (!osd_req)
1361                 return NULL;    /* ENOMEM */
1362         osd_data = write_request ? &osd_req->r_data_out : &osd_req->r_data_in;
1363
1364         rbd_assert(obj_request_type_valid(obj_request->type));
1365         switch (obj_request->type) {
1366         case OBJ_REQUEST_NODATA:
1367                 break;          /* Nothing to do */
1368         case OBJ_REQUEST_BIO:
1369                 rbd_assert(obj_request->bio_list != NULL);
1370                 ceph_osd_data_bio_init(osd_data, obj_request->bio_list,
1371                                         obj_request->length);
1372                 break;
1373         case OBJ_REQUEST_PAGES:
1374                 ceph_osd_data_pages_init(osd_data, obj_request->pages,
1375                                 obj_request->length, offset & ~PAGE_MASK,
1376                                 false, false);
1377                 break;
1378         }
1379
1380         if (write_request)
1381                 osd_req->r_flags = CEPH_OSD_FLAG_WRITE | CEPH_OSD_FLAG_ONDISK;
1382         else
1383                 osd_req->r_flags = CEPH_OSD_FLAG_READ;
1384
1385         osd_req->r_callback = rbd_osd_req_callback;
1386         osd_req->r_priv = obj_request;
1387
1388         osd_req->r_oid_len = strlen(obj_request->object_name);
1389         rbd_assert(osd_req->r_oid_len < sizeof (osd_req->r_oid));
1390         memcpy(osd_req->r_oid, obj_request->object_name, osd_req->r_oid_len);
1391
1392         osd_req->r_file_layout = rbd_dev->layout;       /* struct */
1393
1394         return osd_req;
1395 }
1396
1397 static void rbd_osd_req_destroy(struct ceph_osd_request *osd_req)
1398 {
1399         ceph_osdc_put_request(osd_req);
1400 }
1401
1402 /* object_name is assumed to be a non-null pointer and NUL-terminated */
1403
1404 static struct rbd_obj_request *rbd_obj_request_create(const char *object_name,
1405                                                 u64 offset, u64 length,
1406                                                 enum obj_request_type type)
1407 {
1408         struct rbd_obj_request *obj_request;
1409         size_t size;
1410         char *name;
1411
1412         rbd_assert(obj_request_type_valid(type));
1413
1414         size = strlen(object_name) + 1;
1415         obj_request = kzalloc(sizeof (*obj_request) + size, GFP_KERNEL);
1416         if (!obj_request)
1417                 return NULL;
1418
1419         name = (char *)(obj_request + 1);
1420         obj_request->object_name = memcpy(name, object_name, size);
1421         obj_request->offset = offset;
1422         obj_request->length = length;
1423         obj_request->which = BAD_WHICH;
1424         obj_request->type = type;
1425         INIT_LIST_HEAD(&obj_request->links);
1426         obj_request_done_init(obj_request);
1427         init_completion(&obj_request->completion);
1428         kref_init(&obj_request->kref);
1429
1430         dout("%s: \"%s\" %llu/%llu %d -> obj %p\n", __func__, object_name,
1431                 offset, length, (int)type, obj_request);
1432
1433         return obj_request;
1434 }
1435
1436 static void rbd_obj_request_destroy(struct kref *kref)
1437 {
1438         struct rbd_obj_request *obj_request;
1439
1440         obj_request = container_of(kref, struct rbd_obj_request, kref);
1441
1442         dout("%s: obj %p\n", __func__, obj_request);
1443
1444         rbd_assert(obj_request->img_request == NULL);
1445         rbd_assert(obj_request->which == BAD_WHICH);
1446
1447         if (obj_request->osd_req)
1448                 rbd_osd_req_destroy(obj_request->osd_req);
1449
1450         rbd_assert(obj_request_type_valid(obj_request->type));
1451         switch (obj_request->type) {
1452         case OBJ_REQUEST_NODATA:
1453                 break;          /* Nothing to do */
1454         case OBJ_REQUEST_BIO:
1455                 if (obj_request->bio_list)
1456                         bio_chain_put(obj_request->bio_list);
1457                 break;
1458         case OBJ_REQUEST_PAGES:
1459                 if (obj_request->pages)
1460                         ceph_release_page_vector(obj_request->pages,
1461                                                 obj_request->page_count);
1462                 break;
1463         }
1464
1465         kfree(obj_request);
1466 }
1467
1468 /*
1469  * Caller is responsible for filling in the list of object requests
1470  * that comprises the image request, and the Linux request pointer
1471  * (if there is one).
1472  */
1473 static struct rbd_img_request *rbd_img_request_create(
1474                                         struct rbd_device *rbd_dev,
1475                                         u64 offset, u64 length,
1476                                         bool write_request)
1477 {
1478         struct rbd_img_request *img_request;
1479         struct ceph_snap_context *snapc = NULL;
1480
1481         img_request = kmalloc(sizeof (*img_request), GFP_ATOMIC);
1482         if (!img_request)
1483                 return NULL;
1484
1485         if (write_request) {
1486                 down_read(&rbd_dev->header_rwsem);
1487                 snapc = ceph_get_snap_context(rbd_dev->header.snapc);
1488                 up_read(&rbd_dev->header_rwsem);
1489                 if (WARN_ON(!snapc)) {
1490                         kfree(img_request);
1491                         return NULL;    /* Shouldn't happen */
1492                 }
1493         }
1494
1495         img_request->rq = NULL;
1496         img_request->rbd_dev = rbd_dev;
1497         img_request->offset = offset;
1498         img_request->length = length;
1499         img_request->write_request = write_request;
1500         if (write_request)
1501                 img_request->snapc = snapc;
1502         else
1503                 img_request->snap_id = rbd_dev->spec->snap_id;
1504         spin_lock_init(&img_request->completion_lock);
1505         img_request->next_completion = 0;
1506         img_request->callback = NULL;
1507         img_request->obj_request_count = 0;
1508         INIT_LIST_HEAD(&img_request->obj_requests);
1509         kref_init(&img_request->kref);
1510
1511         rbd_img_request_get(img_request);       /* Avoid a warning */
1512         rbd_img_request_put(img_request);       /* TEMPORARY */
1513
1514         dout("%s: rbd_dev %p %s %llu/%llu -> img %p\n", __func__, rbd_dev,
1515                 write_request ? "write" : "read", offset, length,
1516                 img_request);
1517
1518         return img_request;
1519 }
1520
1521 static void rbd_img_request_destroy(struct kref *kref)
1522 {
1523         struct rbd_img_request *img_request;
1524         struct rbd_obj_request *obj_request;
1525         struct rbd_obj_request *next_obj_request;
1526
1527         img_request = container_of(kref, struct rbd_img_request, kref);
1528
1529         dout("%s: img %p\n", __func__, img_request);
1530
1531         for_each_obj_request_safe(img_request, obj_request, next_obj_request)
1532                 rbd_img_obj_request_del(img_request, obj_request);
1533         rbd_assert(img_request->obj_request_count == 0);
1534
1535         if (img_request->write_request)
1536                 ceph_put_snap_context(img_request->snapc);
1537
1538         kfree(img_request);
1539 }
1540
1541 static int rbd_img_request_fill_bio(struct rbd_img_request *img_request,
1542                                         struct bio *bio_list)
1543 {
1544         struct rbd_device *rbd_dev = img_request->rbd_dev;
1545         struct rbd_obj_request *obj_request = NULL;
1546         struct rbd_obj_request *next_obj_request;
1547         bool write_request = img_request->write_request;
1548         unsigned int bio_offset;
1549         u64 image_offset;
1550         u64 resid;
1551         u16 opcode;
1552
1553         dout("%s: img %p bio %p\n", __func__, img_request, bio_list);
1554
1555         opcode = write_request ? CEPH_OSD_OP_WRITE : CEPH_OSD_OP_READ;
1556         bio_offset = 0;
1557         image_offset = img_request->offset;
1558         rbd_assert(image_offset == bio_list->bi_sector << SECTOR_SHIFT);
1559         resid = img_request->length;
1560         rbd_assert(resid > 0);
1561         while (resid) {
1562                 struct ceph_osd_request *osd_req;
1563                 struct ceph_osd_data *osd_data;
1564                 const char *object_name;
1565                 unsigned int clone_size;
1566                 u64 offset;
1567                 u64 length;
1568
1569                 object_name = rbd_segment_name(rbd_dev, image_offset);
1570                 if (!object_name)
1571                         goto out_unwind;
1572                 offset = rbd_segment_offset(rbd_dev, image_offset);
1573                 length = rbd_segment_length(rbd_dev, image_offset, resid);
1574                 obj_request = rbd_obj_request_create(object_name,
1575                                                 offset, length,
1576                                                 OBJ_REQUEST_BIO);
1577                 kfree(object_name);     /* object request has its own copy */
1578                 if (!obj_request)
1579                         goto out_unwind;
1580
1581                 rbd_assert(length <= (u64) UINT_MAX);
1582                 clone_size = (unsigned int) length;
1583                 obj_request->bio_list = bio_chain_clone_range(&bio_list,
1584                                                 &bio_offset, clone_size,
1585                                                 GFP_ATOMIC);
1586                 if (!obj_request->bio_list)
1587                         goto out_partial;
1588
1589                 osd_req = rbd_osd_req_create(rbd_dev, write_request,
1590                                                 obj_request);
1591                 if (!osd_req)
1592                         goto out_partial;
1593                 obj_request->osd_req = osd_req;
1594
1595                 osd_data = write_request ? &osd_req->r_data_out
1596                                          : &osd_req->r_data_in;
1597                 osd_req_op_extent_init(osd_req, 0, opcode, offset, length,
1598                                                 0, 0);
1599                 osd_req_op_extent_osd_data(osd_req, 0, osd_data);
1600                 rbd_osd_req_format(obj_request, write_request);
1601
1602                 /* status and version are initially zero-filled */
1603
1604                 rbd_img_obj_request_add(img_request, obj_request);
1605
1606                 image_offset += length;
1607                 resid -= length;
1608         }
1609
1610         return 0;
1611
1612 out_partial:
1613         rbd_obj_request_put(obj_request);
1614 out_unwind:
1615         for_each_obj_request_safe(img_request, obj_request, next_obj_request)
1616                 rbd_obj_request_put(obj_request);
1617
1618         return -ENOMEM;
1619 }
1620
1621 static void rbd_img_obj_callback(struct rbd_obj_request *obj_request)
1622 {
1623         struct rbd_img_request *img_request;
1624         u32 which = obj_request->which;
1625         bool more = true;
1626
1627         img_request = obj_request->img_request;
1628
1629         dout("%s: img %p obj %p\n", __func__, img_request, obj_request);
1630         rbd_assert(img_request != NULL);
1631         rbd_assert(img_request->rq != NULL);
1632         rbd_assert(img_request->obj_request_count > 0);
1633         rbd_assert(which != BAD_WHICH);
1634         rbd_assert(which < img_request->obj_request_count);
1635         rbd_assert(which >= img_request->next_completion);
1636
1637         spin_lock_irq(&img_request->completion_lock);
1638         if (which != img_request->next_completion)
1639                 goto out;
1640
1641         for_each_obj_request_from(img_request, obj_request) {
1642                 unsigned int xferred;
1643                 int result;
1644
1645                 rbd_assert(more);
1646                 rbd_assert(which < img_request->obj_request_count);
1647
1648                 if (!obj_request_done_test(obj_request))
1649                         break;
1650
1651                 rbd_assert(obj_request->xferred <= (u64) UINT_MAX);
1652                 xferred = (unsigned int) obj_request->xferred;
1653                 result = (int) obj_request->result;
1654                 if (result)
1655                         rbd_warn(NULL, "obj_request %s result %d xferred %u\n",
1656                                 img_request->write_request ? "write" : "read",
1657                                 result, xferred);
1658
1659                 more = blk_end_request(img_request->rq, result, xferred);
1660                 which++;
1661         }
1662
1663         rbd_assert(more ^ (which == img_request->obj_request_count));
1664         img_request->next_completion = which;
1665 out:
1666         spin_unlock_irq(&img_request->completion_lock);
1667
1668         if (!more)
1669                 rbd_img_request_complete(img_request);
1670 }
1671
1672 static int rbd_img_request_submit(struct rbd_img_request *img_request)
1673 {
1674         struct rbd_device *rbd_dev = img_request->rbd_dev;
1675         struct ceph_osd_client *osdc = &rbd_dev->rbd_client->client->osdc;
1676         struct rbd_obj_request *obj_request;
1677         struct rbd_obj_request *next_obj_request;
1678
1679         dout("%s: img %p\n", __func__, img_request);
1680         for_each_obj_request_safe(img_request, obj_request, next_obj_request) {
1681                 int ret;
1682
1683                 obj_request->callback = rbd_img_obj_callback;
1684                 ret = rbd_obj_request_submit(osdc, obj_request);
1685                 if (ret)
1686                         return ret;
1687                 /*
1688                  * The image request has its own reference to each
1689                  * of its object requests, so we can safely drop the
1690                  * initial one here.
1691                  */
1692                 rbd_obj_request_put(obj_request);
1693         }
1694
1695         return 0;
1696 }
1697
1698 static int rbd_obj_notify_ack(struct rbd_device *rbd_dev,
1699                                    u64 ver, u64 notify_id)
1700 {
1701         struct rbd_obj_request *obj_request;
1702         struct ceph_osd_client *osdc;
1703         int ret;
1704
1705         obj_request = rbd_obj_request_create(rbd_dev->header_name, 0, 0,
1706                                                         OBJ_REQUEST_NODATA);
1707         if (!obj_request)
1708                 return -ENOMEM;
1709
1710         ret = -ENOMEM;
1711         obj_request->osd_req = rbd_osd_req_create(rbd_dev, false, obj_request);
1712         if (!obj_request->osd_req)
1713                 goto out;
1714
1715         osd_req_op_watch_init(obj_request->osd_req, 0, CEPH_OSD_OP_NOTIFY_ACK,
1716                                         notify_id, ver, 0);
1717         rbd_osd_req_format(obj_request, false);
1718
1719         osdc = &rbd_dev->rbd_client->client->osdc;
1720         obj_request->callback = rbd_obj_request_put;
1721         ret = rbd_obj_request_submit(osdc, obj_request);
1722 out:
1723         if (ret)
1724                 rbd_obj_request_put(obj_request);
1725
1726         return ret;
1727 }
1728
1729 static void rbd_watch_cb(u64 ver, u64 notify_id, u8 opcode, void *data)
1730 {
1731         struct rbd_device *rbd_dev = (struct rbd_device *)data;
1732         u64 hver;
1733         int rc;
1734
1735         if (!rbd_dev)
1736                 return;
1737
1738         dout("%s: \"%s\" notify_id %llu opcode %u\n", __func__,
1739                 rbd_dev->header_name, (unsigned long long) notify_id,
1740                 (unsigned int) opcode);
1741         rc = rbd_dev_refresh(rbd_dev, &hver);
1742         if (rc)
1743                 rbd_warn(rbd_dev, "got notification but failed to "
1744                            " update snaps: %d\n", rc);
1745
1746         rbd_obj_notify_ack(rbd_dev, hver, notify_id);
1747 }
1748
1749 /*
1750  * Request sync osd watch/unwatch.  The value of "start" determines
1751  * whether a watch request is being initiated or torn down.
1752  */
1753 static int rbd_dev_header_watch_sync(struct rbd_device *rbd_dev, int start)
1754 {
1755         struct ceph_osd_client *osdc = &rbd_dev->rbd_client->client->osdc;
1756         struct rbd_obj_request *obj_request;
1757         int ret;
1758
1759         rbd_assert(start ^ !!rbd_dev->watch_event);
1760         rbd_assert(start ^ !!rbd_dev->watch_request);
1761
1762         if (start) {
1763                 ret = ceph_osdc_create_event(osdc, rbd_watch_cb, rbd_dev,
1764                                                 &rbd_dev->watch_event);
1765                 if (ret < 0)
1766                         return ret;
1767                 rbd_assert(rbd_dev->watch_event != NULL);
1768         }
1769
1770         ret = -ENOMEM;
1771         obj_request = rbd_obj_request_create(rbd_dev->header_name, 0, 0,
1772                                                         OBJ_REQUEST_NODATA);
1773         if (!obj_request)
1774                 goto out_cancel;
1775
1776         obj_request->osd_req = rbd_osd_req_create(rbd_dev, true, obj_request);
1777         if (!obj_request->osd_req)
1778                 goto out_cancel;
1779
1780         osd_req_op_watch_init(obj_request->osd_req, 0, CEPH_OSD_OP_WATCH,
1781                                 rbd_dev->watch_event->cookie,
1782                                 rbd_dev->header.obj_version, start);
1783         rbd_osd_req_format(obj_request, true);
1784
1785         if (start)
1786                 ceph_osdc_set_request_linger(osdc, obj_request->osd_req);
1787         else
1788                 ceph_osdc_unregister_linger_request(osdc,
1789                                         rbd_dev->watch_request->osd_req);
1790         ret = rbd_obj_request_submit(osdc, obj_request);
1791         if (ret)
1792                 goto out_cancel;
1793         ret = rbd_obj_request_wait(obj_request);
1794         if (ret)
1795                 goto out_cancel;
1796         ret = obj_request->result;
1797         if (ret)
1798                 goto out_cancel;
1799
1800         /*
1801          * A watch request is set to linger, so the underlying osd
1802          * request won't go away until we unregister it.  We retain
1803          * a pointer to the object request during that time (in
1804          * rbd_dev->watch_request), so we'll keep a reference to
1805          * it.  We'll drop that reference (below) after we've
1806          * unregistered it.
1807          */
1808         if (start) {
1809                 rbd_dev->watch_request = obj_request;
1810
1811                 return 0;
1812         }
1813
1814         /* We have successfully torn down the watch request */
1815
1816         rbd_obj_request_put(rbd_dev->watch_request);
1817         rbd_dev->watch_request = NULL;
1818 out_cancel:
1819         /* Cancel the event if we're tearing down, or on error */
1820         ceph_osdc_cancel_event(rbd_dev->watch_event);
1821         rbd_dev->watch_event = NULL;
1822         if (obj_request)
1823                 rbd_obj_request_put(obj_request);
1824
1825         return ret;
1826 }
1827
1828 /*
1829  * Synchronous osd object method call
1830  */
1831 static int rbd_obj_method_sync(struct rbd_device *rbd_dev,
1832                              const char *object_name,
1833                              const char *class_name,
1834                              const char *method_name,
1835                              const char *outbound,
1836                              size_t outbound_size,
1837                              char *inbound,
1838                              size_t inbound_size,
1839                              u64 *version)
1840 {
1841         struct rbd_obj_request *obj_request;
1842         struct ceph_osd_data *osd_data;
1843         struct ceph_osd_client *osdc;
1844         struct page **pages;
1845         u32 page_count;
1846         int ret;
1847
1848         /*
1849          * Method calls are ultimately read operations.  The result
1850          * should placed into the inbound buffer provided.  They
1851          * also supply outbound data--parameters for the object
1852          * method.  Currently if this is present it will be a
1853          * snapshot id.
1854          */
1855         page_count = (u32) calc_pages_for(0, inbound_size);
1856         pages = ceph_alloc_page_vector(page_count, GFP_KERNEL);
1857         if (IS_ERR(pages))
1858                 return PTR_ERR(pages);
1859
1860         ret = -ENOMEM;
1861         obj_request = rbd_obj_request_create(object_name, 0, inbound_size,
1862                                                         OBJ_REQUEST_PAGES);
1863         if (!obj_request)
1864                 goto out;
1865
1866         obj_request->pages = pages;
1867         obj_request->page_count = page_count;
1868
1869         obj_request->osd_req = rbd_osd_req_create(rbd_dev, false, obj_request);
1870         if (!obj_request->osd_req)
1871                 goto out;
1872
1873         osd_data = &obj_request->osd_req->r_data_in;
1874         osd_req_op_cls_init(obj_request->osd_req, 0, CEPH_OSD_OP_CALL,
1875                                         class_name, method_name,
1876                                         outbound, outbound_size);
1877         osd_req_op_cls_response_data(obj_request->osd_req, 0, osd_data);
1878         rbd_osd_req_format(obj_request, false);
1879
1880         osdc = &rbd_dev->rbd_client->client->osdc;
1881         ret = rbd_obj_request_submit(osdc, obj_request);
1882         if (ret)
1883                 goto out;
1884         ret = rbd_obj_request_wait(obj_request);
1885         if (ret)
1886                 goto out;
1887
1888         ret = obj_request->result;
1889         if (ret < 0)
1890                 goto out;
1891         ret = 0;
1892         ceph_copy_from_page_vector(pages, inbound, 0, obj_request->xferred);
1893         if (version)
1894                 *version = obj_request->version;
1895 out:
1896         if (obj_request)
1897                 rbd_obj_request_put(obj_request);
1898         else
1899                 ceph_release_page_vector(pages, page_count);
1900
1901         return ret;
1902 }
1903
1904 static void rbd_request_fn(struct request_queue *q)
1905                 __releases(q->queue_lock) __acquires(q->queue_lock)
1906 {
1907         struct rbd_device *rbd_dev = q->queuedata;
1908         bool read_only = rbd_dev->mapping.read_only;
1909         struct request *rq;
1910         int result;
1911
1912         while ((rq = blk_fetch_request(q))) {
1913                 bool write_request = rq_data_dir(rq) == WRITE;
1914                 struct rbd_img_request *img_request;
1915                 u64 offset;
1916                 u64 length;
1917
1918                 /* Ignore any non-FS requests that filter through. */
1919
1920                 if (rq->cmd_type != REQ_TYPE_FS) {
1921                         dout("%s: non-fs request type %d\n", __func__,
1922                                 (int) rq->cmd_type);
1923                         __blk_end_request_all(rq, 0);
1924                         continue;
1925                 }
1926
1927                 /* Ignore/skip any zero-length requests */
1928
1929                 offset = (u64) blk_rq_pos(rq) << SECTOR_SHIFT;
1930                 length = (u64) blk_rq_bytes(rq);
1931
1932                 if (!length) {
1933                         dout("%s: zero-length request\n", __func__);
1934                         __blk_end_request_all(rq, 0);
1935                         continue;
1936                 }
1937
1938                 spin_unlock_irq(q->queue_lock);
1939
1940                 /* Disallow writes to a read-only device */
1941
1942                 if (write_request) {
1943                         result = -EROFS;
1944                         if (read_only)
1945                                 goto end_request;
1946                         rbd_assert(rbd_dev->spec->snap_id == CEPH_NOSNAP);
1947                 }
1948
1949                 /*
1950                  * Quit early if the mapped snapshot no longer
1951                  * exists.  It's still possible the snapshot will
1952                  * have disappeared by the time our request arrives
1953                  * at the osd, but there's no sense in sending it if
1954                  * we already know.
1955                  */
1956                 if (!test_bit(RBD_DEV_FLAG_EXISTS, &rbd_dev->flags)) {
1957                         dout("request for non-existent snapshot");
1958                         rbd_assert(rbd_dev->spec->snap_id != CEPH_NOSNAP);
1959                         result = -ENXIO;
1960                         goto end_request;
1961                 }
1962
1963                 result = -EINVAL;
1964                 if (WARN_ON(offset && length > U64_MAX - offset + 1))
1965                         goto end_request;       /* Shouldn't happen */
1966
1967                 result = -ENOMEM;
1968                 img_request = rbd_img_request_create(rbd_dev, offset, length,
1969                                                         write_request);
1970                 if (!img_request)
1971                         goto end_request;
1972
1973                 img_request->rq = rq;
1974
1975                 result = rbd_img_request_fill_bio(img_request, rq->bio);
1976                 if (!result)
1977                         result = rbd_img_request_submit(img_request);
1978                 if (result)
1979                         rbd_img_request_put(img_request);
1980 end_request:
1981                 spin_lock_irq(q->queue_lock);
1982                 if (result < 0) {
1983                         rbd_warn(rbd_dev, "obj_request %s result %d\n",
1984                                 write_request ? "write" : "read", result);
1985                         __blk_end_request_all(rq, result);
1986                 }
1987         }
1988 }
1989
1990 /*
1991  * a queue callback. Makes sure that we don't create a bio that spans across
1992  * multiple osd objects. One exception would be with a single page bios,
1993  * which we handle later at bio_chain_clone_range()
1994  */
1995 static int rbd_merge_bvec(struct request_queue *q, struct bvec_merge_data *bmd,
1996                           struct bio_vec *bvec)
1997 {
1998         struct rbd_device *rbd_dev = q->queuedata;
1999         sector_t sector_offset;
2000         sector_t sectors_per_obj;
2001         sector_t obj_sector_offset;
2002         int ret;
2003
2004         /*
2005          * Find how far into its rbd object the partition-relative
2006          * bio start sector is to offset relative to the enclosing
2007          * device.
2008          */
2009         sector_offset = get_start_sect(bmd->bi_bdev) + bmd->bi_sector;
2010         sectors_per_obj = 1 << (rbd_dev->header.obj_order - SECTOR_SHIFT);
2011         obj_sector_offset = sector_offset & (sectors_per_obj - 1);
2012
2013         /*
2014          * Compute the number of bytes from that offset to the end
2015          * of the object.  Account for what's already used by the bio.
2016          */
2017         ret = (int) (sectors_per_obj - obj_sector_offset) << SECTOR_SHIFT;
2018         if (ret > bmd->bi_size)
2019                 ret -= bmd->bi_size;
2020         else
2021                 ret = 0;
2022
2023         /*
2024          * Don't send back more than was asked for.  And if the bio
2025          * was empty, let the whole thing through because:  "Note
2026          * that a block device *must* allow a single page to be
2027          * added to an empty bio."
2028          */
2029         rbd_assert(bvec->bv_len <= PAGE_SIZE);
2030         if (ret > (int) bvec->bv_len || !bmd->bi_size)
2031                 ret = (int) bvec->bv_len;
2032
2033         return ret;
2034 }
2035
2036 static void rbd_free_disk(struct rbd_device *rbd_dev)
2037 {
2038         struct gendisk *disk = rbd_dev->disk;
2039
2040         if (!disk)
2041                 return;
2042
2043         if (disk->flags & GENHD_FL_UP)
2044                 del_gendisk(disk);
2045         if (disk->queue)
2046                 blk_cleanup_queue(disk->queue);
2047         put_disk(disk);
2048 }
2049
2050 static int rbd_obj_read_sync(struct rbd_device *rbd_dev,
2051                                 const char *object_name,
2052                                 u64 offset, u64 length,
2053                                 char *buf, u64 *version)
2054
2055 {
2056         struct rbd_obj_request *obj_request;
2057         struct ceph_osd_data *osd_data;
2058         struct ceph_osd_client *osdc;
2059         struct page **pages = NULL;
2060         u32 page_count;
2061         size_t size;
2062         int ret;
2063
2064         page_count = (u32) calc_pages_for(offset, length);
2065         pages = ceph_alloc_page_vector(page_count, GFP_KERNEL);
2066         if (IS_ERR(pages))
2067                 ret = PTR_ERR(pages);
2068
2069         ret = -ENOMEM;
2070         obj_request = rbd_obj_request_create(object_name, offset, length,
2071                                                         OBJ_REQUEST_PAGES);
2072         if (!obj_request)
2073                 goto out;
2074
2075         obj_request->pages = pages;
2076         obj_request->page_count = page_count;
2077
2078         obj_request->osd_req = rbd_osd_req_create(rbd_dev, false, obj_request);
2079         if (!obj_request->osd_req)
2080                 goto out;
2081
2082         osd_data = &obj_request->osd_req->r_data_in;
2083         osd_req_op_extent_init(obj_request->osd_req, 0, CEPH_OSD_OP_READ,
2084                                         offset, length, 0, 0);
2085         osd_req_op_extent_osd_data(obj_request->osd_req, 0, osd_data);
2086         rbd_osd_req_format(obj_request, false);
2087
2088         osdc = &rbd_dev->rbd_client->client->osdc;
2089         ret = rbd_obj_request_submit(osdc, obj_request);
2090         if (ret)
2091                 goto out;
2092         ret = rbd_obj_request_wait(obj_request);
2093         if (ret)
2094                 goto out;
2095
2096         ret = obj_request->result;
2097         if (ret < 0)
2098                 goto out;
2099
2100         rbd_assert(obj_request->xferred <= (u64) SIZE_MAX);
2101         size = (size_t) obj_request->xferred;
2102         ceph_copy_from_page_vector(pages, buf, 0, size);
2103         rbd_assert(size <= (size_t) INT_MAX);
2104         ret = (int) size;
2105         if (version)
2106                 *version = obj_request->version;
2107 out:
2108         if (obj_request)
2109                 rbd_obj_request_put(obj_request);
2110         else
2111                 ceph_release_page_vector(pages, page_count);
2112
2113         return ret;
2114 }
2115
2116 /*
2117  * Read the complete header for the given rbd device.
2118  *
2119  * Returns a pointer to a dynamically-allocated buffer containing
2120  * the complete and validated header.  Caller can pass the address
2121  * of a variable that will be filled in with the version of the
2122  * header object at the time it was read.
2123  *
2124  * Returns a pointer-coded errno if a failure occurs.
2125  */
2126 static struct rbd_image_header_ondisk *
2127 rbd_dev_v1_header_read(struct rbd_device *rbd_dev, u64 *version)
2128 {
2129         struct rbd_image_header_ondisk *ondisk = NULL;
2130         u32 snap_count = 0;
2131         u64 names_size = 0;
2132         u32 want_count;
2133         int ret;
2134
2135         /*
2136          * The complete header will include an array of its 64-bit
2137          * snapshot ids, followed by the names of those snapshots as
2138          * a contiguous block of NUL-terminated strings.  Note that
2139          * the number of snapshots could change by the time we read
2140          * it in, in which case we re-read it.
2141          */
2142         do {
2143                 size_t size;
2144
2145                 kfree(ondisk);
2146
2147                 size = sizeof (*ondisk);
2148                 size += snap_count * sizeof (struct rbd_image_snap_ondisk);
2149                 size += names_size;
2150                 ondisk = kmalloc(size, GFP_KERNEL);
2151                 if (!ondisk)
2152                         return ERR_PTR(-ENOMEM);
2153
2154                 ret = rbd_obj_read_sync(rbd_dev, rbd_dev->header_name,
2155                                        0, size,
2156                                        (char *) ondisk, version);
2157                 if (ret < 0)
2158                         goto out_err;
2159                 if (WARN_ON((size_t) ret < size)) {
2160                         ret = -ENXIO;
2161                         rbd_warn(rbd_dev, "short header read (want %zd got %d)",
2162                                 size, ret);
2163                         goto out_err;
2164                 }
2165                 if (!rbd_dev_ondisk_valid(ondisk)) {
2166                         ret = -ENXIO;
2167                         rbd_warn(rbd_dev, "invalid header");
2168                         goto out_err;
2169                 }
2170
2171                 names_size = le64_to_cpu(ondisk->snap_names_len);
2172                 want_count = snap_count;
2173                 snap_count = le32_to_cpu(ondisk->snap_count);
2174         } while (snap_count != want_count);
2175
2176         return ondisk;
2177
2178 out_err:
2179         kfree(ondisk);
2180
2181         return ERR_PTR(ret);
2182 }
2183
2184 /*
2185  * reload the ondisk the header
2186  */
2187 static int rbd_read_header(struct rbd_device *rbd_dev,
2188                            struct rbd_image_header *header)
2189 {
2190         struct rbd_image_header_ondisk *ondisk;
2191         u64 ver = 0;
2192         int ret;
2193
2194         ondisk = rbd_dev_v1_header_read(rbd_dev, &ver);
2195         if (IS_ERR(ondisk))
2196                 return PTR_ERR(ondisk);
2197         ret = rbd_header_from_disk(header, ondisk);
2198         if (ret >= 0)
2199                 header->obj_version = ver;
2200         kfree(ondisk);
2201
2202         return ret;
2203 }
2204
2205 static void rbd_remove_all_snaps(struct rbd_device *rbd_dev)
2206 {
2207         struct rbd_snap *snap;
2208         struct rbd_snap *next;
2209
2210         list_for_each_entry_safe(snap, next, &rbd_dev->snaps, node)
2211                 rbd_remove_snap_dev(snap);
2212 }
2213
2214 static void rbd_update_mapping_size(struct rbd_device *rbd_dev)
2215 {
2216         sector_t size;
2217
2218         if (rbd_dev->spec->snap_id != CEPH_NOSNAP)
2219                 return;
2220
2221         size = (sector_t) rbd_dev->header.image_size / SECTOR_SIZE;
2222         dout("setting size to %llu sectors", (unsigned long long) size);
2223         rbd_dev->mapping.size = (u64) size;
2224         set_capacity(rbd_dev->disk, size);
2225 }
2226
2227 /*
2228  * only read the first part of the ondisk header, without the snaps info
2229  */
2230 static int rbd_dev_v1_refresh(struct rbd_device *rbd_dev, u64 *hver)
2231 {
2232         int ret;
2233         struct rbd_image_header h;
2234
2235         ret = rbd_read_header(rbd_dev, &h);
2236         if (ret < 0)
2237                 return ret;
2238
2239         down_write(&rbd_dev->header_rwsem);
2240
2241         /* Update image size, and check for resize of mapped image */
2242         rbd_dev->header.image_size = h.image_size;
2243         rbd_update_mapping_size(rbd_dev);
2244
2245         /* rbd_dev->header.object_prefix shouldn't change */
2246         kfree(rbd_dev->header.snap_sizes);
2247         kfree(rbd_dev->header.snap_names);
2248         /* osd requests may still refer to snapc */
2249         ceph_put_snap_context(rbd_dev->header.snapc);
2250
2251         if (hver)
2252                 *hver = h.obj_version;
2253         rbd_dev->header.obj_version = h.obj_version;
2254         rbd_dev->header.image_size = h.image_size;
2255         rbd_dev->header.snapc = h.snapc;
2256         rbd_dev->header.snap_names = h.snap_names;
2257         rbd_dev->header.snap_sizes = h.snap_sizes;
2258         /* Free the extra copy of the object prefix */
2259         WARN_ON(strcmp(rbd_dev->header.object_prefix, h.object_prefix));
2260         kfree(h.object_prefix);
2261
2262         ret = rbd_dev_snaps_update(rbd_dev);
2263         if (!ret)
2264                 ret = rbd_dev_snaps_register(rbd_dev);
2265
2266         up_write(&rbd_dev->header_rwsem);
2267
2268         return ret;
2269 }
2270
2271 static int rbd_dev_refresh(struct rbd_device *rbd_dev, u64 *hver)
2272 {
2273         int ret;
2274
2275         rbd_assert(rbd_image_format_valid(rbd_dev->image_format));
2276         mutex_lock_nested(&ctl_mutex, SINGLE_DEPTH_NESTING);
2277         if (rbd_dev->image_format == 1)
2278                 ret = rbd_dev_v1_refresh(rbd_dev, hver);
2279         else
2280                 ret = rbd_dev_v2_refresh(rbd_dev, hver);
2281         mutex_unlock(&ctl_mutex);
2282
2283         return ret;
2284 }
2285
2286 static int rbd_init_disk(struct rbd_device *rbd_dev)
2287 {
2288         struct gendisk *disk;
2289         struct request_queue *q;
2290         u64 segment_size;
2291
2292         /* create gendisk info */
2293         disk = alloc_disk(RBD_MINORS_PER_MAJOR);
2294         if (!disk)
2295                 return -ENOMEM;
2296
2297         snprintf(disk->disk_name, sizeof(disk->disk_name), RBD_DRV_NAME "%d",
2298                  rbd_dev->dev_id);
2299         disk->major = rbd_dev->major;
2300         disk->first_minor = 0;
2301         disk->fops = &rbd_bd_ops;
2302         disk->private_data = rbd_dev;
2303
2304         q = blk_init_queue(rbd_request_fn, &rbd_dev->lock);
2305         if (!q)
2306                 goto out_disk;
2307
2308         /* We use the default size, but let's be explicit about it. */
2309         blk_queue_physical_block_size(q, SECTOR_SIZE);
2310
2311         /* set io sizes to object size */
2312         segment_size = rbd_obj_bytes(&rbd_dev->header);
2313         blk_queue_max_hw_sectors(q, segment_size / SECTOR_SIZE);
2314         blk_queue_max_segment_size(q, segment_size);
2315         blk_queue_io_min(q, segment_size);
2316         blk_queue_io_opt(q, segment_size);
2317
2318         blk_queue_merge_bvec(q, rbd_merge_bvec);
2319         disk->queue = q;
2320
2321         q->queuedata = rbd_dev;
2322
2323         rbd_dev->disk = disk;
2324
2325         set_capacity(rbd_dev->disk, rbd_dev->mapping.size / SECTOR_SIZE);
2326
2327         return 0;
2328 out_disk:
2329         put_disk(disk);
2330
2331         return -ENOMEM;
2332 }
2333
2334 /*
2335   sysfs
2336 */
2337
2338 static struct rbd_device *dev_to_rbd_dev(struct device *dev)
2339 {
2340         return container_of(dev, struct rbd_device, dev);
2341 }
2342
2343 static ssize_t rbd_size_show(struct device *dev,
2344                              struct device_attribute *attr, char *buf)
2345 {
2346         struct rbd_device *rbd_dev = dev_to_rbd_dev(dev);
2347         sector_t size;
2348
2349         down_read(&rbd_dev->header_rwsem);
2350         size = get_capacity(rbd_dev->disk);
2351         up_read(&rbd_dev->header_rwsem);
2352
2353         return sprintf(buf, "%llu\n", (unsigned long long) size * SECTOR_SIZE);
2354 }
2355
2356 /*
2357  * Note this shows the features for whatever's mapped, which is not
2358  * necessarily the base image.
2359  */
2360 static ssize_t rbd_features_show(struct device *dev,
2361                              struct device_attribute *attr, char *buf)
2362 {
2363         struct rbd_device *rbd_dev = dev_to_rbd_dev(dev);
2364
2365         return sprintf(buf, "0x%016llx\n",
2366                         (unsigned long long) rbd_dev->mapping.features);
2367 }
2368
2369 static ssize_t rbd_major_show(struct device *dev,
2370                               struct device_attribute *attr, char *buf)
2371 {
2372         struct rbd_device *rbd_dev = dev_to_rbd_dev(dev);
2373
2374         return sprintf(buf, "%d\n", rbd_dev->major);
2375 }
2376
2377 static ssize_t rbd_client_id_show(struct device *dev,
2378                                   struct device_attribute *attr, char *buf)
2379 {
2380         struct rbd_device *rbd_dev = dev_to_rbd_dev(dev);
2381
2382         return sprintf(buf, "client%lld\n",
2383                         ceph_client_id(rbd_dev->rbd_client->client));
2384 }
2385
2386 static ssize_t rbd_pool_show(struct device *dev,
2387                              struct device_attribute *attr, char *buf)
2388 {
2389         struct rbd_device *rbd_dev = dev_to_rbd_dev(dev);
2390
2391         return sprintf(buf, "%s\n", rbd_dev->spec->pool_name);
2392 }
2393
2394 static ssize_t rbd_pool_id_show(struct device *dev,
2395                              struct device_attribute *attr, char *buf)
2396 {
2397         struct rbd_device *rbd_dev = dev_to_rbd_dev(dev);
2398
2399         return sprintf(buf, "%llu\n",
2400                 (unsigned long long) rbd_dev->spec->pool_id);
2401 }
2402
2403 static ssize_t rbd_name_show(struct device *dev,
2404                              struct device_attribute *attr, char *buf)
2405 {
2406         struct rbd_device *rbd_dev = dev_to_rbd_dev(dev);
2407
2408         if (rbd_dev->spec->image_name)
2409                 return sprintf(buf, "%s\n", rbd_dev->spec->image_name);
2410
2411         return sprintf(buf, "(unknown)\n");
2412 }
2413
2414 static ssize_t rbd_image_id_show(struct device *dev,
2415                              struct device_attribute *attr, char *buf)
2416 {
2417         struct rbd_device *rbd_dev = dev_to_rbd_dev(dev);
2418
2419         return sprintf(buf, "%s\n", rbd_dev->spec->image_id);
2420 }
2421
2422 /*
2423  * Shows the name of the currently-mapped snapshot (or
2424  * RBD_SNAP_HEAD_NAME for the base image).
2425  */
2426 static ssize_t rbd_snap_show(struct device *dev,
2427                              struct device_attribute *attr,
2428                              char *buf)
2429 {
2430         struct rbd_device *rbd_dev = dev_to_rbd_dev(dev);
2431
2432         return sprintf(buf, "%s\n", rbd_dev->spec->snap_name);
2433 }
2434
2435 /*
2436  * For an rbd v2 image, shows the pool id, image id, and snapshot id
2437  * for the parent image.  If there is no parent, simply shows
2438  * "(no parent image)".
2439  */
2440 static ssize_t rbd_parent_show(struct device *dev,
2441                              struct device_attribute *attr,
2442                              char *buf)
2443 {
2444         struct rbd_device *rbd_dev = dev_to_rbd_dev(dev);
2445         struct rbd_spec *spec = rbd_dev->parent_spec;
2446         int count;
2447         char *bufp = buf;
2448
2449         if (!spec)
2450                 return sprintf(buf, "(no parent image)\n");
2451
2452         count = sprintf(bufp, "pool_id %llu\npool_name %s\n",
2453                         (unsigned long long) spec->pool_id, spec->pool_name);
2454         if (count < 0)
2455                 return count;
2456         bufp += count;
2457
2458         count = sprintf(bufp, "image_id %s\nimage_name %s\n", spec->image_id,
2459                         spec->image_name ? spec->image_name : "(unknown)");
2460         if (count < 0)
2461                 return count;
2462         bufp += count;
2463
2464         count = sprintf(bufp, "snap_id %llu\nsnap_name %s\n",
2465                         (unsigned long long) spec->snap_id, spec->snap_name);
2466         if (count < 0)
2467                 return count;
2468         bufp += count;
2469
2470         count = sprintf(bufp, "overlap %llu\n", rbd_dev->parent_overlap);
2471         if (count < 0)
2472                 return count;
2473         bufp += count;
2474
2475         return (ssize_t) (bufp - buf);
2476 }
2477
2478 static ssize_t rbd_image_refresh(struct device *dev,
2479                                  struct device_attribute *attr,
2480                                  const char *buf,
2481                                  size_t size)
2482 {
2483         struct rbd_device *rbd_dev = dev_to_rbd_dev(dev);
2484         int ret;
2485
2486         ret = rbd_dev_refresh(rbd_dev, NULL);
2487
2488         return ret < 0 ? ret : size;
2489 }
2490
2491 static DEVICE_ATTR(size, S_IRUGO, rbd_size_show, NULL);
2492 static DEVICE_ATTR(features, S_IRUGO, rbd_features_show, NULL);
2493 static DEVICE_ATTR(major, S_IRUGO, rbd_major_show, NULL);
2494 static DEVICE_ATTR(client_id, S_IRUGO, rbd_client_id_show, NULL);
2495 static DEVICE_ATTR(pool, S_IRUGO, rbd_pool_show, NULL);
2496 static DEVICE_ATTR(pool_id, S_IRUGO, rbd_pool_id_show, NULL);
2497 static DEVICE_ATTR(name, S_IRUGO, rbd_name_show, NULL);
2498 static DEVICE_ATTR(image_id, S_IRUGO, rbd_image_id_show, NULL);
2499 static DEVICE_ATTR(refresh, S_IWUSR, NULL, rbd_image_refresh);
2500 static DEVICE_ATTR(current_snap, S_IRUGO, rbd_snap_show, NULL);
2501 static DEVICE_ATTR(parent, S_IRUGO, rbd_parent_show, NULL);
2502
2503 static struct attribute *rbd_attrs[] = {
2504         &dev_attr_size.attr,
2505         &dev_attr_features.attr,
2506         &dev_attr_major.attr,
2507         &dev_attr_client_id.attr,
2508         &dev_attr_pool.attr,
2509         &dev_attr_pool_id.attr,
2510         &dev_attr_name.attr,
2511         &dev_attr_image_id.attr,
2512         &dev_attr_current_snap.attr,
2513         &dev_attr_parent.attr,
2514         &dev_attr_refresh.attr,
2515         NULL
2516 };
2517
2518 static struct attribute_group rbd_attr_group = {
2519         .attrs = rbd_attrs,
2520 };
2521
2522 static const struct attribute_group *rbd_attr_groups[] = {
2523         &rbd_attr_group,
2524         NULL
2525 };
2526
2527 static void rbd_sysfs_dev_release(struct device *dev)
2528 {
2529 }
2530
2531 static struct device_type rbd_device_type = {
2532         .name           = "rbd",
2533         .groups         = rbd_attr_groups,
2534         .release        = rbd_sysfs_dev_release,
2535 };
2536
2537
2538 /*
2539   sysfs - snapshots
2540 */
2541
2542 static ssize_t rbd_snap_size_show(struct device *dev,
2543                                   struct device_attribute *attr,
2544                                   char *buf)
2545 {
2546         struct rbd_snap *snap = container_of(dev, struct rbd_snap, dev);
2547
2548         return sprintf(buf, "%llu\n", (unsigned long long)snap->size);
2549 }
2550
2551 static ssize_t rbd_snap_id_show(struct device *dev,
2552                                 struct device_attribute *attr,
2553                                 char *buf)
2554 {
2555         struct rbd_snap *snap = container_of(dev, struct rbd_snap, dev);
2556
2557         return sprintf(buf, "%llu\n", (unsigned long long)snap->id);
2558 }
2559
2560 static ssize_t rbd_snap_features_show(struct device *dev,
2561                                 struct device_attribute *attr,
2562                                 char *buf)
2563 {
2564         struct rbd_snap *snap = container_of(dev, struct rbd_snap, dev);
2565
2566         return sprintf(buf, "0x%016llx\n",
2567                         (unsigned long long) snap->features);
2568 }
2569
2570 static DEVICE_ATTR(snap_size, S_IRUGO, rbd_snap_size_show, NULL);
2571 static DEVICE_ATTR(snap_id, S_IRUGO, rbd_snap_id_show, NULL);
2572 static DEVICE_ATTR(snap_features, S_IRUGO, rbd_snap_features_show, NULL);
2573
2574 static struct attribute *rbd_snap_attrs[] = {
2575         &dev_attr_snap_size.attr,
2576         &dev_attr_snap_id.attr,
2577         &dev_attr_snap_features.attr,
2578         NULL,
2579 };
2580
2581 static struct attribute_group rbd_snap_attr_group = {
2582         .attrs = rbd_snap_attrs,
2583 };
2584
2585 static void rbd_snap_dev_release(struct device *dev)
2586 {
2587         struct rbd_snap *snap = container_of(dev, struct rbd_snap, dev);
2588         kfree(snap->name);
2589         kfree(snap);
2590 }
2591
2592 static const struct attribute_group *rbd_snap_attr_groups[] = {
2593         &rbd_snap_attr_group,
2594         NULL
2595 };
2596
2597 static struct device_type rbd_snap_device_type = {
2598         .groups         = rbd_snap_attr_groups,
2599         .release        = rbd_snap_dev_release,
2600 };
2601
2602 static struct rbd_spec *rbd_spec_get(struct rbd_spec *spec)
2603 {
2604         kref_get(&spec->kref);
2605
2606         return spec;
2607 }
2608
2609 static void rbd_spec_free(struct kref *kref);
2610 static void rbd_spec_put(struct rbd_spec *spec)
2611 {
2612         if (spec)
2613                 kref_put(&spec->kref, rbd_spec_free);
2614 }
2615
2616 static struct rbd_spec *rbd_spec_alloc(void)
2617 {
2618         struct rbd_spec *spec;
2619
2620         spec = kzalloc(sizeof (*spec), GFP_KERNEL);
2621         if (!spec)
2622                 return NULL;
2623         kref_init(&spec->kref);
2624
2625         rbd_spec_put(rbd_spec_get(spec));       /* TEMPORARY */
2626
2627         return spec;
2628 }
2629
2630 static void rbd_spec_free(struct kref *kref)
2631 {
2632         struct rbd_spec *spec = container_of(kref, struct rbd_spec, kref);
2633
2634         kfree(spec->pool_name);
2635         kfree(spec->image_id);
2636         kfree(spec->image_name);
2637         kfree(spec->snap_name);
2638         kfree(spec);
2639 }
2640
2641 static struct rbd_device *rbd_dev_create(struct rbd_client *rbdc,
2642                                 struct rbd_spec *spec)
2643 {
2644         struct rbd_device *rbd_dev;
2645
2646         rbd_dev = kzalloc(sizeof (*rbd_dev), GFP_KERNEL);
2647         if (!rbd_dev)
2648                 return NULL;
2649
2650         spin_lock_init(&rbd_dev->lock);
2651         rbd_dev->flags = 0;
2652         INIT_LIST_HEAD(&rbd_dev->node);
2653         INIT_LIST_HEAD(&rbd_dev->snaps);
2654         init_rwsem(&rbd_dev->header_rwsem);
2655
2656         rbd_dev->spec = spec;
2657         rbd_dev->rbd_client = rbdc;
2658
2659         /* Initialize the layout used for all rbd requests */
2660
2661         rbd_dev->layout.fl_stripe_unit = cpu_to_le32(1 << RBD_MAX_OBJ_ORDER);
2662         rbd_dev->layout.fl_stripe_count = cpu_to_le32(1);
2663         rbd_dev->layout.fl_object_size = cpu_to_le32(1 << RBD_MAX_OBJ_ORDER);
2664         rbd_dev->layout.fl_pg_pool = cpu_to_le32((u32) spec->pool_id);
2665
2666         return rbd_dev;
2667 }
2668
2669 static void rbd_dev_destroy(struct rbd_device *rbd_dev)
2670 {
2671         rbd_spec_put(rbd_dev->parent_spec);
2672         kfree(rbd_dev->header_name);
2673         rbd_put_client(rbd_dev->rbd_client);
2674         rbd_spec_put(rbd_dev->spec);
2675         kfree(rbd_dev);
2676 }
2677
2678 static bool rbd_snap_registered(struct rbd_snap *snap)
2679 {
2680         bool ret = snap->dev.type == &rbd_snap_device_type;
2681         bool reg = device_is_registered(&snap->dev);
2682
2683         rbd_assert(!ret ^ reg);
2684
2685         return ret;
2686 }
2687
2688 static void rbd_remove_snap_dev(struct rbd_snap *snap)
2689 {
2690         list_del(&snap->node);
2691         if (device_is_registered(&snap->dev))
2692                 device_unregister(&snap->dev);
2693 }
2694
2695 static int rbd_register_snap_dev(struct rbd_snap *snap,
2696                                   struct device *parent)
2697 {
2698         struct device *dev = &snap->dev;
2699         int ret;
2700
2701         dev->type = &rbd_snap_device_type;
2702         dev->parent = parent;
2703         dev->release = rbd_snap_dev_release;
2704         dev_set_name(dev, "%s%s", RBD_SNAP_DEV_NAME_PREFIX, snap->name);
2705         dout("%s: registering device for snapshot %s\n", __func__, snap->name);
2706
2707         ret = device_register(dev);
2708
2709         return ret;
2710 }
2711
2712 static struct rbd_snap *__rbd_add_snap_dev(struct rbd_device *rbd_dev,
2713                                                 const char *snap_name,
2714                                                 u64 snap_id, u64 snap_size,
2715                                                 u64 snap_features)
2716 {
2717         struct rbd_snap *snap;
2718         int ret;
2719
2720         snap = kzalloc(sizeof (*snap), GFP_KERNEL);
2721         if (!snap)
2722                 return ERR_PTR(-ENOMEM);
2723
2724         ret = -ENOMEM;
2725         snap->name = kstrdup(snap_name, GFP_KERNEL);
2726         if (!snap->name)
2727                 goto err;
2728
2729         snap->id = snap_id;
2730         snap->size = snap_size;
2731         snap->features = snap_features;
2732
2733         return snap;
2734
2735 err:
2736         kfree(snap->name);
2737         kfree(snap);
2738
2739         return ERR_PTR(ret);
2740 }
2741
2742 static char *rbd_dev_v1_snap_info(struct rbd_device *rbd_dev, u32 which,
2743                 u64 *snap_size, u64 *snap_features)
2744 {
2745         char *snap_name;
2746
2747         rbd_assert(which < rbd_dev->header.snapc->num_snaps);
2748
2749         *snap_size = rbd_dev->header.snap_sizes[which];
2750         *snap_features = 0;     /* No features for v1 */
2751
2752         /* Skip over names until we find the one we are looking for */
2753
2754         snap_name = rbd_dev->header.snap_names;
2755         while (which--)
2756                 snap_name += strlen(snap_name) + 1;
2757
2758         return snap_name;
2759 }
2760
2761 /*
2762  * Get the size and object order for an image snapshot, or if
2763  * snap_id is CEPH_NOSNAP, gets this information for the base
2764  * image.
2765  */
2766 static int _rbd_dev_v2_snap_size(struct rbd_device *rbd_dev, u64 snap_id,
2767                                 u8 *order, u64 *snap_size)
2768 {
2769         __le64 snapid = cpu_to_le64(snap_id);
2770         int ret;
2771         struct {
2772                 u8 order;
2773                 __le64 size;
2774         } __attribute__ ((packed)) size_buf = { 0 };
2775
2776         ret = rbd_obj_method_sync(rbd_dev, rbd_dev->header_name,
2777                                 "rbd", "get_size",
2778                                 (char *) &snapid, sizeof (snapid),
2779                                 (char *) &size_buf, sizeof (size_buf), NULL);
2780         dout("%s: rbd_obj_method_sync returned %d\n", __func__, ret);
2781         if (ret < 0)
2782                 return ret;
2783
2784         *order = size_buf.order;
2785         *snap_size = le64_to_cpu(size_buf.size);
2786
2787         dout("  snap_id 0x%016llx order = %u, snap_size = %llu\n",
2788                 (unsigned long long) snap_id, (unsigned int) *order,
2789                 (unsigned long long) *snap_size);
2790
2791         return 0;
2792 }
2793
2794 static int rbd_dev_v2_image_size(struct rbd_device *rbd_dev)
2795 {
2796         return _rbd_dev_v2_snap_size(rbd_dev, CEPH_NOSNAP,
2797                                         &rbd_dev->header.obj_order,
2798                                         &rbd_dev->header.image_size);
2799 }
2800
2801 static int rbd_dev_v2_object_prefix(struct rbd_device *rbd_dev)
2802 {
2803         void *reply_buf;
2804         int ret;
2805         void *p;
2806
2807         reply_buf = kzalloc(RBD_OBJ_PREFIX_LEN_MAX, GFP_KERNEL);
2808         if (!reply_buf)
2809                 return -ENOMEM;
2810
2811         ret = rbd_obj_method_sync(rbd_dev, rbd_dev->header_name,
2812                                 "rbd", "get_object_prefix",
2813                                 NULL, 0,
2814                                 reply_buf, RBD_OBJ_PREFIX_LEN_MAX, NULL);
2815         dout("%s: rbd_obj_method_sync returned %d\n", __func__, ret);
2816         if (ret < 0)
2817                 goto out;
2818
2819         p = reply_buf;
2820         rbd_dev->header.object_prefix = ceph_extract_encoded_string(&p,
2821                                                 p + RBD_OBJ_PREFIX_LEN_MAX,
2822                                                 NULL, GFP_NOIO);
2823
2824         if (IS_ERR(rbd_dev->header.object_prefix)) {
2825                 ret = PTR_ERR(rbd_dev->header.object_prefix);
2826                 rbd_dev->header.object_prefix = NULL;
2827         } else {
2828                 dout("  object_prefix = %s\n", rbd_dev->header.object_prefix);
2829         }
2830
2831 out:
2832         kfree(reply_buf);
2833
2834         return ret;
2835 }
2836
2837 static int _rbd_dev_v2_snap_features(struct rbd_device *rbd_dev, u64 snap_id,
2838                 u64 *snap_features)
2839 {
2840         __le64 snapid = cpu_to_le64(snap_id);
2841         struct {
2842                 __le64 features;
2843                 __le64 incompat;
2844         } features_buf = { 0 };
2845         u64 incompat;
2846         int ret;
2847
2848         ret = rbd_obj_method_sync(rbd_dev, rbd_dev->header_name,
2849                                 "rbd", "get_features",
2850                                 (char *) &snapid, sizeof (snapid),
2851                                 (char *) &features_buf, sizeof (features_buf),
2852                                 NULL);
2853         dout("%s: rbd_obj_method_sync returned %d\n", __func__, ret);
2854         if (ret < 0)
2855                 return ret;
2856
2857         incompat = le64_to_cpu(features_buf.incompat);
2858         if (incompat & ~RBD_FEATURES_ALL)
2859                 return -ENXIO;
2860
2861         *snap_features = le64_to_cpu(features_buf.features);
2862
2863         dout("  snap_id 0x%016llx features = 0x%016llx incompat = 0x%016llx\n",
2864                 (unsigned long long) snap_id,
2865                 (unsigned long long) *snap_features,
2866                 (unsigned long long) le64_to_cpu(features_buf.incompat));
2867
2868         return 0;
2869 }
2870
2871 static int rbd_dev_v2_features(struct rbd_device *rbd_dev)
2872 {
2873         return _rbd_dev_v2_snap_features(rbd_dev, CEPH_NOSNAP,
2874                                                 &rbd_dev->header.features);
2875 }
2876
2877 static int rbd_dev_v2_parent_info(struct rbd_device *rbd_dev)
2878 {
2879         struct rbd_spec *parent_spec;
2880         size_t size;
2881         void *reply_buf = NULL;
2882         __le64 snapid;
2883         void *p;
2884         void *end;
2885         char *image_id;
2886         u64 overlap;
2887         int ret;
2888
2889         parent_spec = rbd_spec_alloc();
2890         if (!parent_spec)
2891                 return -ENOMEM;
2892
2893         size = sizeof (__le64) +                                /* pool_id */
2894                 sizeof (__le32) + RBD_IMAGE_ID_LEN_MAX +        /* image_id */
2895                 sizeof (__le64) +                               /* snap_id */
2896                 sizeof (__le64);                                /* overlap */
2897         reply_buf = kmalloc(size, GFP_KERNEL);
2898         if (!reply_buf) {
2899                 ret = -ENOMEM;
2900                 goto out_err;
2901         }
2902
2903         snapid = cpu_to_le64(CEPH_NOSNAP);
2904         ret = rbd_obj_method_sync(rbd_dev, rbd_dev->header_name,
2905                                 "rbd", "get_parent",
2906                                 (char *) &snapid, sizeof (snapid),
2907                                 (char *) reply_buf, size, NULL);
2908         dout("%s: rbd_obj_method_sync returned %d\n", __func__, ret);
2909         if (ret < 0)
2910                 goto out_err;
2911
2912         ret = -ERANGE;
2913         p = reply_buf;
2914         end = (char *) reply_buf + size;
2915         ceph_decode_64_safe(&p, end, parent_spec->pool_id, out_err);
2916         if (parent_spec->pool_id == CEPH_NOPOOL)
2917                 goto out;       /* No parent?  No problem. */
2918
2919         /* The ceph file layout needs to fit pool id in 32 bits */
2920
2921         ret = -EIO;
2922         if (WARN_ON(parent_spec->pool_id > (u64) U32_MAX))
2923                 goto out;
2924
2925         image_id = ceph_extract_encoded_string(&p, end, NULL, GFP_KERNEL);
2926         if (IS_ERR(image_id)) {
2927                 ret = PTR_ERR(image_id);
2928                 goto out_err;
2929         }
2930         parent_spec->image_id = image_id;
2931         ceph_decode_64_safe(&p, end, parent_spec->snap_id, out_err);
2932         ceph_decode_64_safe(&p, end, overlap, out_err);
2933
2934         rbd_dev->parent_overlap = overlap;
2935         rbd_dev->parent_spec = parent_spec;
2936         parent_spec = NULL;     /* rbd_dev now owns this */
2937 out:
2938         ret = 0;
2939 out_err:
2940         kfree(reply_buf);
2941         rbd_spec_put(parent_spec);
2942
2943         return ret;
2944 }
2945
2946 static char *rbd_dev_image_name(struct rbd_device *rbd_dev)
2947 {
2948         size_t image_id_size;
2949         char *image_id;
2950         void *p;
2951         void *end;
2952         size_t size;
2953         void *reply_buf = NULL;
2954         size_t len = 0;
2955         char *image_name = NULL;
2956         int ret;
2957
2958         rbd_assert(!rbd_dev->spec->image_name);
2959
2960         len = strlen(rbd_dev->spec->image_id);
2961         image_id_size = sizeof (__le32) + len;
2962         image_id = kmalloc(image_id_size, GFP_KERNEL);
2963         if (!image_id)
2964                 return NULL;
2965
2966         p = image_id;
2967         end = (char *) image_id + image_id_size;
2968         ceph_encode_string(&p, end, rbd_dev->spec->image_id, (u32) len);
2969
2970         size = sizeof (__le32) + RBD_IMAGE_NAME_LEN_MAX;
2971         reply_buf = kmalloc(size, GFP_KERNEL);
2972         if (!reply_buf)
2973                 goto out;
2974
2975         ret = rbd_obj_method_sync(rbd_dev, RBD_DIRECTORY,
2976                                 "rbd", "dir_get_name",
2977                                 image_id, image_id_size,
2978                                 (char *) reply_buf, size, NULL);
2979         if (ret < 0)
2980                 goto out;
2981         p = reply_buf;
2982         end = (char *) reply_buf + size;
2983         image_name = ceph_extract_encoded_string(&p, end, &len, GFP_KERNEL);
2984         if (IS_ERR(image_name))
2985                 image_name = NULL;
2986         else
2987                 dout("%s: name is %s len is %zd\n", __func__, image_name, len);
2988 out:
2989         kfree(reply_buf);
2990         kfree(image_id);
2991
2992         return image_name;
2993 }
2994
2995 /*
2996  * When a parent image gets probed, we only have the pool, image,
2997  * and snapshot ids but not the names of any of them.  This call
2998  * is made later to fill in those names.  It has to be done after
2999  * rbd_dev_snaps_update() has completed because some of the
3000  * information (in particular, snapshot name) is not available
3001  * until then.
3002  */
3003 static int rbd_dev_probe_update_spec(struct rbd_device *rbd_dev)
3004 {
3005         struct ceph_osd_client *osdc;
3006         const char *name;
3007         void *reply_buf = NULL;
3008         int ret;
3009
3010         if (rbd_dev->spec->pool_name)
3011                 return 0;       /* Already have the names */
3012
3013         /* Look up the pool name */
3014
3015         osdc = &rbd_dev->rbd_client->client->osdc;
3016         name = ceph_pg_pool_name_by_id(osdc->osdmap, rbd_dev->spec->pool_id);
3017         if (!name) {
3018                 rbd_warn(rbd_dev, "there is no pool with id %llu",
3019                         rbd_dev->spec->pool_id);        /* Really a BUG() */
3020                 return -EIO;
3021         }
3022
3023         rbd_dev->spec->pool_name = kstrdup(name, GFP_KERNEL);
3024         if (!rbd_dev->spec->pool_name)
3025                 return -ENOMEM;
3026
3027         /* Fetch the image name; tolerate failure here */
3028
3029         name = rbd_dev_image_name(rbd_dev);
3030         if (name)
3031                 rbd_dev->spec->image_name = (char *) name;
3032         else
3033                 rbd_warn(rbd_dev, "unable to get image name");
3034
3035         /* Look up the snapshot name. */
3036
3037         name = rbd_snap_name(rbd_dev, rbd_dev->spec->snap_id);
3038         if (!name) {
3039                 rbd_warn(rbd_dev, "no snapshot with id %llu",
3040                         rbd_dev->spec->snap_id);        /* Really a BUG() */
3041                 ret = -EIO;
3042                 goto out_err;
3043         }
3044         rbd_dev->spec->snap_name = kstrdup(name, GFP_KERNEL);
3045         if(!rbd_dev->spec->snap_name)
3046                 goto out_err;
3047
3048         return 0;
3049 out_err:
3050         kfree(reply_buf);
3051         kfree(rbd_dev->spec->pool_name);
3052         rbd_dev->spec->pool_name = NULL;
3053
3054         return ret;
3055 }
3056
3057 static int rbd_dev_v2_snap_context(struct rbd_device *rbd_dev, u64 *ver)
3058 {
3059         size_t size;
3060         int ret;
3061         void *reply_buf;
3062         void *p;
3063         void *end;
3064         u64 seq;
3065         u32 snap_count;
3066         struct ceph_snap_context *snapc;
3067         u32 i;
3068
3069         /*
3070          * We'll need room for the seq value (maximum snapshot id),
3071          * snapshot count, and array of that many snapshot ids.
3072          * For now we have a fixed upper limit on the number we're
3073          * prepared to receive.
3074          */
3075         size = sizeof (__le64) + sizeof (__le32) +
3076                         RBD_MAX_SNAP_COUNT * sizeof (__le64);
3077         reply_buf = kzalloc(size, GFP_KERNEL);
3078         if (!reply_buf)
3079                 return -ENOMEM;
3080
3081         ret = rbd_obj_method_sync(rbd_dev, rbd_dev->header_name,
3082                                 "rbd", "get_snapcontext",
3083                                 NULL, 0,
3084                                 reply_buf, size, ver);
3085         dout("%s: rbd_obj_method_sync returned %d\n", __func__, ret);
3086         if (ret < 0)
3087                 goto out;
3088
3089         ret = -ERANGE;
3090         p = reply_buf;
3091         end = (char *) reply_buf + size;
3092         ceph_decode_64_safe(&p, end, seq, out);
3093         ceph_decode_32_safe(&p, end, snap_count, out);
3094
3095         /*
3096          * Make sure the reported number of snapshot ids wouldn't go
3097          * beyond the end of our buffer.  But before checking that,
3098          * make sure the computed size of the snapshot context we
3099          * allocate is representable in a size_t.
3100          */
3101         if (snap_count > (SIZE_MAX - sizeof (struct ceph_snap_context))
3102                                  / sizeof (u64)) {
3103                 ret = -EINVAL;
3104                 goto out;
3105         }
3106         if (!ceph_has_room(&p, end, snap_count * sizeof (__le64)))
3107                 goto out;
3108
3109         size = sizeof (struct ceph_snap_context) +
3110                                 snap_count * sizeof (snapc->snaps[0]);
3111         snapc = kmalloc(size, GFP_KERNEL);
3112         if (!snapc) {
3113                 ret = -ENOMEM;
3114                 goto out;
3115         }
3116
3117         atomic_set(&snapc->nref, 1);
3118         snapc->seq = seq;
3119         snapc->num_snaps = snap_count;
3120         for (i = 0; i < snap_count; i++)
3121                 snapc->snaps[i] = ceph_decode_64(&p);
3122
3123         rbd_dev->header.snapc = snapc;
3124
3125         dout("  snap context seq = %llu, snap_count = %u\n",
3126                 (unsigned long long) seq, (unsigned int) snap_count);
3127
3128 out:
3129         kfree(reply_buf);
3130
3131         return 0;
3132 }
3133
3134 static char *rbd_dev_v2_snap_name(struct rbd_device *rbd_dev, u32 which)
3135 {
3136         size_t size;
3137         void *reply_buf;
3138         __le64 snap_id;
3139         int ret;
3140         void *p;
3141         void *end;
3142         char *snap_name;
3143
3144         size = sizeof (__le32) + RBD_MAX_SNAP_NAME_LEN;
3145         reply_buf = kmalloc(size, GFP_KERNEL);
3146         if (!reply_buf)
3147                 return ERR_PTR(-ENOMEM);
3148
3149         snap_id = cpu_to_le64(rbd_dev->header.snapc->snaps[which]);
3150         ret = rbd_obj_method_sync(rbd_dev, rbd_dev->header_name,
3151                                 "rbd", "get_snapshot_name",
3152                                 (char *) &snap_id, sizeof (snap_id),
3153                                 reply_buf, size, NULL);
3154         dout("%s: rbd_obj_method_sync returned %d\n", __func__, ret);
3155         if (ret < 0)
3156                 goto out;
3157
3158         p = reply_buf;
3159         end = (char *) reply_buf + size;
3160         snap_name = ceph_extract_encoded_string(&p, end, NULL, GFP_KERNEL);
3161         if (IS_ERR(snap_name)) {
3162                 ret = PTR_ERR(snap_name);
3163                 goto out;
3164         } else {
3165                 dout("  snap_id 0x%016llx snap_name = %s\n",
3166                         (unsigned long long) le64_to_cpu(snap_id), snap_name);
3167         }
3168         kfree(reply_buf);
3169
3170         return snap_name;
3171 out:
3172         kfree(reply_buf);
3173
3174         return ERR_PTR(ret);
3175 }
3176
3177 static char *rbd_dev_v2_snap_info(struct rbd_device *rbd_dev, u32 which,
3178                 u64 *snap_size, u64 *snap_features)
3179 {
3180         u64 snap_id;
3181         u8 order;
3182         int ret;
3183
3184         snap_id = rbd_dev->header.snapc->snaps[which];
3185         ret = _rbd_dev_v2_snap_size(rbd_dev, snap_id, &order, snap_size);
3186         if (ret)
3187                 return ERR_PTR(ret);
3188         ret = _rbd_dev_v2_snap_features(rbd_dev, snap_id, snap_features);
3189         if (ret)
3190                 return ERR_PTR(ret);
3191
3192         return rbd_dev_v2_snap_name(rbd_dev, which);
3193 }
3194
3195 static char *rbd_dev_snap_info(struct rbd_device *rbd_dev, u32 which,
3196                 u64 *snap_size, u64 *snap_features)
3197 {
3198         if (rbd_dev->image_format == 1)
3199                 return rbd_dev_v1_snap_info(rbd_dev, which,
3200                                         snap_size, snap_features);
3201         if (rbd_dev->image_format == 2)
3202                 return rbd_dev_v2_snap_info(rbd_dev, which,
3203                                         snap_size, snap_features);
3204         return ERR_PTR(-EINVAL);
3205 }
3206
3207 static int rbd_dev_v2_refresh(struct rbd_device *rbd_dev, u64 *hver)
3208 {
3209         int ret;
3210         __u8 obj_order;
3211
3212         down_write(&rbd_dev->header_rwsem);
3213
3214         /* Grab old order first, to see if it changes */
3215
3216         obj_order = rbd_dev->header.obj_order,
3217         ret = rbd_dev_v2_image_size(rbd_dev);
3218         if (ret)
3219                 goto out;
3220         if (rbd_dev->header.obj_order != obj_order) {
3221                 ret = -EIO;
3222                 goto out;
3223         }
3224         rbd_update_mapping_size(rbd_dev);
3225
3226         ret = rbd_dev_v2_snap_context(rbd_dev, hver);
3227         dout("rbd_dev_v2_snap_context returned %d\n", ret);
3228         if (ret)
3229                 goto out;
3230         ret = rbd_dev_snaps_update(rbd_dev);
3231         dout("rbd_dev_snaps_update returned %d\n", ret);
3232         if (ret)
3233                 goto out;
3234         ret = rbd_dev_snaps_register(rbd_dev);
3235         dout("rbd_dev_snaps_register returned %d\n", ret);
3236 out:
3237         up_write(&rbd_dev->header_rwsem);
3238
3239         return ret;
3240 }
3241
3242 /*
3243  * Scan the rbd device's current snapshot list and compare it to the
3244  * newly-received snapshot context.  Remove any existing snapshots
3245  * not present in the new snapshot context.  Add a new snapshot for
3246  * any snaphots in the snapshot context not in the current list.
3247  * And verify there are no changes to snapshots we already know
3248  * about.
3249  *
3250  * Assumes the snapshots in the snapshot context are sorted by
3251  * snapshot id, highest id first.  (Snapshots in the rbd_dev's list
3252  * are also maintained in that order.)
3253  */
3254 static int rbd_dev_snaps_update(struct rbd_device *rbd_dev)
3255 {
3256         struct ceph_snap_context *snapc = rbd_dev->header.snapc;
3257         const u32 snap_count = snapc->num_snaps;
3258         struct list_head *head = &rbd_dev->snaps;
3259         struct list_head *links = head->next;
3260         u32 index = 0;
3261
3262         dout("%s: snap count is %u\n", __func__, (unsigned int) snap_count);
3263         while (index < snap_count || links != head) {
3264                 u64 snap_id;
3265                 struct rbd_snap *snap;
3266                 char *snap_name;
3267                 u64 snap_size = 0;
3268                 u64 snap_features = 0;
3269
3270                 snap_id = index < snap_count ? snapc->snaps[index]
3271                                              : CEPH_NOSNAP;
3272                 snap = links != head ? list_entry(links, struct rbd_snap, node)
3273                                      : NULL;
3274                 rbd_assert(!snap || snap->id != CEPH_NOSNAP);
3275
3276                 if (snap_id == CEPH_NOSNAP || (snap && snap->id > snap_id)) {
3277                         struct list_head *next = links->next;
3278
3279                         /*
3280                          * A previously-existing snapshot is not in
3281                          * the new snap context.
3282                          *
3283                          * If the now missing snapshot is the one the
3284                          * image is mapped to, clear its exists flag
3285                          * so we can avoid sending any more requests
3286                          * to it.
3287                          */
3288                         if (rbd_dev->spec->snap_id == snap->id)
3289                                 clear_bit(RBD_DEV_FLAG_EXISTS, &rbd_dev->flags);
3290                         rbd_remove_snap_dev(snap);
3291                         dout("%ssnap id %llu has been removed\n",
3292                                 rbd_dev->spec->snap_id == snap->id ?
3293                                                         "mapped " : "",
3294                                 (unsigned long long) snap->id);
3295
3296                         /* Done with this list entry; advance */
3297
3298                         links = next;
3299                         continue;
3300                 }
3301
3302                 snap_name = rbd_dev_snap_info(rbd_dev, index,
3303                                         &snap_size, &snap_features);
3304                 if (IS_ERR(snap_name))
3305                         return PTR_ERR(snap_name);
3306
3307                 dout("entry %u: snap_id = %llu\n", (unsigned int) snap_count,
3308                         (unsigned long long) snap_id);
3309                 if (!snap || (snap_id != CEPH_NOSNAP && snap->id < snap_id)) {
3310                         struct rbd_snap *new_snap;
3311
3312                         /* We haven't seen this snapshot before */
3313
3314                         new_snap = __rbd_add_snap_dev(rbd_dev, snap_name,
3315                                         snap_id, snap_size, snap_features);
3316                         if (IS_ERR(new_snap)) {
3317                                 int err = PTR_ERR(new_snap);
3318
3319                                 dout("  failed to add dev, error %d\n", err);
3320
3321                                 return err;
3322                         }
3323
3324                         /* New goes before existing, or at end of list */
3325
3326                         dout("  added dev%s\n", snap ? "" : " at end\n");
3327                         if (snap)
3328                                 list_add_tail(&new_snap->node, &snap->node);
3329                         else
3330                                 list_add_tail(&new_snap->node, head);
3331                 } else {
3332                         /* Already have this one */
3333
3334                         dout("  already present\n");
3335
3336                         rbd_assert(snap->size == snap_size);
3337                         rbd_assert(!strcmp(snap->name, snap_name));
3338                         rbd_assert(snap->features == snap_features);
3339
3340                         /* Done with this list entry; advance */
3341
3342                         links = links->next;
3343                 }
3344
3345                 /* Advance to the next entry in the snapshot context */
3346
3347                 index++;
3348         }
3349         dout("%s: done\n", __func__);
3350
3351         return 0;
3352 }
3353
3354 /*
3355  * Scan the list of snapshots and register the devices for any that
3356  * have not already been registered.
3357  */
3358 static int rbd_dev_snaps_register(struct rbd_device *rbd_dev)
3359 {
3360         struct rbd_snap *snap;
3361         int ret = 0;
3362
3363         dout("%s:\n", __func__);
3364         if (WARN_ON(!device_is_registered(&rbd_dev->dev)))
3365                 return -EIO;
3366
3367         list_for_each_entry(snap, &rbd_dev->snaps, node) {
3368                 if (!rbd_snap_registered(snap)) {
3369                         ret = rbd_register_snap_dev(snap, &rbd_dev->dev);
3370                         if (ret < 0)
3371                                 break;
3372                 }
3373         }
3374         dout("%s: returning %d\n", __func__, ret);
3375
3376         return ret;
3377 }
3378
3379 static int rbd_bus_add_dev(struct rbd_device *rbd_dev)
3380 {
3381         struct device *dev;
3382         int ret;
3383
3384         mutex_lock_nested(&ctl_mutex, SINGLE_DEPTH_NESTING);
3385
3386         dev = &rbd_dev->dev;
3387         dev->bus = &rbd_bus_type;
3388         dev->type = &rbd_device_type;
3389         dev->parent = &rbd_root_dev;
3390         dev->release = rbd_dev_release;
3391         dev_set_name(dev, "%d", rbd_dev->dev_id);
3392         ret = device_register(dev);
3393
3394         mutex_unlock(&ctl_mutex);
3395
3396         return ret;
3397 }
3398
3399 static void rbd_bus_del_dev(struct rbd_device *rbd_dev)
3400 {
3401         device_unregister(&rbd_dev->dev);
3402 }
3403
3404 static atomic64_t rbd_dev_id_max = ATOMIC64_INIT(0);
3405
3406 /*
3407  * Get a unique rbd identifier for the given new rbd_dev, and add
3408  * the rbd_dev to the global list.  The minimum rbd id is 1.
3409  */
3410 static void rbd_dev_id_get(struct rbd_device *rbd_dev)
3411 {
3412         rbd_dev->dev_id = atomic64_inc_return(&rbd_dev_id_max);
3413
3414         spin_lock(&rbd_dev_list_lock);
3415         list_add_tail(&rbd_dev->node, &rbd_dev_list);
3416         spin_unlock(&rbd_dev_list_lock);
3417         dout("rbd_dev %p given dev id %llu\n", rbd_dev,
3418                 (unsigned long long) rbd_dev->dev_id);
3419 }
3420
3421 /*
3422  * Remove an rbd_dev from the global list, and record that its
3423  * identifier is no longer in use.
3424  */
3425 static void rbd_dev_id_put(struct rbd_device *rbd_dev)
3426 {
3427         struct list_head *tmp;
3428         int rbd_id = rbd_dev->dev_id;
3429         int max_id;
3430
3431         rbd_assert(rbd_id > 0);
3432
3433         dout("rbd_dev %p released dev id %llu\n", rbd_dev,
3434                 (unsigned long long) rbd_dev->dev_id);
3435         spin_lock(&rbd_dev_list_lock);
3436         list_del_init(&rbd_dev->node);
3437
3438         /*
3439          * If the id being "put" is not the current maximum, there
3440          * is nothing special we need to do.
3441          */
3442         if (rbd_id != atomic64_read(&rbd_dev_id_max)) {
3443                 spin_unlock(&rbd_dev_list_lock);
3444                 return;
3445         }
3446
3447         /*
3448          * We need to update the current maximum id.  Search the
3449          * list to find out what it is.  We're more likely to find
3450          * the maximum at the end, so search the list backward.
3451          */
3452         max_id = 0;
3453         list_for_each_prev(tmp, &rbd_dev_list) {
3454                 struct rbd_device *rbd_dev;
3455
3456                 rbd_dev = list_entry(tmp, struct rbd_device, node);
3457                 if (rbd_dev->dev_id > max_id)
3458                         max_id = rbd_dev->dev_id;
3459         }
3460         spin_unlock(&rbd_dev_list_lock);
3461
3462         /*
3463          * The max id could have been updated by rbd_dev_id_get(), in
3464          * which case it now accurately reflects the new maximum.
3465          * Be careful not to overwrite the maximum value in that
3466          * case.
3467          */
3468         atomic64_cmpxchg(&rbd_dev_id_max, rbd_id, max_id);
3469         dout("  max dev id has been reset\n");
3470 }
3471
3472 /*
3473  * Skips over white space at *buf, and updates *buf to point to the
3474  * first found non-space character (if any). Returns the length of
3475  * the token (string of non-white space characters) found.  Note
3476  * that *buf must be terminated with '\0'.
3477  */
3478 static inline size_t next_token(const char **buf)
3479 {
3480         /*
3481         * These are the characters that produce nonzero for
3482         * isspace() in the "C" and "POSIX" locales.
3483         */
3484         const char *spaces = " \f\n\r\t\v";
3485
3486         *buf += strspn(*buf, spaces);   /* Find start of token */
3487
3488         return strcspn(*buf, spaces);   /* Return token length */
3489 }
3490
3491 /*
3492  * Finds the next token in *buf, and if the provided token buffer is
3493  * big enough, copies the found token into it.  The result, if
3494  * copied, is guaranteed to be terminated with '\0'.  Note that *buf
3495  * must be terminated with '\0' on entry.
3496  *
3497  * Returns the length of the token found (not including the '\0').
3498  * Return value will be 0 if no token is found, and it will be >=
3499  * token_size if the token would not fit.
3500  *
3501  * The *buf pointer will be updated to point beyond the end of the
3502  * found token.  Note that this occurs even if the token buffer is
3503  * too small to hold it.
3504  */
3505 static inline size_t copy_token(const char **buf,
3506                                 char *token,
3507                                 size_t token_size)
3508 {
3509         size_t len;
3510
3511         len = next_token(buf);
3512         if (len < token_size) {
3513                 memcpy(token, *buf, len);
3514                 *(token + len) = '\0';
3515         }
3516         *buf += len;
3517
3518         return len;
3519 }
3520
3521 /*
3522  * Finds the next token in *buf, dynamically allocates a buffer big
3523  * enough to hold a copy of it, and copies the token into the new
3524  * buffer.  The copy is guaranteed to be terminated with '\0'.  Note
3525  * that a duplicate buffer is created even for a zero-length token.
3526  *
3527  * Returns a pointer to the newly-allocated duplicate, or a null
3528  * pointer if memory for the duplicate was not available.  If
3529  * the lenp argument is a non-null pointer, the length of the token
3530  * (not including the '\0') is returned in *lenp.
3531  *
3532  * If successful, the *buf pointer will be updated to point beyond
3533  * the end of the found token.
3534  *
3535  * Note: uses GFP_KERNEL for allocation.
3536  */
3537 static inline char *dup_token(const char **buf, size_t *lenp)
3538 {
3539         char *dup;
3540         size_t len;
3541
3542         len = next_token(buf);
3543         dup = kmemdup(*buf, len + 1, GFP_KERNEL);
3544         if (!dup)
3545                 return NULL;
3546         *(dup + len) = '\0';
3547         *buf += len;
3548
3549         if (lenp)
3550                 *lenp = len;
3551
3552         return dup;
3553 }
3554
3555 /*
3556  * Parse the options provided for an "rbd add" (i.e., rbd image
3557  * mapping) request.  These arrive via a write to /sys/bus/rbd/add,
3558  * and the data written is passed here via a NUL-terminated buffer.
3559  * Returns 0 if successful or an error code otherwise.
3560  *
3561  * The information extracted from these options is recorded in
3562  * the other parameters which return dynamically-allocated
3563  * structures:
3564  *  ceph_opts
3565  *      The address of a pointer that will refer to a ceph options
3566  *      structure.  Caller must release the returned pointer using
3567  *      ceph_destroy_options() when it is no longer needed.
3568  *  rbd_opts
3569  *      Address of an rbd options pointer.  Fully initialized by
3570  *      this function; caller must release with kfree().
3571  *  spec
3572  *      Address of an rbd image specification pointer.  Fully
3573  *      initialized by this function based on parsed options.
3574  *      Caller must release with rbd_spec_put().
3575  *
3576  * The options passed take this form:
3577  *  <mon_addrs> <options> <pool_name> <image_name> [<snap_id>]
3578  * where:
3579  *  <mon_addrs>
3580  *      A comma-separated list of one or more monitor addresses.
3581  *      A monitor address is an ip address, optionally followed
3582  *      by a port number (separated by a colon).
3583  *        I.e.:  ip1[:port1][,ip2[:port2]...]
3584  *  <options>
3585  *      A comma-separated list of ceph and/or rbd options.
3586  *  <pool_name>
3587  *      The name of the rados pool containing the rbd image.
3588  *  <image_name>
3589  *      The name of the image in that pool to map.
3590  *  <snap_id>
3591  *      An optional snapshot id.  If provided, the mapping will
3592  *      present data from the image at the time that snapshot was
3593  *      created.  The image head is used if no snapshot id is
3594  *      provided.  Snapshot mappings are always read-only.
3595  */
3596 static int rbd_add_parse_args(const char *buf,
3597                                 struct ceph_options **ceph_opts,
3598                                 struct rbd_options **opts,
3599                                 struct rbd_spec **rbd_spec)
3600 {
3601         size_t len;
3602         char *options;
3603         const char *mon_addrs;
3604         size_t mon_addrs_size;
3605         struct rbd_spec *spec = NULL;
3606         struct rbd_options *rbd_opts = NULL;
3607         struct ceph_options *copts;
3608         int ret;
3609
3610         /* The first four tokens are required */
3611
3612         len = next_token(&buf);
3613         if (!len) {
3614                 rbd_warn(NULL, "no monitor address(es) provided");
3615                 return -EINVAL;
3616         }
3617         mon_addrs = buf;
3618         mon_addrs_size = len + 1;
3619         buf += len;
3620
3621         ret = -EINVAL;
3622         options = dup_token(&buf, NULL);
3623         if (!options)
3624                 return -ENOMEM;
3625         if (!*options) {
3626                 rbd_warn(NULL, "no options provided");
3627                 goto out_err;
3628         }
3629
3630         spec = rbd_spec_alloc();
3631         if (!spec)
3632                 goto out_mem;
3633
3634         spec->pool_name = dup_token(&buf, NULL);
3635         if (!spec->pool_name)
3636                 goto out_mem;
3637         if (!*spec->pool_name) {
3638                 rbd_warn(NULL, "no pool name provided");
3639                 goto out_err;
3640         }
3641
3642         spec->image_name = dup_token(&buf, NULL);
3643         if (!spec->image_name)
3644                 goto out_mem;
3645         if (!*spec->image_name) {
3646                 rbd_warn(NULL, "no image name provided");
3647                 goto out_err;
3648         }
3649
3650         /*
3651          * Snapshot name is optional; default is to use "-"
3652          * (indicating the head/no snapshot).
3653          */
3654         len = next_token(&buf);
3655         if (!len) {
3656                 buf = RBD_SNAP_HEAD_NAME; /* No snapshot supplied */
3657                 len = sizeof (RBD_SNAP_HEAD_NAME) - 1;
3658         } else if (len > RBD_MAX_SNAP_NAME_LEN) {
3659                 ret = -ENAMETOOLONG;
3660                 goto out_err;
3661         }
3662         spec->snap_name = kmemdup(buf, len + 1, GFP_KERNEL);
3663         if (!spec->snap_name)
3664                 goto out_mem;
3665         *(spec->snap_name + len) = '\0';
3666
3667         /* Initialize all rbd options to the defaults */
3668
3669         rbd_opts = kzalloc(sizeof (*rbd_opts), GFP_KERNEL);
3670         if (!rbd_opts)
3671                 goto out_mem;
3672
3673         rbd_opts->read_only = RBD_READ_ONLY_DEFAULT;
3674
3675         copts = ceph_parse_options(options, mon_addrs,
3676                                         mon_addrs + mon_addrs_size - 1,
3677                                         parse_rbd_opts_token, rbd_opts);
3678         if (IS_ERR(copts)) {
3679                 ret = PTR_ERR(copts);
3680                 goto out_err;
3681         }
3682         kfree(options);
3683
3684         *ceph_opts = copts;
3685         *opts = rbd_opts;
3686         *rbd_spec = spec;
3687
3688         return 0;
3689 out_mem:
3690         ret = -ENOMEM;
3691 out_err:
3692         kfree(rbd_opts);
3693         rbd_spec_put(spec);
3694         kfree(options);
3695
3696         return ret;
3697 }
3698
3699 /*
3700  * An rbd format 2 image has a unique identifier, distinct from the
3701  * name given to it by the user.  Internally, that identifier is
3702  * what's used to specify the names of objects related to the image.
3703  *
3704  * A special "rbd id" object is used to map an rbd image name to its
3705  * id.  If that object doesn't exist, then there is no v2 rbd image
3706  * with the supplied name.
3707  *
3708  * This function will record the given rbd_dev's image_id field if
3709  * it can be determined, and in that case will return 0.  If any
3710  * errors occur a negative errno will be returned and the rbd_dev's
3711  * image_id field will be unchanged (and should be NULL).
3712  */
3713 static int rbd_dev_image_id(struct rbd_device *rbd_dev)
3714 {
3715         int ret;
3716         size_t size;
3717         char *object_name;
3718         void *response;
3719         void *p;
3720
3721         /*
3722          * When probing a parent image, the image id is already
3723          * known (and the image name likely is not).  There's no
3724          * need to fetch the image id again in this case.
3725          */
3726         if (rbd_dev->spec->image_id)
3727                 return 0;
3728
3729         /*
3730          * First, see if the format 2 image id file exists, and if
3731          * so, get the image's persistent id from it.
3732          */
3733         size = sizeof (RBD_ID_PREFIX) + strlen(rbd_dev->spec->image_name);
3734         object_name = kmalloc(size, GFP_NOIO);
3735         if (!object_name)
3736                 return -ENOMEM;
3737         sprintf(object_name, "%s%s", RBD_ID_PREFIX, rbd_dev->spec->image_name);
3738         dout("rbd id object name is %s\n", object_name);
3739
3740         /* Response will be an encoded string, which includes a length */
3741
3742         size = sizeof (__le32) + RBD_IMAGE_ID_LEN_MAX;
3743         response = kzalloc(size, GFP_NOIO);
3744         if (!response) {
3745                 ret = -ENOMEM;
3746                 goto out;
3747         }
3748
3749         ret = rbd_obj_method_sync(rbd_dev, object_name,
3750                                 "rbd", "get_id",
3751                                 NULL, 0,
3752                                 response, RBD_IMAGE_ID_LEN_MAX, NULL);
3753         dout("%s: rbd_obj_method_sync returned %d\n", __func__, ret);
3754         if (ret < 0)
3755                 goto out;
3756
3757         p = response;
3758         rbd_dev->spec->image_id = ceph_extract_encoded_string(&p,
3759                                                 p + RBD_IMAGE_ID_LEN_MAX,
3760                                                 NULL, GFP_NOIO);
3761         if (IS_ERR(rbd_dev->spec->image_id)) {
3762                 ret = PTR_ERR(rbd_dev->spec->image_id);
3763                 rbd_dev->spec->image_id = NULL;
3764         } else {
3765                 dout("image_id is %s\n", rbd_dev->spec->image_id);
3766         }
3767 out:
3768         kfree(response);
3769         kfree(object_name);
3770
3771         return ret;
3772 }
3773
3774 static int rbd_dev_v1_probe(struct rbd_device *rbd_dev)
3775 {
3776         int ret;
3777         size_t size;
3778
3779         /* Version 1 images have no id; empty string is used */
3780
3781         rbd_dev->spec->image_id = kstrdup("", GFP_KERNEL);
3782         if (!rbd_dev->spec->image_id)
3783                 return -ENOMEM;
3784
3785         /* Record the header object name for this rbd image. */
3786
3787         size = strlen(rbd_dev->spec->image_name) + sizeof (RBD_SUFFIX);
3788         rbd_dev->header_name = kmalloc(size, GFP_KERNEL);
3789         if (!rbd_dev->header_name) {
3790                 ret = -ENOMEM;
3791                 goto out_err;
3792         }
3793         sprintf(rbd_dev->header_name, "%s%s",
3794                 rbd_dev->spec->image_name, RBD_SUFFIX);
3795
3796         /* Populate rbd image metadata */
3797
3798         ret = rbd_read_header(rbd_dev, &rbd_dev->header);
3799         if (ret < 0)
3800                 goto out_err;
3801
3802         /* Version 1 images have no parent (no layering) */
3803
3804         rbd_dev->parent_spec = NULL;
3805         rbd_dev->parent_overlap = 0;
3806
3807         rbd_dev->image_format = 1;
3808
3809         dout("discovered version 1 image, header name is %s\n",
3810                 rbd_dev->header_name);
3811
3812         return 0;
3813
3814 out_err:
3815         kfree(rbd_dev->header_name);
3816         rbd_dev->header_name = NULL;
3817         kfree(rbd_dev->spec->image_id);
3818         rbd_dev->spec->image_id = NULL;
3819
3820         return ret;
3821 }
3822
3823 static int rbd_dev_v2_probe(struct rbd_device *rbd_dev)
3824 {
3825         size_t size;
3826         int ret;
3827         u64 ver = 0;
3828
3829         /*
3830          * Image id was filled in by the caller.  Record the header
3831          * object name for this rbd image.
3832          */
3833         size = sizeof (RBD_HEADER_PREFIX) + strlen(rbd_dev->spec->image_id);
3834         rbd_dev->header_name = kmalloc(size, GFP_KERNEL);
3835         if (!rbd_dev->header_name)
3836                 return -ENOMEM;
3837         sprintf(rbd_dev->header_name, "%s%s",
3838                         RBD_HEADER_PREFIX, rbd_dev->spec->image_id);
3839
3840         /* Get the size and object order for the image */
3841
3842         ret = rbd_dev_v2_image_size(rbd_dev);
3843         if (ret < 0)
3844                 goto out_err;
3845
3846         /* Get the object prefix (a.k.a. block_name) for the image */
3847
3848         ret = rbd_dev_v2_object_prefix(rbd_dev);
3849         if (ret < 0)
3850                 goto out_err;
3851
3852         /* Get the and check features for the image */
3853
3854         ret = rbd_dev_v2_features(rbd_dev);
3855         if (ret < 0)
3856                 goto out_err;
3857
3858         /* If the image supports layering, get the parent info */
3859
3860         if (rbd_dev->header.features & RBD_FEATURE_LAYERING) {
3861                 ret = rbd_dev_v2_parent_info(rbd_dev);
3862                 if (ret < 0)
3863                         goto out_err;
3864         }
3865
3866         /* crypto and compression type aren't (yet) supported for v2 images */
3867
3868         rbd_dev->header.crypt_type = 0;
3869         rbd_dev->header.comp_type = 0;
3870
3871         /* Get the snapshot context, plus the header version */
3872
3873         ret = rbd_dev_v2_snap_context(rbd_dev, &ver);
3874         if (ret)
3875                 goto out_err;
3876         rbd_dev->header.obj_version = ver;
3877
3878         rbd_dev->image_format = 2;
3879
3880         dout("discovered version 2 image, header name is %s\n",
3881                 rbd_dev->header_name);
3882
3883         return 0;
3884 out_err:
3885         rbd_dev->parent_overlap = 0;
3886         rbd_spec_put(rbd_dev->parent_spec);
3887         rbd_dev->parent_spec = NULL;
3888         kfree(rbd_dev->header_name);
3889         rbd_dev->header_name = NULL;
3890         kfree(rbd_dev->header.object_prefix);
3891         rbd_dev->header.object_prefix = NULL;
3892
3893         return ret;
3894 }
3895
3896 static int rbd_dev_probe_finish(struct rbd_device *rbd_dev)
3897 {
3898         int ret;
3899
3900         /* no need to lock here, as rbd_dev is not registered yet */
3901         ret = rbd_dev_snaps_update(rbd_dev);
3902         if (ret)
3903                 return ret;
3904
3905         ret = rbd_dev_probe_update_spec(rbd_dev);
3906         if (ret)
3907                 goto err_out_snaps;
3908
3909         ret = rbd_dev_set_mapping(rbd_dev);
3910         if (ret)
3911                 goto err_out_snaps;
3912
3913         /* generate unique id: find highest unique id, add one */
3914         rbd_dev_id_get(rbd_dev);
3915
3916         /* Fill in the device name, now that we have its id. */
3917         BUILD_BUG_ON(DEV_NAME_LEN
3918                         < sizeof (RBD_DRV_NAME) + MAX_INT_FORMAT_WIDTH);
3919         sprintf(rbd_dev->name, "%s%d", RBD_DRV_NAME, rbd_dev->dev_id);
3920
3921         /* Get our block major device number. */
3922
3923         ret = register_blkdev(0, rbd_dev->name);
3924         if (ret < 0)
3925                 goto err_out_id;
3926         rbd_dev->major = ret;
3927
3928         /* Set up the blkdev mapping. */
3929
3930         ret = rbd_init_disk(rbd_dev);
3931         if (ret)
3932                 goto err_out_blkdev;
3933
3934         ret = rbd_bus_add_dev(rbd_dev);
3935         if (ret)
3936                 goto err_out_disk;
3937
3938         /*
3939          * At this point cleanup in the event of an error is the job
3940          * of the sysfs code (initiated by rbd_bus_del_dev()).
3941          */
3942         down_write(&rbd_dev->header_rwsem);
3943         ret = rbd_dev_snaps_register(rbd_dev);
3944         up_write(&rbd_dev->header_rwsem);
3945         if (ret)
3946                 goto err_out_bus;
3947
3948         ret = rbd_dev_header_watch_sync(rbd_dev, 1);
3949         if (ret)
3950                 goto err_out_bus;
3951
3952         /* Everything's ready.  Announce the disk to the world. */
3953
3954         add_disk(rbd_dev->disk);
3955
3956         pr_info("%s: added with size 0x%llx\n", rbd_dev->disk->disk_name,
3957                 (unsigned long long) rbd_dev->mapping.size);
3958
3959         return ret;
3960 err_out_bus:
3961         /* this will also clean up rest of rbd_dev stuff */
3962
3963         rbd_bus_del_dev(rbd_dev);
3964
3965         return ret;
3966 err_out_disk:
3967         rbd_free_disk(rbd_dev);
3968 err_out_blkdev:
3969         unregister_blkdev(rbd_dev->major, rbd_dev->name);
3970 err_out_id:
3971         rbd_dev_id_put(rbd_dev);
3972 err_out_snaps:
3973         rbd_remove_all_snaps(rbd_dev);
3974
3975         return ret;
3976 }
3977
3978 /*
3979  * Probe for the existence of the header object for the given rbd
3980  * device.  For format 2 images this includes determining the image
3981  * id.
3982  */
3983 static int rbd_dev_probe(struct rbd_device *rbd_dev)
3984 {
3985         int ret;
3986
3987         /*
3988          * Get the id from the image id object.  If it's not a
3989          * format 2 image, we'll get ENOENT back, and we'll assume
3990          * it's a format 1 image.
3991          */
3992         ret = rbd_dev_image_id(rbd_dev);
3993         if (ret)
3994                 ret = rbd_dev_v1_probe(rbd_dev);
3995         else
3996                 ret = rbd_dev_v2_probe(rbd_dev);
3997         if (ret) {
3998                 dout("probe failed, returning %d\n", ret);
3999
4000                 return ret;
4001         }
4002
4003         ret = rbd_dev_probe_finish(rbd_dev);
4004         if (ret)
4005                 rbd_header_free(&rbd_dev->header);
4006
4007         return ret;
4008 }
4009
4010 static ssize_t rbd_add(struct bus_type *bus,
4011                        const char *buf,
4012                        size_t count)
4013 {
4014         struct rbd_device *rbd_dev = NULL;
4015         struct ceph_options *ceph_opts = NULL;
4016         struct rbd_options *rbd_opts = NULL;
4017         struct rbd_spec *spec = NULL;
4018         struct rbd_client *rbdc;
4019         struct ceph_osd_client *osdc;
4020         int rc = -ENOMEM;
4021
4022         if (!try_module_get(THIS_MODULE))
4023                 return -ENODEV;
4024
4025         /* parse add command */
4026         rc = rbd_add_parse_args(buf, &ceph_opts, &rbd_opts, &spec);
4027         if (rc < 0)
4028                 goto err_out_module;
4029
4030         rbdc = rbd_get_client(ceph_opts);
4031         if (IS_ERR(rbdc)) {
4032                 rc = PTR_ERR(rbdc);
4033                 goto err_out_args;
4034         }
4035         ceph_opts = NULL;       /* rbd_dev client now owns this */
4036
4037         /* pick the pool */
4038         osdc = &rbdc->client->osdc;
4039         rc = ceph_pg_poolid_by_name(osdc->osdmap, spec->pool_name);
4040         if (rc < 0)
4041                 goto err_out_client;
4042         spec->pool_id = (u64) rc;
4043
4044         /* The ceph file layout needs to fit pool id in 32 bits */
4045
4046         if (WARN_ON(spec->pool_id > (u64) U32_MAX)) {
4047                 rc = -EIO;
4048                 goto err_out_client;
4049         }
4050
4051         rbd_dev = rbd_dev_create(rbdc, spec);
4052         if (!rbd_dev)
4053                 goto err_out_client;
4054         rbdc = NULL;            /* rbd_dev now owns this */
4055         spec = NULL;            /* rbd_dev now owns this */
4056
4057         rbd_dev->mapping.read_only = rbd_opts->read_only;
4058         kfree(rbd_opts);
4059         rbd_opts = NULL;        /* done with this */
4060
4061         rc = rbd_dev_probe(rbd_dev);
4062         if (rc < 0)
4063                 goto err_out_rbd_dev;
4064
4065         return count;
4066 err_out_rbd_dev:
4067         rbd_dev_destroy(rbd_dev);
4068 err_out_client:
4069         rbd_put_client(rbdc);
4070 err_out_args:
4071         if (ceph_opts)
4072                 ceph_destroy_options(ceph_opts);
4073         kfree(rbd_opts);
4074         rbd_spec_put(spec);
4075 err_out_module:
4076         module_put(THIS_MODULE);
4077
4078         dout("Error adding device %s\n", buf);
4079
4080         return (ssize_t) rc;
4081 }
4082
4083 static struct rbd_device *__rbd_get_dev(unsigned long dev_id)
4084 {
4085         struct list_head *tmp;
4086         struct rbd_device *rbd_dev;
4087
4088         spin_lock(&rbd_dev_list_lock);
4089         list_for_each(tmp, &rbd_dev_list) {
4090                 rbd_dev = list_entry(tmp, struct rbd_device, node);
4091                 if (rbd_dev->dev_id == dev_id) {
4092                         spin_unlock(&rbd_dev_list_lock);
4093                         return rbd_dev;
4094                 }
4095         }
4096         spin_unlock(&rbd_dev_list_lock);
4097         return NULL;
4098 }
4099
4100 static void rbd_dev_release(struct device *dev)
4101 {
4102         struct rbd_device *rbd_dev = dev_to_rbd_dev(dev);
4103
4104         if (rbd_dev->watch_event)
4105                 rbd_dev_header_watch_sync(rbd_dev, 0);
4106
4107         /* clean up and free blkdev */
4108         rbd_free_disk(rbd_dev);
4109         unregister_blkdev(rbd_dev->major, rbd_dev->name);
4110
4111         /* release allocated disk header fields */
4112         rbd_header_free(&rbd_dev->header);
4113
4114         /* done with the id, and with the rbd_dev */
4115         rbd_dev_id_put(rbd_dev);
4116         rbd_assert(rbd_dev->rbd_client != NULL);
4117         rbd_dev_destroy(rbd_dev);
4118
4119         /* release module ref */
4120         module_put(THIS_MODULE);
4121 }
4122
4123 static ssize_t rbd_remove(struct bus_type *bus,
4124                           const char *buf,
4125                           size_t count)
4126 {
4127         struct rbd_device *rbd_dev = NULL;
4128         int target_id, rc;
4129         unsigned long ul;
4130         int ret = count;
4131
4132         rc = strict_strtoul(buf, 10, &ul);
4133         if (rc)
4134                 return rc;
4135
4136         /* convert to int; abort if we lost anything in the conversion */
4137         target_id = (int) ul;
4138         if (target_id != ul)
4139                 return -EINVAL;
4140
4141         mutex_lock_nested(&ctl_mutex, SINGLE_DEPTH_NESTING);
4142
4143         rbd_dev = __rbd_get_dev(target_id);
4144         if (!rbd_dev) {
4145                 ret = -ENOENT;
4146                 goto done;
4147         }
4148
4149         spin_lock_irq(&rbd_dev->lock);
4150         if (rbd_dev->open_count)
4151                 ret = -EBUSY;
4152         else
4153                 set_bit(RBD_DEV_FLAG_REMOVING, &rbd_dev->flags);
4154         spin_unlock_irq(&rbd_dev->lock);
4155         if (ret < 0)
4156                 goto done;
4157
4158         rbd_remove_all_snaps(rbd_dev);
4159         rbd_bus_del_dev(rbd_dev);
4160
4161 done:
4162         mutex_unlock(&ctl_mutex);
4163
4164         return ret;
4165 }
4166
4167 /*
4168  * create control files in sysfs
4169  * /sys/bus/rbd/...
4170  */
4171 static int rbd_sysfs_init(void)
4172 {
4173         int ret;
4174
4175         ret = device_register(&rbd_root_dev);
4176         if (ret < 0)
4177                 return ret;
4178
4179         ret = bus_register(&rbd_bus_type);
4180         if (ret < 0)
4181                 device_unregister(&rbd_root_dev);
4182
4183         return ret;
4184 }
4185
4186 static void rbd_sysfs_cleanup(void)
4187 {
4188         bus_unregister(&rbd_bus_type);
4189         device_unregister(&rbd_root_dev);
4190 }
4191
4192 static int __init rbd_init(void)
4193 {
4194         int rc;
4195
4196         if (!libceph_compatible(NULL)) {
4197                 rbd_warn(NULL, "libceph incompatibility (quitting)");
4198
4199                 return -EINVAL;
4200         }
4201         rc = rbd_sysfs_init();
4202         if (rc)
4203                 return rc;
4204         pr_info("loaded " RBD_DRV_NAME_LONG "\n");
4205         return 0;
4206 }
4207
4208 static void __exit rbd_exit(void)
4209 {
4210         rbd_sysfs_cleanup();
4211 }
4212
4213 module_init(rbd_init);
4214 module_exit(rbd_exit);
4215
4216 MODULE_AUTHOR("Sage Weil <sage@newdream.net>");
4217 MODULE_AUTHOR("Yehuda Sadeh <yehuda@hq.newdream.net>");
4218 MODULE_DESCRIPTION("rados block device");
4219
4220 /* following authorship retained from original osdblk.c */
4221 MODULE_AUTHOR("Jeff Garzik <jeff@garzik.org>");
4222
4223 MODULE_LICENSE("GPL");