fs/f2fs/checkpoint.c

   1 /*
   2  * fs/f2fs/checkpoint.c
   3  *
   4  * Copyright (c) 2012 Samsung Electronics Co., Ltd.
   5  *             http://www.samsung.com/
   6  *
   7  * This program is free software; you can redistribute it and/or modify
   8  * it under the terms of the GNU General Public License version 2 as
   9  * published by the Free Software Foundation.
  10  */
  11 #include <linux/fs.h>
  12 #include <linux/bio.h>
  13 #include <linux/mpage.h>
  14 #include <linux/writeback.h>
  15 #include <linux/blkdev.h>
  16 #include <linux/f2fs_fs.h>
  17 #include <linux/pagevec.h>
  18 #include <linux/swap.h>
  19
  20 #include "f2fs.h"
  21 #include "node.h"
  22 #include "segment.h"
  23 #include <trace/events/f2fs.h>
  24
  25 static struct kmem_cache *ino_entry_slab;
  26 static struct kmem_cache *inode_entry_slab;
  27
  28 /*
  29  * We guarantee no failure on the returned page.
  30  */
  31 struct page *grab_meta_page(struct f2fs_sb_info *sbi, pgoff_t index)
  32 {
  33         struct address_space *mapping = META_MAPPING(sbi);
  34         struct page *page = NULL;
  35 repeat:
  36         page = grab_cache_page(mapping, index);
  37         if (!page) {
  38                 cond_resched();
  39                 goto repeat;
  40         }
  41         f2fs_wait_on_page_writeback(page, META);
  42         SetPageUptodate(page);
  43         return page;
  44 }
  45
  46 /*
  47  * We guarantee no failure on the returned page.
  48  */
  49 struct page *get_meta_page(struct f2fs_sb_info *sbi, pgoff_t index)
  50 {
  51         struct address_space *mapping = META_MAPPING(sbi);
  52         struct page *page;
  53 repeat:
  54         page = grab_cache_page(mapping, index);
  55         if (!page) {
  56                 cond_resched();
  57                 goto repeat;
  58         }
  59         if (PageUptodate(page))
  60                 goto out;
  61
  62         if (f2fs_submit_page_bio(sbi, page, index,
  63                                 READ_SYNC | REQ_META | REQ_PRIO))
  64                 goto repeat;
  65
  66         lock_page(page);
  67         if (unlikely(page->mapping != mapping)) {
  68                 f2fs_put_page(page, 1);
  69                 goto repeat;
  70         }
  71 out:
  72         return page;
  73 }
  74
  75 struct page *get_meta_page_ra(struct f2fs_sb_info *sbi, pgoff_t index)
  76 {
  77         bool readahead = false;
  78         struct page *page;
  79
  80         page = find_get_page(META_MAPPING(sbi), index);
  81         if (!page || (page && !PageUptodate(page)))
  82                 readahead = true;
  83         f2fs_put_page(page, 0);
  84
  85         if (readahead)
  86                 ra_meta_pages(sbi, index, MAX_BIO_BLOCKS(sbi), META_POR);
  87         return get_meta_page(sbi, index);
  88 }
  89
  90 static inline block_t get_max_meta_blks(struct f2fs_sb_info *sbi, int type)
  91 {
  92         switch (type) {
  93         case META_NAT:
  94                 return NM_I(sbi)->max_nid / NAT_ENTRY_PER_BLOCK;
  95         case META_SIT:
  96                 return SIT_BLK_CNT(sbi);
  97         case META_SSA:
  98         case META_CP:
  99                 return 0;
 100         case META_POR:
 101                 return SM_I(sbi)->seg0_blkaddr + TOTAL_BLKS(sbi);
 102         default:
 103                 BUG();
 104         }
 105 }
 106
 107 /*
 108  * Readahead CP/NAT/SIT/SSA pages
 109  */
 110 int ra_meta_pages(struct f2fs_sb_info *sbi, block_t start, int nrpages, int type)
 111 {
 112         block_t prev_blk_addr = 0;
 113         struct page *page;
 114         block_t blkno = start;
 115         block_t max_blks = get_max_meta_blks(sbi, type);
 116         block_t min_blks = SM_I(sbi)->seg0_blkaddr;
 117
 118         struct f2fs_io_info fio = {
 119                 .type = META,
 120                 .rw = READ_SYNC | REQ_META | REQ_PRIO
 121         };
 122
 123         for (; nrpages-- > 0; blkno++) {
 124                 block_t blk_addr;
 125
 126                 switch (type) {
 127                 case META_NAT:
 128                         /* get nat block addr */
 129                         if (unlikely(blkno >= max_blks))
 130                                 blkno = 0;
 131                         blk_addr = current_nat_addr(sbi,
 132                                         blkno * NAT_ENTRY_PER_BLOCK);
 133                         break;
 134                 case META_SIT:
 135                         /* get sit block addr */
 136                         if (unlikely(blkno >= max_blks))
 137                                 goto out;
 138                         blk_addr = current_sit_addr(sbi,
 139                                         blkno * SIT_ENTRY_PER_BLOCK);
 140                         if (blkno != start && prev_blk_addr + 1 != blk_addr)
 141                                 goto out;
 142                         prev_blk_addr = blk_addr;
 143                         break;
 144                 case META_SSA:
 145                 case META_CP:
 146                 case META_POR:
 147                         if (unlikely(blkno >= max_blks))
 148                                 goto out;
 149                         if (unlikely(blkno < min_blks))
 150                                 goto out;
 151                         blk_addr = blkno;
 152                         break;
 153                 default:
 154                         BUG();
 155                 }
 156
 157                 page = grab_cache_page(META_MAPPING(sbi), blk_addr);
 158                 if (!page)
 159                         continue;
 160                 if (PageUptodate(page)) {
 161                         f2fs_put_page(page, 1);
 162                         continue;
 163                 }
 164
 165                 f2fs_submit_page_mbio(sbi, page, blk_addr, &fio);
 166                 f2fs_put_page(page, 0);
 167         }
 168 out:
 169         f2fs_submit_merged_bio(sbi, META, READ);
 170         return blkno - start;
 171 }
 172
 173 static int f2fs_write_meta_page(struct page *page,
 174                                 struct writeback_control *wbc)
 175 {
 176         struct f2fs_sb_info *sbi = F2FS_P_SB(page);
 177
 178         trace_f2fs_writepage(page, META);
 179
 180         if (unlikely(sbi->por_doing))
 181                 goto redirty_out;
 182         if (wbc->for_reclaim)
 183                 goto redirty_out;
 184         if (unlikely(f2fs_cp_error(sbi)))
 185                 goto redirty_out;
 186
 187         f2fs_wait_on_page_writeback(page, META);
 188         write_meta_page(sbi, page);
 189         dec_page_count(sbi, F2FS_DIRTY_META);
 190         unlock_page(page);
 191         return 0;
 192
 193 redirty_out:
 194         redirty_page_for_writepage(wbc, page);
 195         return AOP_WRITEPAGE_ACTIVATE;
 196 }
 197
 198 static int f2fs_write_meta_pages(struct address_space *mapping,
 199                                 struct writeback_control *wbc)
 200 {
 201         struct f2fs_sb_info *sbi = F2FS_M_SB(mapping);
 202         long diff, written;
 203
 204         trace_f2fs_writepages(mapping->host, wbc, META);
 205
 206         /* collect a number of dirty meta pages and write together */
 207         if (wbc->for_kupdate ||
 208                 get_pages(sbi, F2FS_DIRTY_META) < nr_pages_to_skip(sbi, META))
 209                 goto skip_write;
 210
 211         /* if mounting is failed, skip writing node pages */
 212         mutex_lock(&sbi->cp_mutex);
 213         diff = nr_pages_to_write(sbi, META, wbc);
 214         written = sync_meta_pages(sbi, META, wbc->nr_to_write);
 215         mutex_unlock(&sbi->cp_mutex);
 216         wbc->nr_to_write = max((long)0, wbc->nr_to_write - written - diff);
 217         return 0;
 218
 219 skip_write:
 220         wbc->pages_skipped += get_pages(sbi, F2FS_DIRTY_META);
 221         return 0;
 222 }
 223
 224 long sync_meta_pages(struct f2fs_sb_info *sbi, enum page_type type,
 225                                                 long nr_to_write)
 226 {
 227         struct address_space *mapping = META_MAPPING(sbi);
 228         pgoff_t index = 0, end = LONG_MAX;
 229         struct pagevec pvec;
 230         long nwritten = 0;
 231         struct writeback_control wbc = {
 232                 .for_reclaim = 0,
 233         };
 234
 235         pagevec_init(&pvec, 0);
 236
 237         while (index <= end) {
 238                 int i, nr_pages;
 239                 nr_pages = pagevec_lookup_tag(&pvec, mapping, &index,
 240                                 PAGECACHE_TAG_DIRTY,
 241                                 min(end - index, (pgoff_t)PAGEVEC_SIZE-1) + 1);
 242                 if (unlikely(nr_pages == 0))
 243                         break;
 244
 245                 for (i = 0; i < nr_pages; i++) {
 246                         struct page *page = pvec.pages[i];
 247
 248                         lock_page(page);
 249
 250                         if (unlikely(page->mapping != mapping)) {
 251 continue_unlock:
 252                                 unlock_page(page);
 253                                 continue;
 254                         }
 255                         if (!PageDirty(page)) {
 256                                 /* someone wrote it for us */
 257                                 goto continue_unlock;
 258                         }
 259
 260                         if (!clear_page_dirty_for_io(page))
 261                                 goto continue_unlock;
 262
 263                         if (f2fs_write_meta_page(page, &wbc)) {
 264                                 unlock_page(page);
 265                                 break;
 266                         }
 267                         nwritten++;
 268                         if (unlikely(nwritten >= nr_to_write))
 269                                 break;
 270                 }
 271                 pagevec_release(&pvec);
 272                 cond_resched();
 273         }
 274
 275         if (nwritten)
 276                 f2fs_submit_merged_bio(sbi, type, WRITE);
 277
 278         return nwritten;
 279 }
 280
 281 static int f2fs_set_meta_page_dirty(struct page *page)
 282 {
 283         trace_f2fs_set_page_dirty(page, META);
 284
 285         SetPageUptodate(page);
 286         if (!PageDirty(page)) {
 287                 __set_page_dirty_nobuffers(page);
 288                 inc_page_count(F2FS_P_SB(page), F2FS_DIRTY_META);
 289                 return 1;
 290         }
 291         return 0;
 292 }
 293
 294 const struct address_space_operations f2fs_meta_aops = {
 295         .writepage      = f2fs_write_meta_page,
 296         .writepages     = f2fs_write_meta_pages,
 297         .set_page_dirty = f2fs_set_meta_page_dirty,
 298 };
 299
 300 static void __add_ino_entry(struct f2fs_sb_info *sbi, nid_t ino, int type)
 301 {
 302         struct ino_entry *e;
 303 retry:
 304         spin_lock(&sbi->ino_lock[type]);
 305
 306         e = radix_tree_lookup(&sbi->ino_root[type], ino);
 307         if (!e) {
 308                 e = kmem_cache_alloc(ino_entry_slab, GFP_ATOMIC);
 309                 if (!e) {
 310                         spin_unlock(&sbi->ino_lock[type]);
 311                         goto retry;
 312                 }
 313                 if (radix_tree_insert(&sbi->ino_root[type], ino, e)) {
 314                         spin_unlock(&sbi->ino_lock[type]);
 315                         kmem_cache_free(ino_entry_slab, e);
 316                         goto retry;
 317                 }
 318                 memset(e, 0, sizeof(struct ino_entry));
 319                 e->ino = ino;
 320
 321                 list_add_tail(&e->list, &sbi->ino_list[type]);
 322         }
 323         spin_unlock(&sbi->ino_lock[type]);
 324 }
 325
 326 static void __remove_ino_entry(struct f2fs_sb_info *sbi, nid_t ino, int type)
 327 {
 328         struct ino_entry *e;
 329
 330         spin_lock(&sbi->ino_lock[type]);
 331         e = radix_tree_lookup(&sbi->ino_root[type], ino);
 332         if (e) {
 333                 list_del(&e->list);
 334                 radix_tree_delete(&sbi->ino_root[type], ino);
 335                 if (type == ORPHAN_INO)
 336                         sbi->n_orphans--;
 337                 spin_unlock(&sbi->ino_lock[type]);
 338                 kmem_cache_free(ino_entry_slab, e);
 339                 return;
 340         }
 341         spin_unlock(&sbi->ino_lock[type]);
 342 }
 343
 344 void add_dirty_inode(struct f2fs_sb_info *sbi, nid_t ino, int type)
 345 {
 346         /* add new dirty ino entry into list */
 347         __add_ino_entry(sbi, ino, type);
 348 }
 349
 350 void remove_dirty_inode(struct f2fs_sb_info *sbi, nid_t ino, int type)
 351 {
 352         /* remove dirty ino entry from list */
 353         __remove_ino_entry(sbi, ino, type);
 354 }
 355
 356 /* mode should be APPEND_INO or UPDATE_INO */
 357 bool exist_written_data(struct f2fs_sb_info *sbi, nid_t ino, int mode)
 358 {
 359         struct ino_entry *e;
 360         spin_lock(&sbi->ino_lock[mode]);
 361         e = radix_tree_lookup(&sbi->ino_root[mode], ino);
 362         spin_unlock(&sbi->ino_lock[mode]);
 363         return e ? true : false;
 364 }
 365
 366 void release_dirty_inode(struct f2fs_sb_info *sbi)
 367 {
 368         struct ino_entry *e, *tmp;
 369         int i;
 370
 371         for (i = APPEND_INO; i <= UPDATE_INO; i++) {
 372                 spin_lock(&sbi->ino_lock[i]);
 373                 list_for_each_entry_safe(e, tmp, &sbi->ino_list[i], list) {
 374                         list_del(&e->list);
 375                         radix_tree_delete(&sbi->ino_root[i], e->ino);
 376                         kmem_cache_free(ino_entry_slab, e);
 377                 }
 378                 spin_unlock(&sbi->ino_lock[i]);
 379         }
 380 }
 381
 382 int acquire_orphan_inode(struct f2fs_sb_info *sbi)
 383 {
 384         int err = 0;
 385
 386         spin_lock(&sbi->ino_lock[ORPHAN_INO]);
 387         if (unlikely(sbi->n_orphans >= sbi->max_orphans))
 388                 err = -ENOSPC;
 389         else
 390                 sbi->n_orphans++;
 391         spin_unlock(&sbi->ino_lock[ORPHAN_INO]);
 392
 393         return err;
 394 }
 395
 396 void release_orphan_inode(struct f2fs_sb_info *sbi)
 397 {
 398         spin_lock(&sbi->ino_lock[ORPHAN_INO]);
 399         f2fs_bug_on(sbi, sbi->n_orphans == 0);
 400         sbi->n_orphans--;
 401         spin_unlock(&sbi->ino_lock[ORPHAN_INO]);
 402 }
 403
 404 void add_orphan_inode(struct f2fs_sb_info *sbi, nid_t ino)
 405 {
 406         /* add new orphan ino entry into list */
 407         __add_ino_entry(sbi, ino, ORPHAN_INO);
 408 }
 409
 410 void remove_orphan_inode(struct f2fs_sb_info *sbi, nid_t ino)
 411 {
 412         /* remove orphan entry from orphan list */
 413         __remove_ino_entry(sbi, ino, ORPHAN_INO);
 414 }
 415
 416 static void recover_orphan_inode(struct f2fs_sb_info *sbi, nid_t ino)
 417 {
 418         struct inode *inode = f2fs_iget(sbi->sb, ino);
 419         f2fs_bug_on(sbi, IS_ERR(inode));
 420         clear_nlink(inode);
 421
 422         /* truncate all the data during iput */
 423         iput(inode);
 424 }
 425
 426 void recover_orphan_inodes(struct f2fs_sb_info *sbi)
 427 {
 428         block_t start_blk, orphan_blkaddr, i, j;
 429
 430         if (!is_set_ckpt_flags(F2FS_CKPT(sbi), CP_ORPHAN_PRESENT_FLAG))
 431                 return;
 432
 433         sbi->por_doing = true;
 434
 435         start_blk = __start_cp_addr(sbi) + 1 +
 436                 le32_to_cpu(F2FS_RAW_SUPER(sbi)->cp_payload);
 437         orphan_blkaddr = __start_sum_addr(sbi) - 1;
 438
 439         ra_meta_pages(sbi, start_blk, orphan_blkaddr, META_CP);
 440
 441         for (i = 0; i < orphan_blkaddr; i++) {
 442                 struct page *page = get_meta_page(sbi, start_blk + i);
 443                 struct f2fs_orphan_block *orphan_blk;
 444
 445                 orphan_blk = (struct f2fs_orphan_block *)page_address(page);
 446                 for (j = 0; j < le32_to_cpu(orphan_blk->entry_count); j++) {
 447                         nid_t ino = le32_to_cpu(orphan_blk->ino[j]);
 448                         recover_orphan_inode(sbi, ino);
 449                 }
 450                 f2fs_put_page(page, 1);
 451         }
 452         /* clear Orphan Flag */
 453         clear_ckpt_flags(F2FS_CKPT(sbi), CP_ORPHAN_PRESENT_FLAG);
 454         sbi->por_doing = false;
 455         return;
 456 }
 457
 458 static void write_orphan_inodes(struct f2fs_sb_info *sbi, block_t start_blk)
 459 {
 460         struct list_head *head;
 461         struct f2fs_orphan_block *orphan_blk = NULL;
 462         unsigned int nentries = 0;
 463         unsigned short index;
 464         unsigned short orphan_blocks =
 465                         (unsigned short)GET_ORPHAN_BLOCKS(sbi->n_orphans);
 466         struct page *page = NULL;
 467         struct ino_entry *orphan = NULL;
 468
 469         for (index = 0; index < orphan_blocks; index++)
 470                 grab_meta_page(sbi, start_blk + index);
 471
 472         index = 1;
 473         spin_lock(&sbi->ino_lock[ORPHAN_INO]);
 474         head = &sbi->ino_list[ORPHAN_INO];
 475
 476         /* loop for each orphan inode entry and write them in Jornal block */
 477         list_for_each_entry(orphan, head, list) {
 478                 if (!page) {
 479                         page = find_get_page(META_MAPPING(sbi), start_blk++);
 480                         f2fs_bug_on(sbi, !page);
 481                         orphan_blk =
 482                                 (struct f2fs_orphan_block *)page_address(page);
 483                         memset(orphan_blk, 0, sizeof(*orphan_blk));
 484                         f2fs_put_page(page, 0);
 485                 }
 486
 487                 orphan_blk->ino[nentries++] = cpu_to_le32(orphan->ino);
 488
 489                 if (nentries == F2FS_ORPHANS_PER_BLOCK) {
 490                         /*
 491                          * an orphan block is full of 1020 entries,
 492                          * then we need to flush current orphan blocks
 493                          * and bring another one in memory
 494                          */
 495                         orphan_blk->blk_addr = cpu_to_le16(index);
 496                         orphan_blk->blk_count = cpu_to_le16(orphan_blocks);
 497                         orphan_blk->entry_count = cpu_to_le32(nentries);
 498                         set_page_dirty(page);
 499                         f2fs_put_page(page, 1);
 500                         index++;
 501                         nentries = 0;
 502                         page = NULL;
 503                 }
 504         }
 505
 506         if (page) {
 507                 orphan_blk->blk_addr = cpu_to_le16(index);
 508                 orphan_blk->blk_count = cpu_to_le16(orphan_blocks);
 509                 orphan_blk->entry_count = cpu_to_le32(nentries);
 510                 set_page_dirty(page);
 511                 f2fs_put_page(page, 1);
 512         }
 513
 514         spin_unlock(&sbi->ino_lock[ORPHAN_INO]);
 515 }
 516
 517 static struct page *validate_checkpoint(struct f2fs_sb_info *sbi,
 518                                 block_t cp_addr, unsigned long long *version)
 519 {
 520         struct page *cp_page_1, *cp_page_2 = NULL;
 521         unsigned long blk_size = sbi->blocksize;
 522         struct f2fs_checkpoint *cp_block;
 523         unsigned long long cur_version = 0, pre_version = 0;
 524         size_t crc_offset;
 525         __u32 crc = 0;
 526
 527         /* Read the 1st cp block in this CP pack */
 528         cp_page_1 = get_meta_page(sbi, cp_addr);
 529
 530         /* get the version number */
 531         cp_block = (struct f2fs_checkpoint *)page_address(cp_page_1);
 532         crc_offset = le32_to_cpu(cp_block->checksum_offset);
 533         if (crc_offset >= blk_size)
 534                 goto invalid_cp1;
 535
 536         crc = le32_to_cpu(*((__u32 *)((unsigned char *)cp_block + crc_offset)));
 537         if (!f2fs_crc_valid(crc, cp_block, crc_offset))
 538                 goto invalid_cp1;
 539
 540         pre_version = cur_cp_version(cp_block);
 541
 542         /* Read the 2nd cp block in this CP pack */
 543         cp_addr += le32_to_cpu(cp_block->cp_pack_total_block_count) - 1;
 544         cp_page_2 = get_meta_page(sbi, cp_addr);
 545
 546         cp_block = (struct f2fs_checkpoint *)page_address(cp_page_2);
 547         crc_offset = le32_to_cpu(cp_block->checksum_offset);
 548         if (crc_offset >= blk_size)
 549                 goto invalid_cp2;
 550
 551         crc = le32_to_cpu(*((__u32 *)((unsigned char *)cp_block + crc_offset)));
 552         if (!f2fs_crc_valid(crc, cp_block, crc_offset))
 553                 goto invalid_cp2;
 554
 555         cur_version = cur_cp_version(cp_block);
 556
 557         if (cur_version == pre_version) {
 558                 *version = cur_version;
 559                 f2fs_put_page(cp_page_2, 1);
 560                 return cp_page_1;
 561         }
 562 invalid_cp2:
 563         f2fs_put_page(cp_page_2, 1);
 564 invalid_cp1:
 565         f2fs_put_page(cp_page_1, 1);
 566         return NULL;
 567 }
 568
 569 int get_valid_checkpoint(struct f2fs_sb_info *sbi)
 570 {
 571         struct f2fs_checkpoint *cp_block;
 572         struct f2fs_super_block *fsb = sbi->raw_super;
 573         struct page *cp1, *cp2, *cur_page;
 574         unsigned long blk_size = sbi->blocksize;
 575         unsigned long long cp1_version = 0, cp2_version = 0;
 576         unsigned long long cp_start_blk_no;
 577         unsigned int cp_blks = 1 + le32_to_cpu(F2FS_RAW_SUPER(sbi)->cp_payload);
 578         block_t cp_blk_no;
 579         int i;
 580
 581         sbi->ckpt = kzalloc(cp_blks * blk_size, GFP_KERNEL);
 582         if (!sbi->ckpt)
 583                 return -ENOMEM;
 584         /*
 585          * Finding out valid cp block involves read both
 586          * sets( cp pack1 and cp pack 2)
 587          */
 588         cp_start_blk_no = le32_to_cpu(fsb->cp_blkaddr);
 589         cp1 = validate_checkpoint(sbi, cp_start_blk_no, &cp1_version);
 590
 591         /* The second checkpoint pack should start at the next segment */
 592         cp_start_blk_no += ((unsigned long long)1) <<
 593                                 le32_to_cpu(fsb->log_blocks_per_seg);
 594         cp2 = validate_checkpoint(sbi, cp_start_blk_no, &cp2_version);
 595
 596         if (cp1 && cp2) {
 597                 if (ver_after(cp2_version, cp1_version))
 598                         cur_page = cp2;
 599                 else
 600                         cur_page = cp1;
 601         } else if (cp1) {
 602                 cur_page = cp1;
 603         } else if (cp2) {
 604                 cur_page = cp2;
 605         } else {
 606                 goto fail_no_cp;
 607         }
 608
 609         cp_block = (struct f2fs_checkpoint *)page_address(cur_page);
 610         memcpy(sbi->ckpt, cp_block, blk_size);
 611
 612         if (cp_blks <= 1)
 613                 goto done;
 614
 615         cp_blk_no = le32_to_cpu(fsb->cp_blkaddr);
 616         if (cur_page == cp2)
 617                 cp_blk_no += 1 << le32_to_cpu(fsb->log_blocks_per_seg);
 618
 619         for (i = 1; i < cp_blks; i++) {
 620                 void *sit_bitmap_ptr;
 621                 unsigned char *ckpt = (unsigned char *)sbi->ckpt;
 622
 623                 cur_page = get_meta_page(sbi, cp_blk_no + i);
 624                 sit_bitmap_ptr = page_address(cur_page);
 625                 memcpy(ckpt + i * blk_size, sit_bitmap_ptr, blk_size);
 626                 f2fs_put_page(cur_page, 1);
 627         }
 628 done:
 629         f2fs_put_page(cp1, 1);
 630         f2fs_put_page(cp2, 1);
 631         return 0;
 632
 633 fail_no_cp:
 634         kfree(sbi->ckpt);
 635         return -EINVAL;
 636 }
 637
 638 static int __add_dirty_inode(struct inode *inode, struct dir_inode_entry *new)
 639 {
 640         struct f2fs_sb_info *sbi = F2FS_I_SB(inode);
 641
 642         if (is_inode_flag_set(F2FS_I(inode), FI_DIRTY_DIR))
 643                 return -EEXIST;
 644
 645         set_inode_flag(F2FS_I(inode), FI_DIRTY_DIR);
 646         F2FS_I(inode)->dirty_dir = new;
 647         list_add_tail(&new->list, &sbi->dir_inode_list);
 648         stat_inc_dirty_dir(sbi);
 649         return 0;
 650 }
 651
 652 void update_dirty_page(struct inode *inode, struct page *page)
 653 {
 654         struct f2fs_sb_info *sbi = F2FS_I_SB(inode);
 655         struct dir_inode_entry *new;
 656         int ret = 0;
 657
 658         if (!S_ISDIR(inode->i_mode) && !S_ISREG(inode->i_mode))
 659                 return;
 660
 661         if (!S_ISDIR(inode->i_mode)) {
 662                 inode_inc_dirty_pages(inode);
 663                 goto out;
 664         }
 665
 666         new = f2fs_kmem_cache_alloc(inode_entry_slab, GFP_NOFS);
 667         new->inode = inode;
 668         INIT_LIST_HEAD(&new->list);
 669
 670         spin_lock(&sbi->dir_inode_lock);
 671         ret = __add_dirty_inode(inode, new);
 672         inode_inc_dirty_pages(inode);
 673         spin_unlock(&sbi->dir_inode_lock);
 674
 675         if (ret)
 676                 kmem_cache_free(inode_entry_slab, new);
 677 out:
 678         SetPagePrivate(page);
 679 }
 680
 681 void add_dirty_dir_inode(struct inode *inode)
 682 {
 683         struct f2fs_sb_info *sbi = F2FS_I_SB(inode);
 684         struct dir_inode_entry *new =
 685                         f2fs_kmem_cache_alloc(inode_entry_slab, GFP_NOFS);
 686         int ret = 0;
 687
 688         new->inode = inode;
 689         INIT_LIST_HEAD(&new->list);
 690
 691         spin_lock(&sbi->dir_inode_lock);
 692         ret = __add_dirty_inode(inode, new);
 693         spin_unlock(&sbi->dir_inode_lock);
 694
 695         if (ret)
 696                 kmem_cache_free(inode_entry_slab, new);
 697 }
 698
 699 void remove_dirty_dir_inode(struct inode *inode)
 700 {
 701         struct f2fs_sb_info *sbi = F2FS_I_SB(inode);
 702         struct dir_inode_entry *entry;
 703
 704         if (!S_ISDIR(inode->i_mode))
 705                 return;
 706
 707         spin_lock(&sbi->dir_inode_lock);
 708         if (get_dirty_pages(inode) ||
 709                         !is_inode_flag_set(F2FS_I(inode), FI_DIRTY_DIR)) {
 710                 spin_unlock(&sbi->dir_inode_lock);
 711                 return;
 712         }
 713
 714         entry = F2FS_I(inode)->dirty_dir;
 715         list_del(&entry->list);
 716         F2FS_I(inode)->dirty_dir = NULL;
 717         clear_inode_flag(F2FS_I(inode), FI_DIRTY_DIR);
 718         stat_dec_dirty_dir(sbi);
 719         spin_unlock(&sbi->dir_inode_lock);
 720         kmem_cache_free(inode_entry_slab, entry);
 721
 722         /* Only from the recovery routine */
 723         if (is_inode_flag_set(F2FS_I(inode), FI_DELAY_IPUT)) {
 724                 clear_inode_flag(F2FS_I(inode), FI_DELAY_IPUT);
 725                 iput(inode);
 726         }
 727 }
 728
 729 void sync_dirty_dir_inodes(struct f2fs_sb_info *sbi)
 730 {
 731         struct list_head *head;
 732         struct dir_inode_entry *entry;
 733         struct inode *inode;
 734 retry:
 735         spin_lock(&sbi->dir_inode_lock);
 736
 737         head = &sbi->dir_inode_list;
 738         if (list_empty(head)) {
 739                 spin_unlock(&sbi->dir_inode_lock);
 740                 return;
 741         }
 742         entry = list_entry(head->next, struct dir_inode_entry, list);
 743         inode = igrab(entry->inode);
 744         spin_unlock(&sbi->dir_inode_lock);
 745         if (inode) {
 746                 filemap_fdatawrite(inode->i_mapping);
 747                 iput(inode);
 748         } else {
 749                 /*
 750                  * We should submit bio, since it exists several
 751                  * wribacking dentry pages in the freeing inode.
 752                  */
 753                 f2fs_submit_merged_bio(sbi, DATA, WRITE);
 754         }
 755         goto retry;
 756 }
 757
 758 /*
 759  * Freeze all the FS-operations for checkpoint.
 760  */
 761 static int block_operations(struct f2fs_sb_info *sbi)
 762 {
 763         struct writeback_control wbc = {
 764                 .sync_mode = WB_SYNC_ALL,
 765                 .nr_to_write = LONG_MAX,
 766                 .for_reclaim = 0,
 767         };
 768         struct blk_plug plug;
 769         int err = 0;
 770
 771         blk_start_plug(&plug);
 772
 773 retry_flush_dents:
 774         f2fs_lock_all(sbi);
 775         /* write all the dirty dentry pages */
 776         if (get_pages(sbi, F2FS_DIRTY_DENTS)) {
 777                 f2fs_unlock_all(sbi);
 778                 sync_dirty_dir_inodes(sbi);
 779                 if (unlikely(f2fs_cp_error(sbi))) {
 780                         err = -EIO;
 781                         goto out;
 782                 }
 783                 goto retry_flush_dents;
 784         }
 785
 786         /*
 787          * POR: we should ensure that there are no dirty node pages
 788          * until finishing nat/sit flush.
 789          */
 790 retry_flush_nodes:
 791         down_write(&sbi->node_write);
 792
 793         if (get_pages(sbi, F2FS_DIRTY_NODES)) {
 794                 up_write(&sbi->node_write);
 795                 sync_node_pages(sbi, 0, &wbc);
 796                 if (unlikely(f2fs_cp_error(sbi))) {
 797                         f2fs_unlock_all(sbi);
 798                         err = -EIO;
 799                         goto out;
 800                 }
 801                 goto retry_flush_nodes;
 802         }
 803 out:
 804         blk_finish_plug(&plug);
 805         return err;
 806 }
 807
 808 static void unblock_operations(struct f2fs_sb_info *sbi)
 809 {
 810         up_write(&sbi->node_write);
 811         f2fs_unlock_all(sbi);
 812 }
 813
 814 static void wait_on_all_pages_writeback(struct f2fs_sb_info *sbi)
 815 {
 816         DEFINE_WAIT(wait);
 817
 818         for (;;) {
 819                 prepare_to_wait(&sbi->cp_wait, &wait, TASK_UNINTERRUPTIBLE);
 820
 821                 if (!get_pages(sbi, F2FS_WRITEBACK))
 822                         break;
 823
 824                 io_schedule();
 825         }
 826         finish_wait(&sbi->cp_wait, &wait);
 827 }
 828
 829 static void do_checkpoint(struct f2fs_sb_info *sbi, struct cp_control *cpc)
 830 {
 831         struct f2fs_checkpoint *ckpt = F2FS_CKPT(sbi);
 832         struct curseg_info *curseg = CURSEG_I(sbi, CURSEG_WARM_NODE);
 833         struct f2fs_nm_info *nm_i = NM_I(sbi);
 834         nid_t last_nid = nm_i->next_scan_nid;
 835         block_t start_blk;
 836         struct page *cp_page;
 837         unsigned int data_sum_blocks, orphan_blocks;
 838         __u32 crc32 = 0;
 839         void *kaddr;
 840         int i;
 841         int cp_payload_blks = le32_to_cpu(F2FS_RAW_SUPER(sbi)->cp_payload);
 842
 843         /*
 844          * This avoids to conduct wrong roll-forward operations and uses
 845          * metapages, so should be called prior to sync_meta_pages below.
 846          */
 847         discard_next_dnode(sbi, NEXT_FREE_BLKADDR(sbi, curseg));
 848
 849         /* Flush all the NAT/SIT pages */
 850         while (get_pages(sbi, F2FS_DIRTY_META)) {
 851                 sync_meta_pages(sbi, META, LONG_MAX);
 852                 if (unlikely(f2fs_cp_error(sbi)))
 853                         return;
 854         }
 855
 856         next_free_nid(sbi, &last_nid);
 857
 858         /*
 859          * modify checkpoint
 860          * version number is already updated
 861          */
 862         ckpt->elapsed_time = cpu_to_le64(get_mtime(sbi));
 863         ckpt->valid_block_count = cpu_to_le64(valid_user_blocks(sbi));
 864         ckpt->free_segment_count = cpu_to_le32(free_segments(sbi));
 865         for (i = 0; i < NR_CURSEG_NODE_TYPE; i++) {
 866                 ckpt->cur_node_segno[i] =
 867                         cpu_to_le32(curseg_segno(sbi, i + CURSEG_HOT_NODE));
 868                 ckpt->cur_node_blkoff[i] =
 869                         cpu_to_le16(curseg_blkoff(sbi, i + CURSEG_HOT_NODE));
 870                 ckpt->alloc_type[i + CURSEG_HOT_NODE] =
 871                                 curseg_alloc_type(sbi, i + CURSEG_HOT_NODE);
 872         }
 873         for (i = 0; i < NR_CURSEG_DATA_TYPE; i++) {
 874                 ckpt->cur_data_segno[i] =
 875                         cpu_to_le32(curseg_segno(sbi, i + CURSEG_HOT_DATA));
 876                 ckpt->cur_data_blkoff[i] =
 877                         cpu_to_le16(curseg_blkoff(sbi, i + CURSEG_HOT_DATA));
 878                 ckpt->alloc_type[i + CURSEG_HOT_DATA] =
 879                                 curseg_alloc_type(sbi, i + CURSEG_HOT_DATA);
 880         }
 881
 882         ckpt->valid_node_count = cpu_to_le32(valid_node_count(sbi));
 883         ckpt->valid_inode_count = cpu_to_le32(valid_inode_count(sbi));
 884         ckpt->next_free_nid = cpu_to_le32(last_nid);
 885
 886         /* 2 cp  + n data seg summary + orphan inode blocks */
 887         data_sum_blocks = npages_for_summary_flush(sbi);
 888         if (data_sum_blocks < NR_CURSEG_DATA_TYPE)
 889                 set_ckpt_flags(ckpt, CP_COMPACT_SUM_FLAG);
 890         else
 891                 clear_ckpt_flags(ckpt, CP_COMPACT_SUM_FLAG);
 892
 893         orphan_blocks = GET_ORPHAN_BLOCKS(sbi->n_orphans);
 894         ckpt->cp_pack_start_sum = cpu_to_le32(1 + cp_payload_blks +
 895                         orphan_blocks);
 896
 897         if (cpc->reason == CP_UMOUNT) {
 898                 set_ckpt_flags(ckpt, CP_UMOUNT_FLAG);
 899                 ckpt->cp_pack_total_block_count = cpu_to_le32(F2FS_CP_PACKS+
 900                                 cp_payload_blks + data_sum_blocks +
 901                                 orphan_blocks + NR_CURSEG_NODE_TYPE);
 902         } else {
 903                 clear_ckpt_flags(ckpt, CP_UMOUNT_FLAG);
 904                 ckpt->cp_pack_total_block_count = cpu_to_le32(F2FS_CP_PACKS +
 905                                 cp_payload_blks + data_sum_blocks +
 906                                 orphan_blocks);
 907         }
 908
 909         if (sbi->n_orphans)
 910                 set_ckpt_flags(ckpt, CP_ORPHAN_PRESENT_FLAG);
 911         else
 912                 clear_ckpt_flags(ckpt, CP_ORPHAN_PRESENT_FLAG);
 913
 914         if (sbi->need_fsck)
 915                 set_ckpt_flags(ckpt, CP_FSCK_FLAG);
 916
 917         /* update SIT/NAT bitmap */
 918         get_sit_bitmap(sbi, __bitmap_ptr(sbi, SIT_BITMAP));
 919         get_nat_bitmap(sbi, __bitmap_ptr(sbi, NAT_BITMAP));
 920
 921         crc32 = f2fs_crc32(ckpt, le32_to_cpu(ckpt->checksum_offset));
 922         *((__le32 *)((unsigned char *)ckpt +
 923                                 le32_to_cpu(ckpt->checksum_offset)))
 924                                 = cpu_to_le32(crc32);
 925
 926         start_blk = __start_cp_addr(sbi);
 927
 928         /* write out checkpoint buffer at block 0 */
 929         cp_page = grab_meta_page(sbi, start_blk++);
 930         kaddr = page_address(cp_page);
 931         memcpy(kaddr, ckpt, (1 << sbi->log_blocksize));
 932         set_page_dirty(cp_page);
 933         f2fs_put_page(cp_page, 1);
 934
 935         for (i = 1; i < 1 + cp_payload_blks; i++) {
 936                 cp_page = grab_meta_page(sbi, start_blk++);
 937                 kaddr = page_address(cp_page);
 938                 memcpy(kaddr, (char *)ckpt + i * F2FS_BLKSIZE,
 939                                 (1 << sbi->log_blocksize));
 940                 set_page_dirty(cp_page);
 941                 f2fs_put_page(cp_page, 1);
 942         }
 943
 944         if (sbi->n_orphans) {
 945                 write_orphan_inodes(sbi, start_blk);
 946                 start_blk += orphan_blocks;
 947         }
 948
 949         write_data_summaries(sbi, start_blk);
 950         start_blk += data_sum_blocks;
 951         if (cpc->reason == CP_UMOUNT) {
 952                 write_node_summaries(sbi, start_blk);
 953                 start_blk += NR_CURSEG_NODE_TYPE;
 954         }
 955
 956         /* writeout checkpoint block */
 957         cp_page = grab_meta_page(sbi, start_blk);
 958         kaddr = page_address(cp_page);
 959         memcpy(kaddr, ckpt, (1 << sbi->log_blocksize));
 960         set_page_dirty(cp_page);
 961         f2fs_put_page(cp_page, 1);
 962
 963         /* wait for previous submitted node/meta pages writeback */
 964         wait_on_all_pages_writeback(sbi);
 965
 966         if (unlikely(f2fs_cp_error(sbi)))
 967                 return;
 968
 969         filemap_fdatawait_range(NODE_MAPPING(sbi), 0, LONG_MAX);
 970         filemap_fdatawait_range(META_MAPPING(sbi), 0, LONG_MAX);
 971
 972         /* update user_block_counts */
 973         sbi->last_valid_block_count = sbi->total_valid_block_count;
 974         sbi->alloc_valid_block_count = 0;
 975
 976         /* Here, we only have one bio having CP pack */
 977         sync_meta_pages(sbi, META_FLUSH, LONG_MAX);
 978
 979         release_dirty_inode(sbi);
 980
 981         if (unlikely(f2fs_cp_error(sbi)))
 982                 return;
 983
 984         clear_prefree_segments(sbi);
 985         F2FS_RESET_SB_DIRT(sbi);
 986 }
 987
 988 /*
 989  * We guarantee that this checkpoint procedure will not fail.
 990  */
 991 void write_checkpoint(struct f2fs_sb_info *sbi, struct cp_control *cpc)
 992 {
 993         struct f2fs_checkpoint *ckpt = F2FS_CKPT(sbi);
 994         unsigned long long ckpt_ver;
 995
 996         trace_f2fs_write_checkpoint(sbi->sb, cpc->reason, "start block_ops");
 997
 998         mutex_lock(&sbi->cp_mutex);
 999
1000         if (!sbi->s_dirty && cpc->reason != CP_DISCARD)
1001                 goto out;
1002         if (unlikely(f2fs_cp_error(sbi)))
1003                 goto out;
1004         if (block_operations(sbi))
1005                 goto out;
1006
1007         trace_f2fs_write_checkpoint(sbi->sb, cpc->reason, "finish block_ops");
1008
1009         f2fs_submit_merged_bio(sbi, DATA, WRITE);
1010         f2fs_submit_merged_bio(sbi, NODE, WRITE);
1011         f2fs_submit_merged_bio(sbi, META, WRITE);
1012
1013         /*
1014          * update checkpoint pack index
1015          * Increase the version number so that
1016          * SIT entries and seg summaries are written at correct place
1017          */
1018         ckpt_ver = cur_cp_version(ckpt);
1019         ckpt->checkpoint_ver = cpu_to_le64(++ckpt_ver);
1020
1021         /* write cached NAT/SIT entries to NAT/SIT area */
1022         flush_nat_entries(sbi);
1023         flush_sit_entries(sbi, cpc);
1024
1025         /* unlock all the fs_lock[] in do_checkpoint() */
1026         do_checkpoint(sbi, cpc);
1027
1028         unblock_operations(sbi);
1029         stat_inc_cp_count(sbi->stat_info);
1030 out:
1031         mutex_unlock(&sbi->cp_mutex);
1032         trace_f2fs_write_checkpoint(sbi->sb, cpc->reason, "finish checkpoint");
1033 }
1034
1035 void init_ino_entry_info(struct f2fs_sb_info *sbi)
1036 {
1037         int i;
1038
1039         for (i = 0; i < MAX_INO_ENTRY; i++) {
1040                 INIT_RADIX_TREE(&sbi->ino_root[i], GFP_ATOMIC);
1041                 spin_lock_init(&sbi->ino_lock[i]);
1042                 INIT_LIST_HEAD(&sbi->ino_list[i]);
1043         }
1044
1045         /*
1046          * considering 512 blocks in a segment 8 blocks are needed for cp
1047          * and log segment summaries. Remaining blocks are used to keep
1048          * orphan entries with the limitation one reserved segment
1049          * for cp pack we can have max 1020*504 orphan entries
1050          */
1051         sbi->n_orphans = 0;
1052         sbi->max_orphans = (sbi->blocks_per_seg - F2FS_CP_PACKS -
1053                         NR_CURSEG_TYPE) * F2FS_ORPHANS_PER_BLOCK;
1054 }
1055
1056 int __init create_checkpoint_caches(void)
1057 {
1058         ino_entry_slab = f2fs_kmem_cache_create("f2fs_ino_entry",
1059                         sizeof(struct ino_entry));
1060         if (!ino_entry_slab)
1061                 return -ENOMEM;
1062         inode_entry_slab = f2fs_kmem_cache_create("f2fs_dirty_dir_entry",
1063                         sizeof(struct dir_inode_entry));
1064         if (!inode_entry_slab) {
1065                 kmem_cache_destroy(ino_entry_slab);
1066                 return -ENOMEM;
1067         }
1068         return 0;
1069 }
1070
1071 void destroy_checkpoint_caches(void)
1072 {
1073         kmem_cache_destroy(ino_entry_slab);
1074         kmem_cache_destroy(inode_entry_slab);
1075 }