xfs: prevent stack overflows from page cache allocation
authorDave Chinner <dchinner@redhat.com>
Tue, 29 Oct 2013 11:11:57 +0000 (22:11 +1100)
committerBen Myers <bpm@sgi.com>
Wed, 30 Oct 2013 20:44:51 +0000 (15:44 -0500)
Page cache allocation doesn't always go through ->begin_write and
hence we don't always get the opportunity to set the allocation
context to GFP_NOFS. Failing to do this means we open up the direct
relcaim stack to recurse into the filesystem and consume a
significant amount of stack.

On RHEL6.4 kernels we are seeing ra_submit() and
generic_file_splice_read() from an nfsd context recursing into the
filesystem via the inode cache shrinker and evicting inodes. This is
causing truncation to be run (e.g EOF block freeing) and causing
bmap btree block merges and free space btree block splits to occur.
These btree manipulations are occurring with the call chain already
30 functions deep and hence there is not enough stack space to
complete such operations.

To avoid these specific overruns, we need to prevent the page cache
allocation from recursing via direct reclaim. We can do that because
the allocation functions take the allocation context from that which
is stored in the mapping for the inode. We don't set that right now,
so the default is GFP_HIGHUSER_MOVABLE, which is effectively a
GFP_KERNEL context. We need it to be the equivalent of GFP_NOFS, so
when we initialise an inode, set the mapping gfp mask appropriately.

This makes the use of AOP_FLAG_NOFS redundant from other parts of
the XFS IO path, so get rid of it.

Signed-off-by: Dave Chinner <dchinner@redhat.com>
Reviewed-by: Christoph Hellwig <hch@lst.de>
Signed-off-by: Ben Myers <bpm@sgi.com>
fs/xfs/xfs_aops.c
fs/xfs/xfs_iops.c

index eb310caf13b11e48ea5bc6f3a379af174070ecd1..71c8c9d2b8826a0ed22d886fb3327d2ff0784fc3 100644 (file)
@@ -1572,8 +1572,7 @@ xfs_vm_write_begin(
 
        ASSERT(len <= PAGE_CACHE_SIZE);
 
-       page = grab_cache_page_write_begin(mapping, index,
-                                          flags | AOP_FLAG_NOFS);
+       page = grab_cache_page_write_begin(mapping, index, flags);
        if (!page)
                return -ENOMEM;
 
index c4cd6d47f5236ecd49714a1dc583836167ef7fd4..27e0e544e9635ba47281279c68670f7e568a7a58 100644 (file)
@@ -1168,6 +1168,7 @@ xfs_setup_inode(
        struct xfs_inode        *ip)
 {
        struct inode            *inode = &ip->i_vnode;
+       gfp_t                   gfp_mask;
 
        inode->i_ino = ip->i_ino;
        inode->i_state = I_NEW;
@@ -1229,6 +1230,14 @@ xfs_setup_inode(
                break;
        }
 
+       /*
+        * Ensure all page cache allocations are done from GFP_NOFS context to
+        * prevent direct reclaim recursion back into the filesystem and blowing
+        * stacks or deadlocking.
+        */
+       gfp_mask = mapping_gfp_mask(inode->i_mapping);
+       mapping_set_gfp_mask(inode->i_mapping, (gfp_mask & ~(__GFP_FS)));
+
        /*
         * If there is no attribute fork no ACL can exist on this inode,
         * and it can't have any file capabilities attached to it either.