drbd: Do not upgrade state to Outdated if already Inconsistent [Bugz 277]
authorPhilipp Reisner <philipp.reisner@linbit.com>
Wed, 17 Mar 2010 13:18:41 +0000 (14:18 +0100)
committerPhilipp Reisner <philipp.reisner@linbit.com>
Mon, 17 May 2010 23:01:05 +0000 (01:01 +0200)
There was a race condition:
  In a situation with a SyncSource+Primary and a SyncTarget+Secondary node,
  and a resync dependency to some other device. After both nodes decided
  to do the resync, the other device finishes its resync process.
  At that time SyncSource already sent the P_SYNC_UUID packet, and
  already updated its peer disk state to Inconsistent.
  The SyncTarget node waits for the P_SYNC_UUID and sends a state packet
  to report the resync dependency change. That packet still carries
  a disk state of Outdated.

Impact:
  If application writes come in, during that time on the Primary node,
  those do not get replicated, and the out-of-sync counter gets increased.
  => The completion of resync is not detected on the primary node.
  => stalled.
  Those blocks get resync'ed with the next resync, since the are get
  marked as out-of-sync in the bitmap.

In order to fix this, we filter out that wrong state change in the
sanitize_state() function.

Signed-off-by: Philipp Reisner <philipp.reisner@linbit.com>
Signed-off-by: Lars Ellenberg <lars.ellenberg@linbit.com>
drivers/block/drbd/drbd_main.c

index db7a07a9a2cfd0874a012f3efba7073265dd45f6..8f84a9f58c99127cbc62484b2960bb8a1d8cf4a1 100644 (file)
@@ -840,7 +840,7 @@ static union drbd_state sanitize_state(struct drbd_conf *mdev, union drbd_state
                        break;
                case C_WF_BITMAP_S:
                case C_PAUSED_SYNC_S:
-                       ns.pdsk = D_OUTDATED;
+                       ns.pdsk = os.pdsk > D_OUTDATED ? D_OUTDATED : os.pdsk;
                        break;
                case C_SYNC_SOURCE:
                        ns.pdsk = D_INCONSISTENT;