x86, mce: Support memory error recovery for both UCNA and Deferred error in machine_c...
authorChen Yucong <slaoub@gmail.com>
Tue, 18 Nov 2014 02:09:20 +0000 (10:09 +0800)
committerTony Luck <tony.luck@intel.com>
Wed, 19 Nov 2014 18:56:51 +0000 (10:56 -0800)
commitfa92c58694268a7e9f7fa2c6881c1482221c2788
tree6329a4c117ccc0169a487798cdfddbaaf702130c
parente3480271f59253cb60d030aa5e615bf00b731fea
x86, mce: Support memory error recovery for both UCNA and Deferred error in machine_check_poll

Uncorrected no action required (UCNA) - is a uncorrected recoverable
machine check error that is not signaled via a machine check exception
and, instead, is reported to system software as a corrected machine
check error. UCNA errors indicate that some data in the system is
corrupted, but the data has not been consumed and the processor state
is valid and you may continue execution on this processor. UCNA errors
require no action from system software to continue execution. Note that
UCNA errors are supported by the processor only when IA32_MCG_CAP[24]
(MCG_SER_P) is set.
                                               -- Intel SDM Volume 3B

Deferred errors are errors that cannot be corrected by hardware, but
do not cause an immediate interruption in program flow, loss of data
integrity, or corruption of processor state. These errors indicate
that data has been corrupted but not consumed. Hardware writes information
to the status and address registers in the corresponding bank that
identifies the source of the error if deferred errors are enabled for
logging. Deferred errors are not reported via machine check exceptions;
they can be seen by polling the MCi_STATUS registers.
                                                -- AMD64 APM Volume 2

Above two items, both UCNA and Deferred errors belong to detected
errors, but they can't be corrected by hardware, and this is very
similar to Software Recoverable Action Optional (SRAO) errors.
Therefore, we can take some actions that have been used for handling
SRAO errors to handle UCNA and Deferred errors.

Acked-by: Borislav Petkov <bp@suse.de>
Signed-off-by: Chen Yucong <slaoub@gmail.com>
Signed-off-by: Tony Luck <tony.luck@intel.com>
arch/x86/kernel/cpu/mcheck/mce.c