ARM: use the proper target object format for WoA
[oota-llvm.git] / test / CodeGen / AArch64 / neon-simd-ldst-one.ll
index 9d49d2358fa15720fa373789deadc0431bbcdd2c..75c2a82ab57e93d24b97d5d782c153171794fcaa 100644 (file)
@@ -1,5 +1,9 @@
 ; RUN: llc < %s -verify-machineinstrs -mtriple=aarch64-none-linux-gnu -mattr=+neon | FileCheck %s
+; interesting parts copied into arm64 directory as aarch64-neon-simd-ldst-one.ll
 
+%struct.uint8x16x2_t = type { [2 x <16 x i8>] }
+%struct.poly8x16x2_t = type { [2 x <16 x i8>] }
+%struct.uint8x16x3_t = type { [3 x <16 x i8>] }
 %struct.int8x16x2_t = type { [2 x <16 x i8>] }
 %struct.int16x8x2_t = type { [2 x <8 x i16>] }
 %struct.int32x4x2_t = type { [2 x <4 x i32>] }
@@ -120,7 +124,7 @@ entry:
 
 define <16 x i8> @test_vld1q_dup_s8(i8* %a) {
 ; CHECK-LABEL: test_vld1q_dup_s8
-; CHECK: ld1r {{{v[0-9]+}}.16b}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.16b }, [x0]
 entry:
   %0 = load i8* %a, align 1
   %1 = insertelement <16 x i8> undef, i8 %0, i32 0
@@ -130,7 +134,7 @@ entry:
 
 define <8 x i16> @test_vld1q_dup_s16(i16* %a) {
 ; CHECK-LABEL: test_vld1q_dup_s16
-; CHECK: ld1r {{{v[0-9]+}}.8h}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.8h }, [x0]
 entry:
   %0 = load i16* %a, align 2
   %1 = insertelement <8 x i16> undef, i16 %0, i32 0
@@ -140,7 +144,7 @@ entry:
 
 define <4 x i32> @test_vld1q_dup_s32(i32* %a) {
 ; CHECK-LABEL: test_vld1q_dup_s32
-; CHECK: ld1r {{{v[0-9]+}}.4s}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.4s }, [x0]
 entry:
   %0 = load i32* %a, align 4
   %1 = insertelement <4 x i32> undef, i32 %0, i32 0
@@ -150,7 +154,7 @@ entry:
 
 define <2 x i64> @test_vld1q_dup_s64(i64* %a) {
 ; CHECK-LABEL: test_vld1q_dup_s64
-; CHECK: ld1r {{{v[0-9]+}}.2d}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.2d }, [x0]
 entry:
   %0 = load i64* %a, align 8
   %1 = insertelement <2 x i64> undef, i64 %0, i32 0
@@ -160,7 +164,7 @@ entry:
 
 define <4 x float> @test_vld1q_dup_f32(float* %a) {
 ; CHECK-LABEL: test_vld1q_dup_f32
-; CHECK: ld1r {{{v[0-9]+}}.4s}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.4s }, [x0]
 entry:
   %0 = load float* %a, align 4
   %1 = insertelement <4 x float> undef, float %0, i32 0
@@ -170,7 +174,7 @@ entry:
 
 define <2 x double> @test_vld1q_dup_f64(double* %a) {
 ; CHECK-LABEL: test_vld1q_dup_f64
-; CHECK: ld1r {{{v[0-9]+}}.2d}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.2d }, [x0]
 entry:
   %0 = load double* %a, align 8
   %1 = insertelement <2 x double> undef, double %0, i32 0
@@ -180,7 +184,7 @@ entry:
 
 define <8 x i8> @test_vld1_dup_s8(i8* %a) {
 ; CHECK-LABEL: test_vld1_dup_s8
-; CHECK: ld1r {{{v[0-9]+}}.8b}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.8b }, [x0]
 entry:
   %0 = load i8* %a, align 1
   %1 = insertelement <8 x i8> undef, i8 %0, i32 0
@@ -190,7 +194,7 @@ entry:
 
 define <4 x i16> @test_vld1_dup_s16(i16* %a) {
 ; CHECK-LABEL: test_vld1_dup_s16
-; CHECK: ld1r {{{v[0-9]+}}.4h}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.4h }, [x0]
 entry:
   %0 = load i16* %a, align 2
   %1 = insertelement <4 x i16> undef, i16 %0, i32 0
@@ -200,7 +204,7 @@ entry:
 
 define <2 x i32> @test_vld1_dup_s32(i32* %a) {
 ; CHECK-LABEL: test_vld1_dup_s32
-; CHECK: ld1r {{{v[0-9]+}}.2s}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.2s }, [x0]
 entry:
   %0 = load i32* %a, align 4
   %1 = insertelement <2 x i32> undef, i32 %0, i32 0
@@ -210,7 +214,7 @@ entry:
 
 define <1 x i64> @test_vld1_dup_s64(i64* %a) {
 ; CHECK-LABEL: test_vld1_dup_s64
-; CHECK: ld1r {{{v[0-9]+}}.1d}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.1d }, [x0]
 entry:
   %0 = load i64* %a, align 8
   %1 = insertelement <1 x i64> undef, i64 %0, i32 0
@@ -219,7 +223,7 @@ entry:
 
 define <2 x float> @test_vld1_dup_f32(float* %a) {
 ; CHECK-LABEL: test_vld1_dup_f32
-; CHECK: ld1r {{{v[0-9]+}}.2s}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.2s }, [x0]
 entry:
   %0 = load float* %a, align 4
   %1 = insertelement <2 x float> undef, float %0, i32 0
@@ -229,16 +233,41 @@ entry:
 
 define <1 x double> @test_vld1_dup_f64(double* %a) {
 ; CHECK-LABEL: test_vld1_dup_f64
-; CHECK: ld1r {{{v[0-9]+}}.1d}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.1d }, [x0]
 entry:
   %0 = load double* %a, align 8
   %1 = insertelement <1 x double> undef, double %0, i32 0
   ret <1 x double> %1
 }
 
+define <1 x i64> @testDUP.v1i64(i64* %a, i64* %b) #0 {
+; As there is a store operation depending on %1, LD1R pattern can't be selected.
+; So LDR and FMOV should be emitted.
+; CHECK-LABEL: testDUP.v1i64
+; CHECK: ldr {{x[0-9]+}}, [{{x[0-9]+}}]
+; CHECK: fmov {{d[0-9]+}}, {{x[0-9]+}}
+; CHECK: str {{x[0-9]+}}, [{{x[0-9]+}}]
+  %1 = load i64* %a, align 8
+  store i64 %1, i64* %b, align 8
+  %vecinit.i = insertelement <1 x i64> undef, i64 %1, i32 0
+  ret <1 x i64> %vecinit.i
+}
+
+define <1 x double> @testDUP.v1f64(double* %a, double* %b) #0 {
+; As there is a store operation depending on %1, LD1R pattern can't be selected.
+; So LDR and FMOV should be emitted.
+; CHECK-LABEL: testDUP.v1f64
+; CHECK: ldr {{d[0-9]+}}, [{{x[0-9]+}}]
+; CHECK: str {{d[0-9]+}}, [{{x[0-9]+}}]
+  %1 = load double* %a, align 8
+  store double %1, double* %b, align 8
+  %vecinit.i = insertelement <1 x double> undef, double %1, i32 0
+  ret <1 x double> %vecinit.i
+}
+
 define %struct.int8x16x2_t @test_vld2q_dup_s8(i8* %a) {
 ; CHECK-LABEL: test_vld2q_dup_s8
-; CHECK: ld2r {{{v[0-9]+}}.16b, {{v[0-9]+}}.16b}, [x0]
+; CHECK: ld2r { {{v[0-9]+}}.16b, {{v[0-9]+}}.16b }, [x0]
 entry:
   %vld_dup = tail call { <16 x i8>, <16 x i8> } @llvm.arm.neon.vld2lane.v16i8(i8* %a, <16 x i8> undef, <16 x i8> undef, i32 0, i32 1)
   %0 = extractvalue { <16 x i8>, <16 x i8> } %vld_dup, 0
@@ -252,7 +281,7 @@ entry:
 
 define %struct.int16x8x2_t @test_vld2q_dup_s16(i16* %a) {
 ; CHECK-LABEL: test_vld2q_dup_s16
-; CHECK: ld2r {{{v[0-9]+}}.8h, {{v[0-9]+}}.8h}, [x0]
+; CHECK: ld2r { {{v[0-9]+}}.8h, {{v[0-9]+}}.8h }, [x0]
 entry:
   %0 = bitcast i16* %a to i8*
   %vld_dup = tail call { <8 x i16>, <8 x i16> } @llvm.arm.neon.vld2lane.v8i16(i8* %0, <8 x i16> undef, <8 x i16> undef, i32 0, i32 2)
@@ -267,7 +296,7 @@ entry:
 
 define %struct.int32x4x2_t @test_vld2q_dup_s32(i32* %a) {
 ; CHECK-LABEL: test_vld2q_dup_s32
-; CHECK: ld2r {{{v[0-9]+}}.4s, {{v[0-9]+}}.4s}, [x0]
+; CHECK: ld2r { {{v[0-9]+}}.4s, {{v[0-9]+}}.4s }, [x0]
 entry:
   %0 = bitcast i32* %a to i8*
   %vld_dup = tail call { <4 x i32>, <4 x i32> } @llvm.arm.neon.vld2lane.v4i32(i8* %0, <4 x i32> undef, <4 x i32> undef, i32 0, i32 4)
@@ -282,7 +311,7 @@ entry:
 
 define %struct.int64x2x2_t @test_vld2q_dup_s64(i64* %a) {
 ; CHECK-LABEL: test_vld2q_dup_s64
-; CHECK: ld2r {{{v[0-9]+}}.2d, {{v[0-9]+}}.2d}, [x0]
+; CHECK: ld2r { {{v[0-9]+}}.2d, {{v[0-9]+}}.2d }, [x0]
 entry:
   %0 = bitcast i64* %a to i8*
   %vld_dup = tail call { <2 x i64>, <2 x i64> } @llvm.arm.neon.vld2lane.v2i64(i8* %0, <2 x i64> undef, <2 x i64> undef, i32 0, i32 8)
@@ -297,7 +326,7 @@ entry:
 
 define %struct.float32x4x2_t @test_vld2q_dup_f32(float* %a) {
 ; CHECK-LABEL: test_vld2q_dup_f32
-; CHECK: ld2r {{{v[0-9]+}}.4s, {{v[0-9]+}}.4s}, [x0]
+; CHECK: ld2r { {{v[0-9]+}}.4s, {{v[0-9]+}}.4s }, [x0]
 entry:
   %0 = bitcast float* %a to i8*
   %vld_dup = tail call { <4 x float>, <4 x float> } @llvm.arm.neon.vld2lane.v4f32(i8* %0, <4 x float> undef, <4 x float> undef, i32 0, i32 4)
@@ -312,7 +341,7 @@ entry:
 
 define %struct.float64x2x2_t @test_vld2q_dup_f64(double* %a) {
 ; CHECK-LABEL: test_vld2q_dup_f64
-; CHECK: ld2r {{{v[0-9]+}}.2d, {{v[0-9]+}}.2d}, [x0]
+; CHECK: ld2r { {{v[0-9]+}}.2d, {{v[0-9]+}}.2d }, [x0]
 entry:
   %0 = bitcast double* %a to i8*
   %vld_dup = tail call { <2 x double>, <2 x double> } @llvm.arm.neon.vld2lane.v2f64(i8* %0, <2 x double> undef, <2 x double> undef, i32 0, i32 8)
@@ -327,7 +356,7 @@ entry:
 
 define %struct.int8x8x2_t @test_vld2_dup_s8(i8* %a) {
 ; CHECK-LABEL: test_vld2_dup_s8
-; CHECK: ld2r {{{v[0-9]+}}.8b, {{v[0-9]+}}.8b}, [x0]
+; CHECK: ld2r { {{v[0-9]+}}.8b, {{v[0-9]+}}.8b }, [x0]
 entry:
   %vld_dup = tail call { <8 x i8>, <8 x i8> } @llvm.arm.neon.vld2lane.v8i8(i8* %a, <8 x i8> undef, <8 x i8> undef, i32 0, i32 1)
   %0 = extractvalue { <8 x i8>, <8 x i8> } %vld_dup, 0
@@ -341,7 +370,7 @@ entry:
 
 define %struct.int16x4x2_t @test_vld2_dup_s16(i16* %a) {
 ; CHECK-LABEL: test_vld2_dup_s16
-; CHECK: ld2r {{{v[0-9]+}}.4h, {{v[0-9]+}}.4h}, [x0]
+; CHECK: ld2r { {{v[0-9]+}}.4h, {{v[0-9]+}}.4h }, [x0]
 entry:
   %0 = bitcast i16* %a to i8*
   %vld_dup = tail call { <4 x i16>, <4 x i16> } @llvm.arm.neon.vld2lane.v4i16(i8* %0, <4 x i16> undef, <4 x i16> undef, i32 0, i32 2)
@@ -356,7 +385,7 @@ entry:
 
 define %struct.int32x2x2_t @test_vld2_dup_s32(i32* %a) {
 ; CHECK-LABEL: test_vld2_dup_s32
-; CHECK: ld2r {{{v[0-9]+}}.2s, {{v[0-9]+}}.2s}, [x0]
+; CHECK: ld2r { {{v[0-9]+}}.2s, {{v[0-9]+}}.2s }, [x0]
 entry:
   %0 = bitcast i32* %a to i8*
   %vld_dup = tail call { <2 x i32>, <2 x i32> } @llvm.arm.neon.vld2lane.v2i32(i8* %0, <2 x i32> undef, <2 x i32> undef, i32 0, i32 4)
@@ -371,7 +400,7 @@ entry:
 
 define %struct.int64x1x2_t @test_vld2_dup_s64(i64* %a) {
 ; CHECK-LABEL: test_vld2_dup_s64
-; CHECK: ld1 {{{v[0-9]+}}.1d, {{v[0-9]+}}.1d}, [x0]
+; CHECK: ld1 { {{v[0-9]+}}.1d, {{v[0-9]+}}.1d }, [x0]
 entry:
   %0 = bitcast i64* %a to i8*
   %vld_dup = tail call { <1 x i64>, <1 x i64> } @llvm.arm.neon.vld2.v1i64(i8* %0, i32 8)
@@ -384,7 +413,7 @@ entry:
 
 define %struct.float32x2x2_t @test_vld2_dup_f32(float* %a) {
 ; CHECK-LABEL: test_vld2_dup_f32
-; CHECK: ld2r {{{v[0-9]+}}.2s, {{v[0-9]+}}.2s}, [x0]
+; CHECK: ld2r { {{v[0-9]+}}.2s, {{v[0-9]+}}.2s }, [x0]
 entry:
   %0 = bitcast float* %a to i8*
   %vld_dup = tail call { <2 x float>, <2 x float> } @llvm.arm.neon.vld2lane.v2f32(i8* %0, <2 x float> undef, <2 x float> undef, i32 0, i32 4)
@@ -399,7 +428,7 @@ entry:
 
 define %struct.float64x1x2_t @test_vld2_dup_f64(double* %a) {
 ; CHECK-LABEL: test_vld2_dup_f64
-; CHECK: ld1 {{{v[0-9]+}}.1d, {{v[0-9]+}}.1d}, [x0]
+; CHECK: ld1 { {{v[0-9]+}}.1d, {{v[0-9]+}}.1d }, [x0]
 entry:
   %0 = bitcast double* %a to i8*
   %vld_dup = tail call { <1 x double>, <1 x double> } @llvm.arm.neon.vld2.v1f64(i8* %0, i32 8)
@@ -412,7 +441,7 @@ entry:
 
 define %struct.int8x16x3_t @test_vld3q_dup_s8(i8* %a) {
 ; CHECK-LABEL: test_vld3q_dup_s8
-; CHECK: ld3r {{{v[0-9]+}}.16b, {{v[0-9]+}}.16b, {{v[0-9]+}}.16b}, [x0]
+; CHECK: ld3r { {{v[0-9]+}}.16b, {{v[0-9]+}}.16b, {{v[0-9]+}}.16b }, [x0]
 entry:
   %vld_dup = tail call { <16 x i8>, <16 x i8>, <16 x i8> } @llvm.arm.neon.vld3lane.v16i8(i8* %a, <16 x i8> undef, <16 x i8> undef, <16 x i8> undef, i32 0, i32 1)
   %0 = extractvalue { <16 x i8>, <16 x i8>, <16 x i8> } %vld_dup, 0
@@ -429,7 +458,7 @@ entry:
 
 define %struct.int16x8x3_t @test_vld3q_dup_s16(i16* %a) {
 ; CHECK-LABEL: test_vld3q_dup_s16
-; CHECK: ld3r {{{v[0-9]+}}.8h, {{v[0-9]+}}.8h, {{v[0-9]+}}.8h}, [x0]
+; CHECK: ld3r { {{v[0-9]+}}.8h, {{v[0-9]+}}.8h, {{v[0-9]+}}.8h }, [x0]
 entry:
   %0 = bitcast i16* %a to i8*
   %vld_dup = tail call { <8 x i16>, <8 x i16>, <8 x i16> } @llvm.arm.neon.vld3lane.v8i16(i8* %0, <8 x i16> undef, <8 x i16> undef, <8 x i16> undef, i32 0, i32 2)
@@ -447,7 +476,7 @@ entry:
 
 define %struct.int32x4x3_t @test_vld3q_dup_s32(i32* %a) {
 ; CHECK-LABEL: test_vld3q_dup_s32
-; CHECK: ld3r {{{v[0-9]+}}.4s, {{v[0-9]+}}.4s, {{v[0-9]+}}.4s}, [x0]
+; CHECK: ld3r { {{v[0-9]+}}.4s, {{v[0-9]+}}.4s, {{v[0-9]+}}.4s }, [x0]
 entry:
   %0 = bitcast i32* %a to i8*
   %vld_dup = tail call { <4 x i32>, <4 x i32>, <4 x i32> } @llvm.arm.neon.vld3lane.v4i32(i8* %0, <4 x i32> undef, <4 x i32> undef, <4 x i32> undef, i32 0, i32 4)
@@ -465,7 +494,7 @@ entry:
 
 define %struct.int64x2x3_t @test_vld3q_dup_s64(i64* %a) {
 ; CHECK-LABEL: test_vld3q_dup_s64
-; CHECK: ld3r {{{v[0-9]+}}.2d, {{v[0-9]+}}.2d, {{v[0-9]+}}.2d}, [x0]
+; CHECK: ld3r { {{v[0-9]+}}.2d, {{v[0-9]+}}.2d, {{v[0-9]+}}.2d }, [x0]
 entry:
   %0 = bitcast i64* %a to i8*
   %vld_dup = tail call { <2 x i64>, <2 x i64>, <2 x i64> } @llvm.arm.neon.vld3lane.v2i64(i8* %0, <2 x i64> undef, <2 x i64> undef, <2 x i64> undef, i32 0, i32 8)
@@ -483,7 +512,7 @@ entry:
 
 define %struct.float32x4x3_t @test_vld3q_dup_f32(float* %a) {
 ; CHECK-LABEL: test_vld3q_dup_f32
-; CHECK: ld3r {{{v[0-9]+}}.4s, {{v[0-9]+}}.4s, {{v[0-9]+}}.4s}, [x0]
+; CHECK: ld3r { {{v[0-9]+}}.4s, {{v[0-9]+}}.4s, {{v[0-9]+}}.4s }, [x0]
 entry:
   %0 = bitcast float* %a to i8*
   %vld_dup = tail call { <4 x float>, <4 x float>, <4 x float> } @llvm.arm.neon.vld3lane.v4f32(i8* %0, <4 x float> undef, <4 x float> undef, <4 x float> undef, i32 0, i32 4)
@@ -501,7 +530,7 @@ entry:
 
 define %struct.float64x2x3_t @test_vld3q_dup_f64(double* %a) {
 ; CHECK-LABEL: test_vld3q_dup_f64
-; CHECK: ld3r {{{v[0-9]+}}.2d, {{v[0-9]+}}.2d, {{v[0-9]+}}.2d}, [x0]
+; CHECK: ld3r { {{v[0-9]+}}.2d, {{v[0-9]+}}.2d, {{v[0-9]+}}.2d }, [x0]
 entry:
   %0 = bitcast double* %a to i8*
   %vld_dup = tail call { <2 x double>, <2 x double>, <2 x double> } @llvm.arm.neon.vld3lane.v2f64(i8* %0, <2 x double> undef, <2 x double> undef, <2 x double> undef, i32 0, i32 8)
@@ -519,7 +548,7 @@ entry:
 
 define %struct.int8x8x3_t @test_vld3_dup_s8(i8* %a) {
 ; CHECK-LABEL: test_vld3_dup_s8
-; CHECK: ld3r {{{v[0-9]+}}.8b, {{v[0-9]+}}.8b, {{v[0-9]+}}.8b}, [x0]
+; CHECK: ld3r { {{v[0-9]+}}.8b, {{v[0-9]+}}.8b, {{v[0-9]+}}.8b }, [x0]
 entry:
   %vld_dup = tail call { <8 x i8>, <8 x i8>, <8 x i8> } @llvm.arm.neon.vld3lane.v8i8(i8* %a, <8 x i8> undef, <8 x i8> undef, <8 x i8> undef, i32 0, i32 1)
   %0 = extractvalue { <8 x i8>, <8 x i8>, <8 x i8> } %vld_dup, 0
@@ -536,7 +565,7 @@ entry:
 
 define %struct.int16x4x3_t @test_vld3_dup_s16(i16* %a) {
 ; CHECK-LABEL: test_vld3_dup_s16
-; CHECK: ld3r {{{v[0-9]+}}.4h, {{v[0-9]+}}.4h, {{v[0-9]+}}.4h}, [x0]
+; CHECK: ld3r { {{v[0-9]+}}.4h, {{v[0-9]+}}.4h, {{v[0-9]+}}.4h }, [x0]
 entry:
   %0 = bitcast i16* %a to i8*
   %vld_dup = tail call { <4 x i16>, <4 x i16>, <4 x i16> } @llvm.arm.neon.vld3lane.v4i16(i8* %0, <4 x i16> undef, <4 x i16> undef, <4 x i16> undef, i32 0, i32 2)
@@ -554,7 +583,7 @@ entry:
 
 define %struct.int32x2x3_t @test_vld3_dup_s32(i32* %a) {
 ; CHECK-LABEL: test_vld3_dup_s32
-; CHECK: ld3r {{{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s}, [x0]
+; CHECK: ld3r { {{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s }, [x0]
 entry:
   %0 = bitcast i32* %a to i8*
   %vld_dup = tail call { <2 x i32>, <2 x i32>, <2 x i32> } @llvm.arm.neon.vld3lane.v2i32(i8* %0, <2 x i32> undef, <2 x i32> undef, <2 x i32> undef, i32 0, i32 4)
@@ -572,7 +601,7 @@ entry:
 
 define %struct.int64x1x3_t @test_vld3_dup_s64(i64* %a) {
 ; CHECK-LABEL: test_vld3_dup_s64
-; CHECK: ld1 {{{v[0-9]+}}.1d, {{v[0-9]+}}.1d, {{v[0-9]+}}.1d}, [x0]
+; CHECK: ld1 { {{v[0-9]+}}.1d, {{v[0-9]+}}.1d, {{v[0-9]+}}.1d }, [x0]
 entry:
   %0 = bitcast i64* %a to i8*
   %vld_dup = tail call { <1 x i64>, <1 x i64>, <1 x i64> } @llvm.arm.neon.vld3.v1i64(i8* %0, i32 8)
@@ -587,7 +616,7 @@ entry:
 
 define %struct.float32x2x3_t @test_vld3_dup_f32(float* %a) {
 ; CHECK-LABEL: test_vld3_dup_f32
-; CHECK: ld3r {{{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s}, [x0]
+; CHECK: ld3r { {{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s }, [x0]
 entry:
   %0 = bitcast float* %a to i8*
   %vld_dup = tail call { <2 x float>, <2 x float>, <2 x float> } @llvm.arm.neon.vld3lane.v2f32(i8* %0, <2 x float> undef, <2 x float> undef, <2 x float> undef, i32 0, i32 4)
@@ -605,7 +634,7 @@ entry:
 
 define %struct.float64x1x3_t @test_vld3_dup_f64(double* %a) {
 ; CHECK-LABEL: test_vld3_dup_f64
-; CHECK: ld1 {{{v[0-9]+}}.1d, {{v[0-9]+}}.1d, {{v[0-9]+}}.1d}, [x0]
+; CHECK: ld1 { {{v[0-9]+}}.1d, {{v[0-9]+}}.1d, {{v[0-9]+}}.1d }, [x0]
 entry:
   %0 = bitcast double* %a to i8*
   %vld_dup = tail call { <1 x double>, <1 x double>, <1 x double> } @llvm.arm.neon.vld3.v1f64(i8* %0, i32 8)
@@ -620,7 +649,7 @@ entry:
 
 define %struct.int8x16x4_t @test_vld4q_dup_s8(i8* %a) {
 ; CHECK-LABEL: test_vld4q_dup_s8
-; CHECK: ld4r {{{v[0-9]+}}.16b, {{v[0-9]+}}.16b, {{v[0-9]+}}.16b, {{v[0-9]+}}.16b}, [x0]
+; CHECK: ld4r { {{v[0-9]+}}.16b, {{v[0-9]+}}.16b, {{v[0-9]+}}.16b, {{v[0-9]+}}.16b }, [x0]
 entry:
   %vld_dup = tail call { <16 x i8>, <16 x i8>, <16 x i8>, <16 x i8> } @llvm.arm.neon.vld4lane.v16i8(i8* %a, <16 x i8> undef, <16 x i8> undef, <16 x i8> undef, <16 x i8> undef, i32 0, i32 1)
   %0 = extractvalue { <16 x i8>, <16 x i8>, <16 x i8>, <16 x i8> } %vld_dup, 0
@@ -640,7 +669,7 @@ entry:
 
 define %struct.int16x8x4_t @test_vld4q_dup_s16(i16* %a) {
 ; CHECK-LABEL: test_vld4q_dup_s16
-; CHECK: ld4r {{{v[0-9]+}}.8h, {{v[0-9]+}}.8h, {{v[0-9]+}}.8h, {{v[0-9]+}}.8h}, [x0]
+; CHECK: ld4r { {{v[0-9]+}}.8h, {{v[0-9]+}}.8h, {{v[0-9]+}}.8h, {{v[0-9]+}}.8h }, [x0]
 entry:
   %0 = bitcast i16* %a to i8*
   %vld_dup = tail call { <8 x i16>, <8 x i16>, <8 x i16>, <8 x i16> } @llvm.arm.neon.vld4lane.v8i16(i8* %0, <8 x i16> undef, <8 x i16> undef, <8 x i16> undef, <8 x i16> undef, i32 0, i32 2)
@@ -661,7 +690,7 @@ entry:
 
 define %struct.int32x4x4_t @test_vld4q_dup_s32(i32* %a) {
 ; CHECK-LABEL: test_vld4q_dup_s32
-; CHECK: ld4r {{{v[0-9]+}}.4s, {{v[0-9]+}}.4s, {{v[0-9]+}}.4s, {{v[0-9]+}}.4s}, [x0]
+; CHECK: ld4r { {{v[0-9]+}}.4s, {{v[0-9]+}}.4s, {{v[0-9]+}}.4s, {{v[0-9]+}}.4s }, [x0]
 entry:
   %0 = bitcast i32* %a to i8*
   %vld_dup = tail call { <4 x i32>, <4 x i32>, <4 x i32>, <4 x i32> } @llvm.arm.neon.vld4lane.v4i32(i8* %0, <4 x i32> undef, <4 x i32> undef, <4 x i32> undef, <4 x i32> undef, i32 0, i32 4)
@@ -682,7 +711,7 @@ entry:
 
 define %struct.int64x2x4_t @test_vld4q_dup_s64(i64* %a) {
 ; CHECK-LABEL: test_vld4q_dup_s64
-; CHECK: ld4r {{{v[0-9]+}}.2d, {{v[0-9]+}}.2d, {{v[0-9]+}}.2d, {{v[0-9]+}}.2d}, [x0]
+; CHECK: ld4r { {{v[0-9]+}}.2d, {{v[0-9]+}}.2d, {{v[0-9]+}}.2d, {{v[0-9]+}}.2d }, [x0]
 entry:
   %0 = bitcast i64* %a to i8*
   %vld_dup = tail call { <2 x i64>, <2 x i64>, <2 x i64>, <2 x i64> } @llvm.arm.neon.vld4lane.v2i64(i8* %0, <2 x i64> undef, <2 x i64> undef, <2 x i64> undef, <2 x i64> undef, i32 0, i32 8)
@@ -703,7 +732,7 @@ entry:
 
 define %struct.float32x4x4_t @test_vld4q_dup_f32(float* %a) {
 ; CHECK-LABEL: test_vld4q_dup_f32
-; CHECK: ld4r {{{v[0-9]+}}.4s, {{v[0-9]+}}.4s, {{v[0-9]+}}.4s, {{v[0-9]+}}.4s}, [x0]
+; CHECK: ld4r { {{v[0-9]+}}.4s, {{v[0-9]+}}.4s, {{v[0-9]+}}.4s, {{v[0-9]+}}.4s }, [x0]
 entry:
   %0 = bitcast float* %a to i8*
   %vld_dup = tail call { <4 x float>, <4 x float>, <4 x float>, <4 x float> } @llvm.arm.neon.vld4lane.v4f32(i8* %0, <4 x float> undef, <4 x float> undef, <4 x float> undef, <4 x float> undef, i32 0, i32 4)
@@ -724,7 +753,7 @@ entry:
 
 define %struct.float64x2x4_t @test_vld4q_dup_f64(double* %a) {
 ; CHECK-LABEL: test_vld4q_dup_f64
-; CHECK: ld4r {{{v[0-9]+}}.2d, {{v[0-9]+}}.2d, {{v[0-9]+}}.2d, {{v[0-9]+}}.2d}, [x0]
+; CHECK: ld4r { {{v[0-9]+}}.2d, {{v[0-9]+}}.2d, {{v[0-9]+}}.2d, {{v[0-9]+}}.2d }, [x0]
 entry:
   %0 = bitcast double* %a to i8*
   %vld_dup = tail call { <2 x double>, <2 x double>, <2 x double>, <2 x double> } @llvm.arm.neon.vld4lane.v2f64(i8* %0, <2 x double> undef, <2 x double> undef, <2 x double> undef, <2 x double> undef, i32 0, i32 8)
@@ -745,7 +774,7 @@ entry:
 
 define %struct.int8x8x4_t @test_vld4_dup_s8(i8* %a) {
 ; CHECK-LABEL: test_vld4_dup_s8
-; CHECK: ld4r {{{v[0-9]+}}.8b, {{v[0-9]+}}.8b, {{v[0-9]+}}.8b, {{v[0-9]+}}.8b}, [x0]
+; CHECK: ld4r { {{v[0-9]+}}.8b, {{v[0-9]+}}.8b, {{v[0-9]+}}.8b, {{v[0-9]+}}.8b }, [x0]
 entry:
   %vld_dup = tail call { <8 x i8>, <8 x i8>, <8 x i8>, <8 x i8> } @llvm.arm.neon.vld4lane.v8i8(i8* %a, <8 x i8> undef, <8 x i8> undef, <8 x i8> undef, <8 x i8> undef, i32 0, i32 1)
   %0 = extractvalue { <8 x i8>, <8 x i8>, <8 x i8>, <8 x i8> } %vld_dup, 0
@@ -765,7 +794,7 @@ entry:
 
 define %struct.int16x4x4_t @test_vld4_dup_s16(i16* %a) {
 ; CHECK-LABEL: test_vld4_dup_s16
-; CHECK: ld4r {{{v[0-9]+}}.4h, {{v[0-9]+}}.4h, {{v[0-9]+}}.4h, {{v[0-9]+}}.4h}, [x0]
+; CHECK: ld4r { {{v[0-9]+}}.4h, {{v[0-9]+}}.4h, {{v[0-9]+}}.4h, {{v[0-9]+}}.4h }, [x0]
 entry:
   %0 = bitcast i16* %a to i8*
   %vld_dup = tail call { <4 x i16>, <4 x i16>, <4 x i16>, <4 x i16> } @llvm.arm.neon.vld4lane.v4i16(i8* %0, <4 x i16> undef, <4 x i16> undef, <4 x i16> undef, <4 x i16> undef, i32 0, i32 2)
@@ -786,7 +815,7 @@ entry:
 
 define %struct.int32x2x4_t @test_vld4_dup_s32(i32* %a) {
 ; CHECK-LABEL: test_vld4_dup_s32
-; CHECK: ld4r {{{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s}, [x0]
+; CHECK: ld4r { {{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s }, [x0]
 entry:
   %0 = bitcast i32* %a to i8*
   %vld_dup = tail call { <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32> } @llvm.arm.neon.vld4lane.v2i32(i8* %0, <2 x i32> undef, <2 x i32> undef, <2 x i32> undef, <2 x i32> undef, i32 0, i32 4)
@@ -807,7 +836,7 @@ entry:
 
 define %struct.int64x1x4_t @test_vld4_dup_s64(i64* %a) {
 ; CHECK-LABEL: test_vld4_dup_s64
-; CHECK: ld1 {{{v[0-9]+}}.1d, {{v[0-9]+}}.1d, {{v[0-9]+}}.1d, {{v[0-9]+}}.1d}, [x0]
+; CHECK: ld1 { {{v[0-9]+}}.1d, {{v[0-9]+}}.1d, {{v[0-9]+}}.1d, {{v[0-9]+}}.1d }, [x0]
 entry:
   %0 = bitcast i64* %a to i8*
   %vld_dup = tail call { <1 x i64>, <1 x i64>, <1 x i64>, <1 x i64> } @llvm.arm.neon.vld4.v1i64(i8* %0, i32 8)
@@ -824,7 +853,7 @@ entry:
 
 define %struct.float32x2x4_t @test_vld4_dup_f32(float* %a) {
 ; CHECK-LABEL: test_vld4_dup_f32
-; CHECK: ld4r {{{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s}, [x0]
+; CHECK: ld4r { {{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s }, [x0]
 entry:
   %0 = bitcast float* %a to i8*
   %vld_dup = tail call { <2 x float>, <2 x float>, <2 x float>, <2 x float> } @llvm.arm.neon.vld4lane.v2f32(i8* %0, <2 x float> undef, <2 x float> undef, <2 x float> undef, <2 x float> undef, i32 0, i32 4)
@@ -845,7 +874,7 @@ entry:
 
 define %struct.float64x1x4_t @test_vld4_dup_f64(double* %a) {
 ; CHECK-LABEL: test_vld4_dup_f64
-; CHECK: ld1 {{{v[0-9]+}}.1d, {{v[0-9]+}}.1d, {{v[0-9]+}}.1d, {{v[0-9]+}}.1d}, [x0]
+; CHECK: ld1 { {{v[0-9]+}}.1d, {{v[0-9]+}}.1d, {{v[0-9]+}}.1d, {{v[0-9]+}}.1d }, [x0]
 entry:
   %0 = bitcast double* %a to i8*
   %vld_dup = tail call { <1 x double>, <1 x double>, <1 x double>, <1 x double> } @llvm.arm.neon.vld4.v1f64(i8* %0, i32 8)
@@ -862,7 +891,7 @@ entry:
 
 define <16 x i8> @test_vld1q_lane_s8(i8* %a, <16 x i8> %b) {
 ; CHECK-LABEL: test_vld1q_lane_s8
-; CHECK: ld1 {{{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: ld1 { {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %0 = load i8* %a, align 1
   %vld1_lane = insertelement <16 x i8> %b, i8 %0, i32 15
@@ -871,7 +900,7 @@ entry:
 
 define <8 x i16> @test_vld1q_lane_s16(i16* %a, <8 x i16> %b) {
 ; CHECK-LABEL: test_vld1q_lane_s16
-; CHECK: ld1 {{{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: ld1 { {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %0 = load i16* %a, align 2
   %vld1_lane = insertelement <8 x i16> %b, i16 %0, i32 7
@@ -880,7 +909,7 @@ entry:
 
 define <4 x i32> @test_vld1q_lane_s32(i32* %a, <4 x i32> %b) {
 ; CHECK-LABEL: test_vld1q_lane_s32
-; CHECK: ld1 {{{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld1 { {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %0 = load i32* %a, align 4
   %vld1_lane = insertelement <4 x i32> %b, i32 %0, i32 3
@@ -889,7 +918,7 @@ entry:
 
 define <2 x i64> @test_vld1q_lane_s64(i64* %a, <2 x i64> %b) {
 ; CHECK-LABEL: test_vld1q_lane_s64
-; CHECK: ld1 {{{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld1 { {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %0 = load i64* %a, align 8
   %vld1_lane = insertelement <2 x i64> %b, i64 %0, i32 1
@@ -898,7 +927,7 @@ entry:
 
 define <4 x float> @test_vld1q_lane_f32(float* %a, <4 x float> %b) {
 ; CHECK-LABEL: test_vld1q_lane_f32
-; CHECK: ld1 {{{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld1 { {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %0 = load float* %a, align 4
   %vld1_lane = insertelement <4 x float> %b, float %0, i32 3
@@ -907,7 +936,7 @@ entry:
 
 define <2 x double> @test_vld1q_lane_f64(double* %a, <2 x double> %b) {
 ; CHECK-LABEL: test_vld1q_lane_f64
-; CHECK: ld1 {{{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld1 { {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %0 = load double* %a, align 8
   %vld1_lane = insertelement <2 x double> %b, double %0, i32 1
@@ -916,7 +945,7 @@ entry:
 
 define <8 x i8> @test_vld1_lane_s8(i8* %a, <8 x i8> %b) {
 ; CHECK-LABEL: test_vld1_lane_s8
-; CHECK: ld1 {{{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: ld1 { {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %0 = load i8* %a, align 1
   %vld1_lane = insertelement <8 x i8> %b, i8 %0, i32 7
@@ -925,7 +954,7 @@ entry:
 
 define <4 x i16> @test_vld1_lane_s16(i16* %a, <4 x i16> %b) {
 ; CHECK-LABEL: test_vld1_lane_s16
-; CHECK: ld1 {{{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: ld1 { {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %0 = load i16* %a, align 2
   %vld1_lane = insertelement <4 x i16> %b, i16 %0, i32 3
@@ -934,7 +963,7 @@ entry:
 
 define <2 x i32> @test_vld1_lane_s32(i32* %a, <2 x i32> %b) {
 ; CHECK-LABEL: test_vld1_lane_s32
-; CHECK: ld1 {{{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld1 { {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %0 = load i32* %a, align 4
   %vld1_lane = insertelement <2 x i32> %b, i32 %0, i32 1
@@ -943,7 +972,7 @@ entry:
 
 define <1 x i64> @test_vld1_lane_s64(i64* %a, <1 x i64> %b) {
 ; CHECK-LABEL: test_vld1_lane_s64
-; CHECK: ld1r {{{v[0-9]+}}.1d}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.1d }, [x0]
 entry:
   %0 = load i64* %a, align 8
   %vld1_lane = insertelement <1 x i64> undef, i64 %0, i32 0
@@ -952,7 +981,7 @@ entry:
 
 define <2 x float> @test_vld1_lane_f32(float* %a, <2 x float> %b) {
 ; CHECK-LABEL: test_vld1_lane_f32
-; CHECK: ld1 {{{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld1 { {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %0 = load float* %a, align 4
   %vld1_lane = insertelement <2 x float> %b, float %0, i32 1
@@ -961,7 +990,7 @@ entry:
 
 define <1 x double> @test_vld1_lane_f64(double* %a, <1 x double> %b) {
 ; CHECK-LABEL: test_vld1_lane_f64
-; CHECK: ld1r {{{v[0-9]+}}.1d}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.1d }, [x0]
 entry:
   %0 = load double* %a, align 8
   %vld1_lane = insertelement <1 x double> undef, double %0, i32 0
@@ -970,7 +999,7 @@ entry:
 
 define %struct.int16x8x2_t @test_vld2q_lane_s16(i16* %a, [2 x <8 x i16>] %b.coerce) {
 ; CHECK-LABEL: test_vld2q_lane_s16
-; CHECK: ld2 {{{v[0-9]+}}.h, {{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: ld2 { {{v[0-9]+}}.h, {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <8 x i16>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <8 x i16>] %b.coerce, 1
@@ -985,7 +1014,7 @@ entry:
 
 define %struct.int32x4x2_t @test_vld2q_lane_s32(i32* %a, [2 x <4 x i32>] %b.coerce) {
 ; CHECK-LABEL: test_vld2q_lane_s32
-; CHECK: ld2 {{{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld2 { {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <4 x i32>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <4 x i32>] %b.coerce, 1
@@ -1000,7 +1029,7 @@ entry:
 
 define %struct.int64x2x2_t @test_vld2q_lane_s64(i64* %a, [2 x <2 x i64>] %b.coerce) {
 ; CHECK-LABEL: test_vld2q_lane_s64
-; CHECK: ld2 {{{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld2 { {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <2 x i64>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <2 x i64>] %b.coerce, 1
@@ -1015,7 +1044,7 @@ entry:
 
 define %struct.float32x4x2_t @test_vld2q_lane_f32(float* %a, [2 x <4 x float>] %b.coerce) {
 ; CHECK-LABEL: test_vld2q_lane_f32
-; CHECK: ld2 {{{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld2 { {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <4 x float>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <4 x float>] %b.coerce, 1
@@ -1030,7 +1059,7 @@ entry:
 
 define %struct.float64x2x2_t @test_vld2q_lane_f64(double* %a, [2 x <2 x double>] %b.coerce) {
 ; CHECK-LABEL: test_vld2q_lane_f64
-; CHECK: ld2 {{{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld2 { {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <2 x double>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <2 x double>] %b.coerce, 1
@@ -1045,7 +1074,7 @@ entry:
 
 define %struct.int8x8x2_t @test_vld2_lane_s8(i8* %a, [2 x <8 x i8>] %b.coerce) {
 ; CHECK-LABEL: test_vld2_lane_s8
-; CHECK: ld2 {{{v[0-9]+}}.b, {{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: ld2 { {{v[0-9]+}}.b, {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <8 x i8>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <8 x i8>] %b.coerce, 1
@@ -1059,7 +1088,7 @@ entry:
 
 define %struct.int16x4x2_t @test_vld2_lane_s16(i16* %a, [2 x <4 x i16>] %b.coerce) {
 ; CHECK-LABEL: test_vld2_lane_s16
-; CHECK: ld2 {{{v[0-9]+}}.h, {{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: ld2 { {{v[0-9]+}}.h, {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <4 x i16>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <4 x i16>] %b.coerce, 1
@@ -1074,7 +1103,7 @@ entry:
 
 define %struct.int32x2x2_t @test_vld2_lane_s32(i32* %a, [2 x <2 x i32>] %b.coerce) {
 ; CHECK-LABEL: test_vld2_lane_s32
-; CHECK: ld2 {{{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld2 { {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <2 x i32>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <2 x i32>] %b.coerce, 1
@@ -1089,7 +1118,7 @@ entry:
 
 define %struct.int64x1x2_t @test_vld2_lane_s64(i64* %a, [2 x <1 x i64>] %b.coerce) {
 ; CHECK-LABEL: test_vld2_lane_s64
-; CHECK: ld2 {{{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld2 { {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <1 x i64>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <1 x i64>] %b.coerce, 1
@@ -1104,7 +1133,7 @@ entry:
 
 define %struct.float32x2x2_t @test_vld2_lane_f32(float* %a, [2 x <2 x float>] %b.coerce) {
 ; CHECK-LABEL: test_vld2_lane_f32
-; CHECK: ld2 {{{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld2 { {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <2 x float>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <2 x float>] %b.coerce, 1
@@ -1119,7 +1148,7 @@ entry:
 
 define %struct.float64x1x2_t @test_vld2_lane_f64(double* %a, [2 x <1 x double>] %b.coerce) {
 ; CHECK-LABEL: test_vld2_lane_f64
-; CHECK: ld2 {{{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld2 { {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <1 x double>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <1 x double>] %b.coerce, 1
@@ -1134,7 +1163,7 @@ entry:
 
 define %struct.int16x8x3_t @test_vld3q_lane_s16(i16* %a, [3 x <8 x i16>] %b.coerce) {
 ; CHECK-LABEL: test_vld3q_lane_s16
-; CHECK: ld3 {{{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: ld3 { {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <8 x i16>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <8 x i16>] %b.coerce, 1
@@ -1152,7 +1181,7 @@ entry:
 
 define %struct.int32x4x3_t @test_vld3q_lane_s32(i32* %a, [3 x <4 x i32>] %b.coerce) {
 ; CHECK-LABEL: test_vld3q_lane_s32
-; CHECK: ld3 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld3 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <4 x i32>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <4 x i32>] %b.coerce, 1
@@ -1170,7 +1199,7 @@ entry:
 
 define %struct.int64x2x3_t @test_vld3q_lane_s64(i64* %a, [3 x <2 x i64>] %b.coerce) {
 ; CHECK-LABEL: test_vld3q_lane_s64
-; CHECK: ld3 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld3 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <2 x i64>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <2 x i64>] %b.coerce, 1
@@ -1188,7 +1217,7 @@ entry:
 
 define %struct.float32x4x3_t @test_vld3q_lane_f32(float* %a, [3 x <4 x float>] %b.coerce) {
 ; CHECK-LABEL: test_vld3q_lane_f32
-; CHECK: ld3 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld3 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <4 x float>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <4 x float>] %b.coerce, 1
@@ -1206,7 +1235,7 @@ entry:
 
 define %struct.float64x2x3_t @test_vld3q_lane_f64(double* %a, [3 x <2 x double>] %b.coerce) {
 ; CHECK-LABEL: test_vld3q_lane_f64
-; CHECK: ld3 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld3 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <2 x double>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <2 x double>] %b.coerce, 1
@@ -1224,7 +1253,7 @@ entry:
 
 define %struct.int8x8x3_t @test_vld3_lane_s8(i8* %a, [3 x <8 x i8>] %b.coerce) {
 ; CHECK-LABEL: test_vld3_lane_s8
-; CHECK: ld3 {{{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: ld3 { {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <8 x i8>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <8 x i8>] %b.coerce, 1
@@ -1241,7 +1270,7 @@ entry:
 
 define %struct.int16x4x3_t @test_vld3_lane_s16(i16* %a, [3 x <4 x i16>] %b.coerce) {
 ; CHECK-LABEL: test_vld3_lane_s16
-; CHECK: ld3 {{{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: ld3 { {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <4 x i16>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <4 x i16>] %b.coerce, 1
@@ -1259,7 +1288,7 @@ entry:
 
 define %struct.int32x2x3_t @test_vld3_lane_s32(i32* %a, [3 x <2 x i32>] %b.coerce) {
 ; CHECK-LABEL: test_vld3_lane_s32
-; CHECK: ld3 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld3 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <2 x i32>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <2 x i32>] %b.coerce, 1
@@ -1277,7 +1306,7 @@ entry:
 
 define %struct.int64x1x3_t @test_vld3_lane_s64(i64* %a, [3 x <1 x i64>] %b.coerce) {
 ; CHECK-LABEL: test_vld3_lane_s64
-; CHECK: ld3 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld3 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <1 x i64>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <1 x i64>] %b.coerce, 1
@@ -1295,7 +1324,7 @@ entry:
 
 define %struct.float32x2x3_t @test_vld3_lane_f32(float* %a, [3 x <2 x float>] %b.coerce) {
 ; CHECK-LABEL: test_vld3_lane_f32
-; CHECK: ld3 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld3 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <2 x float>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <2 x float>] %b.coerce, 1
@@ -1313,7 +1342,7 @@ entry:
 
 define %struct.float64x1x3_t @test_vld3_lane_f64(double* %a, [3 x <1 x double>] %b.coerce) {
 ; CHECK-LABEL: test_vld3_lane_f64
-; CHECK: ld3 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld3 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <1 x double>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <1 x double>] %b.coerce, 1
@@ -1331,7 +1360,7 @@ entry:
 
 define %struct.int8x16x4_t @test_vld4q_lane_s8(i8* %a, [4 x <16 x i8>] %b.coerce) {
 ; CHECK-LABEL: test_vld4q_lane_s8
-; CHECK: ld4 {{{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: ld4 { {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <16 x i8>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <16 x i8>] %b.coerce, 1
@@ -1351,7 +1380,7 @@ entry:
 
 define %struct.int16x8x4_t @test_vld4q_lane_s16(i16* %a, [4 x <8 x i16>] %b.coerce) {
 ; CHECK-LABEL: test_vld4q_lane_s16
-; CHECK: ld4 {{{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: ld4 { {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <8 x i16>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <8 x i16>] %b.coerce, 1
@@ -1372,7 +1401,7 @@ entry:
 
 define %struct.int32x4x4_t @test_vld4q_lane_s32(i32* %a, [4 x <4 x i32>] %b.coerce) {
 ; CHECK-LABEL: test_vld4q_lane_s32
-; CHECK: ld4 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld4 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <4 x i32>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <4 x i32>] %b.coerce, 1
@@ -1393,7 +1422,7 @@ entry:
 
 define %struct.int64x2x4_t @test_vld4q_lane_s64(i64* %a, [4 x <2 x i64>] %b.coerce) {
 ; CHECK-LABEL: test_vld4q_lane_s64
-; CHECK: ld4 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld4 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <2 x i64>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <2 x i64>] %b.coerce, 1
@@ -1414,7 +1443,7 @@ entry:
 
 define %struct.float32x4x4_t @test_vld4q_lane_f32(float* %a, [4 x <4 x float>] %b.coerce) {
 ; CHECK-LABEL: test_vld4q_lane_f32
-; CHECK: ld4 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld4 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <4 x float>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <4 x float>] %b.coerce, 1
@@ -1435,7 +1464,7 @@ entry:
 
 define %struct.float64x2x4_t @test_vld4q_lane_f64(double* %a, [4 x <2 x double>] %b.coerce) {
 ; CHECK-LABEL: test_vld4q_lane_f64
-; CHECK: ld4 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld4 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <2 x double>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <2 x double>] %b.coerce, 1
@@ -1456,7 +1485,7 @@ entry:
 
 define %struct.int8x8x4_t @test_vld4_lane_s8(i8* %a, [4 x <8 x i8>] %b.coerce) {
 ; CHECK-LABEL: test_vld4_lane_s8
-; CHECK: ld4 {{{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: ld4 { {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <8 x i8>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <8 x i8>] %b.coerce, 1
@@ -1476,7 +1505,7 @@ entry:
 
 define %struct.int16x4x4_t @test_vld4_lane_s16(i16* %a, [4 x <4 x i16>] %b.coerce) {
 ; CHECK-LABEL: test_vld4_lane_s16
-; CHECK: ld4 {{{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: ld4 { {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <4 x i16>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <4 x i16>] %b.coerce, 1
@@ -1497,7 +1526,7 @@ entry:
 
 define %struct.int32x2x4_t @test_vld4_lane_s32(i32* %a, [4 x <2 x i32>] %b.coerce) {
 ; CHECK-LABEL: test_vld4_lane_s32
-; CHECK: ld4 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld4 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <2 x i32>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <2 x i32>] %b.coerce, 1
@@ -1518,7 +1547,7 @@ entry:
 
 define %struct.int64x1x4_t @test_vld4_lane_s64(i64* %a, [4 x <1 x i64>] %b.coerce) {
 ; CHECK-LABEL: test_vld4_lane_s64
-; CHECK: ld4 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld4 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <1 x i64>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <1 x i64>] %b.coerce, 1
@@ -1539,7 +1568,7 @@ entry:
 
 define %struct.float32x2x4_t @test_vld4_lane_f32(float* %a, [4 x <2 x float>] %b.coerce) {
 ; CHECK-LABEL: test_vld4_lane_f32
-; CHECK: ld4 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld4 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <2 x float>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <2 x float>] %b.coerce, 1
@@ -1560,7 +1589,7 @@ entry:
 
 define %struct.float64x1x4_t @test_vld4_lane_f64(double* %a, [4 x <1 x double>] %b.coerce) {
 ; CHECK-LABEL: test_vld4_lane_f64
-; CHECK: ld4 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld4 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <1 x double>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <1 x double>] %b.coerce, 1
@@ -1581,7 +1610,7 @@ entry:
 
 define void @test_vst1q_lane_s8(i8* %a, <16 x i8> %b) {
 ; CHECK-LABEL: test_vst1q_lane_s8
-; CHECK: st1 {{{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: st1 { {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %0 = extractelement <16 x i8> %b, i32 15
   store i8 %0, i8* %a, align 1
@@ -1590,7 +1619,7 @@ entry:
 
 define void @test_vst1q_lane_s16(i16* %a, <8 x i16> %b) {
 ; CHECK-LABEL: test_vst1q_lane_s16
-; CHECK: st1 {{{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: st1 { {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %0 = extractelement <8 x i16> %b, i32 7
   store i16 %0, i16* %a, align 2
@@ -1599,7 +1628,7 @@ entry:
 
 define void @test_vst1q_lane_s32(i32* %a, <4 x i32> %b) {
 ; CHECK-LABEL: test_vst1q_lane_s32
-; CHECK: st1 {{{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st1 { {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %0 = extractelement <4 x i32> %b, i32 3
   store i32 %0, i32* %a, align 4
@@ -1608,7 +1637,7 @@ entry:
 
 define void @test_vst1q_lane_s64(i64* %a, <2 x i64> %b) {
 ; CHECK-LABEL: test_vst1q_lane_s64
-; CHECK: st1 {{{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st1 { {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %0 = extractelement <2 x i64> %b, i32 1
   store i64 %0, i64* %a, align 8
@@ -1617,7 +1646,7 @@ entry:
 
 define void @test_vst1q_lane_f32(float* %a, <4 x float> %b) {
 ; CHECK-LABEL: test_vst1q_lane_f32
-; CHECK: st1 {{{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st1 { {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %0 = extractelement <4 x float> %b, i32 3
   store float %0, float* %a, align 4
@@ -1626,7 +1655,7 @@ entry:
 
 define void @test_vst1q_lane_f64(double* %a, <2 x double> %b) {
 ; CHECK-LABEL: test_vst1q_lane_f64
-; CHECK: st1 {{{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st1 { {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %0 = extractelement <2 x double> %b, i32 1
   store double %0, double* %a, align 8
@@ -1635,7 +1664,7 @@ entry:
 
 define void @test_vst1_lane_s8(i8* %a, <8 x i8> %b) {
 ; CHECK-LABEL: test_vst1_lane_s8
-; CHECK: st1 {{{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: st1 { {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %0 = extractelement <8 x i8> %b, i32 7
   store i8 %0, i8* %a, align 1
@@ -1644,7 +1673,7 @@ entry:
 
 define void @test_vst1_lane_s16(i16* %a, <4 x i16> %b) {
 ; CHECK-LABEL: test_vst1_lane_s16
-; CHECK: st1 {{{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: st1 { {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %0 = extractelement <4 x i16> %b, i32 3
   store i16 %0, i16* %a, align 2
@@ -1653,7 +1682,7 @@ entry:
 
 define void @test_vst1_lane_s32(i32* %a, <2 x i32> %b) {
 ; CHECK-LABEL: test_vst1_lane_s32
-; CHECK: st1 {{{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st1 { {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %0 = extractelement <2 x i32> %b, i32 1
   store i32 %0, i32* %a, align 4
@@ -1662,7 +1691,7 @@ entry:
 
 define void @test_vst1_lane_s64(i64* %a, <1 x i64> %b) {
 ; CHECK-LABEL: test_vst1_lane_s64
-; CHECK: st1 {{{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st1 { {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %0 = extractelement <1 x i64> %b, i32 0
   store i64 %0, i64* %a, align 8
@@ -1671,7 +1700,7 @@ entry:
 
 define void @test_vst1_lane_f32(float* %a, <2 x float> %b) {
 ; CHECK-LABEL: test_vst1_lane_f32
-; CHECK: st1 {{{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st1 { {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %0 = extractelement <2 x float> %b, i32 1
   store float %0, float* %a, align 4
@@ -1680,7 +1709,7 @@ entry:
 
 define void @test_vst1_lane_f64(double* %a, <1 x double> %b) {
 ; CHECK-LABEL: test_vst1_lane_f64
-; CHECK: st1 {{{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st1 { {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %0 = extractelement <1 x double> %b, i32 0
   store double %0, double* %a, align 8
@@ -1689,7 +1718,7 @@ entry:
 
 define void @test_vst2q_lane_s8(i8* %a, [2 x <16 x i8>] %b.coerce) {
 ; CHECK-LABEL: test_vst2q_lane_s8
-; CHECK: st2 {{{v[0-9]+}}.b, {{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: st2 { {{v[0-9]+}}.b, {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <16 x i8>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <16 x i8>] %b.coerce, 1
@@ -1699,7 +1728,7 @@ entry:
 
 define void @test_vst2q_lane_s16(i16* %a, [2 x <8 x i16>] %b.coerce) {
 ; CHECK-LABEL: test_vst2q_lane_s16
-; CHECK: st2 {{{v[0-9]+}}.h, {{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: st2 { {{v[0-9]+}}.h, {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <8 x i16>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <8 x i16>] %b.coerce, 1
@@ -1710,7 +1739,7 @@ entry:
 
 define void @test_vst2q_lane_s32(i32* %a, [2 x <4 x i32>] %b.coerce) {
 ; CHECK-LABEL: test_vst2q_lane_s32
-; CHECK: st2 {{{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st2 { {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <4 x i32>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <4 x i32>] %b.coerce, 1
@@ -1721,7 +1750,7 @@ entry:
 
 define void @test_vst2q_lane_s64(i64* %a, [2 x <2 x i64>] %b.coerce) {
 ; CHECK-LABEL: test_vst2q_lane_s64
-; CHECK: st2 {{{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st2 { {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <2 x i64>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <2 x i64>] %b.coerce, 1
@@ -1732,7 +1761,7 @@ entry:
 
 define void @test_vst2q_lane_f32(float* %a, [2 x <4 x float>] %b.coerce) {
 ; CHECK-LABEL: test_vst2q_lane_f32
-; CHECK: st2 {{{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st2 { {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <4 x float>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <4 x float>] %b.coerce, 1
@@ -1743,7 +1772,7 @@ entry:
 
 define void @test_vst2q_lane_f64(double* %a, [2 x <2 x double>] %b.coerce) {
 ; CHECK-LABEL: test_vst2q_lane_f64
-; CHECK: st2 {{{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st2 { {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <2 x double>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <2 x double>] %b.coerce, 1
@@ -1754,7 +1783,7 @@ entry:
 
 define void @test_vst2_lane_s8(i8* %a, [2 x <8 x i8>] %b.coerce) {
 ; CHECK-LABEL: test_vst2_lane_s8
-; CHECK: st2 {{{v[0-9]+}}.b, {{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: st2 { {{v[0-9]+}}.b, {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <8 x i8>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <8 x i8>] %b.coerce, 1
@@ -1764,7 +1793,7 @@ entry:
 
 define void @test_vst2_lane_s16(i16* %a, [2 x <4 x i16>] %b.coerce) {
 ; CHECK-LABEL: test_vst2_lane_s16
-; CHECK: st2 {{{v[0-9]+}}.h, {{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: st2 { {{v[0-9]+}}.h, {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <4 x i16>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <4 x i16>] %b.coerce, 1
@@ -1775,7 +1804,7 @@ entry:
 
 define void @test_vst2_lane_s32(i32* %a, [2 x <2 x i32>] %b.coerce) {
 ; CHECK-LABEL: test_vst2_lane_s32
-; CHECK: st2 {{{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st2 { {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <2 x i32>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <2 x i32>] %b.coerce, 1
@@ -1786,7 +1815,7 @@ entry:
 
 define void @test_vst2_lane_s64(i64* %a, [2 x <1 x i64>] %b.coerce) {
 ; CHECK-LABEL: test_vst2_lane_s64
-; CHECK: st2 {{{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st2 { {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <1 x i64>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <1 x i64>] %b.coerce, 1
@@ -1797,7 +1826,7 @@ entry:
 
 define void @test_vst2_lane_f32(float* %a, [2 x <2 x float>] %b.coerce) {
 ; CHECK-LABEL: test_vst2_lane_f32
-; CHECK: st2 {{{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st2 { {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <2 x float>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <2 x float>] %b.coerce, 1
@@ -1808,7 +1837,7 @@ entry:
 
 define void @test_vst2_lane_f64(double* %a, [2 x <1 x double>] %b.coerce) {
 ; CHECK-LABEL: test_vst2_lane_f64
-; CHECK: st2 {{{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st2 { {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <1 x double>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <1 x double>] %b.coerce, 1
@@ -1819,7 +1848,7 @@ entry:
 
 define void @test_vst3q_lane_s8(i8* %a, [3 x <16 x i8>] %b.coerce) {
 ; CHECK-LABEL: test_vst3q_lane_s8
-; CHECK: st3 {{{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: st3 { {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <16 x i8>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <16 x i8>] %b.coerce, 1
@@ -1830,7 +1859,7 @@ entry:
 
 define void @test_vst3q_lane_s16(i16* %a, [3 x <8 x i16>] %b.coerce) {
 ; CHECK-LABEL: test_vst3q_lane_s16
-; CHECK: st3 {{{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: st3 { {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <8 x i16>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <8 x i16>] %b.coerce, 1
@@ -1842,7 +1871,7 @@ entry:
 
 define void @test_vst3q_lane_s32(i32* %a, [3 x <4 x i32>] %b.coerce) {
 ; CHECK-LABEL: test_vst3q_lane_s32
-; CHECK: st3 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st3 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <4 x i32>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <4 x i32>] %b.coerce, 1
@@ -1854,7 +1883,7 @@ entry:
 
 define void @test_vst3q_lane_s64(i64* %a, [3 x <2 x i64>] %b.coerce) {
 ; CHECK-LABEL: test_vst3q_lane_s64
-; CHECK: st3 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st3 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <2 x i64>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <2 x i64>] %b.coerce, 1
@@ -1866,7 +1895,7 @@ entry:
 
 define void @test_vst3q_lane_f32(float* %a, [3 x <4 x float>] %b.coerce) {
 ; CHECK-LABEL: test_vst3q_lane_f32
-; CHECK: st3 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st3 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <4 x float>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <4 x float>] %b.coerce, 1
@@ -1878,7 +1907,7 @@ entry:
 
 define void @test_vst3q_lane_f64(double* %a, [3 x <2 x double>] %b.coerce) {
 ; CHECK-LABEL: test_vst3q_lane_f64
-; CHECK: st3 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st3 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <2 x double>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <2 x double>] %b.coerce, 1
@@ -1890,7 +1919,7 @@ entry:
 
 define void @test_vst3_lane_s8(i8* %a, [3 x <8 x i8>] %b.coerce) {
 ; CHECK-LABEL: test_vst3_lane_s8
-; CHECK: st3 {{{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: st3 { {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <8 x i8>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <8 x i8>] %b.coerce, 1
@@ -1901,7 +1930,7 @@ entry:
 
 define void @test_vst3_lane_s16(i16* %a, [3 x <4 x i16>] %b.coerce) {
 ; CHECK-LABEL: test_vst3_lane_s16
-; CHECK: st3 {{{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: st3 { {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <4 x i16>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <4 x i16>] %b.coerce, 1
@@ -1913,7 +1942,7 @@ entry:
 
 define void @test_vst3_lane_s32(i32* %a, [3 x <2 x i32>] %b.coerce) {
 ; CHECK-LABEL: test_vst3_lane_s32
-; CHECK: st3 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st3 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <2 x i32>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <2 x i32>] %b.coerce, 1
@@ -1925,7 +1954,7 @@ entry:
 
 define void @test_vst3_lane_s64(i64* %a, [3 x <1 x i64>] %b.coerce) {
 ; CHECK-LABEL: test_vst3_lane_s64
-; CHECK: st3 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st3 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <1 x i64>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <1 x i64>] %b.coerce, 1
@@ -1937,7 +1966,7 @@ entry:
 
 define void @test_vst3_lane_f32(float* %a, [3 x <2 x float>] %b.coerce) {
 ; CHECK-LABEL: test_vst3_lane_f32
-; CHECK: st3 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st3 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <2 x float>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <2 x float>] %b.coerce, 1
@@ -1949,7 +1978,7 @@ entry:
 
 define void @test_vst3_lane_f64(double* %a, [3 x <1 x double>] %b.coerce) {
 ; CHECK-LABEL: test_vst3_lane_f64
-; CHECK: st3 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st3 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <1 x double>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <1 x double>] %b.coerce, 1
@@ -1961,7 +1990,7 @@ entry:
 
 define void @test_vst4q_lane_s8(i16* %a, [4 x <16 x i8>] %b.coerce) {
 ; CHECK-LABEL: test_vst4q_lane_s8
-; CHECK: st4 {{{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: st4 { {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <16 x i8>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <16 x i8>] %b.coerce, 1
@@ -1974,7 +2003,7 @@ entry:
 
 define void @test_vst4q_lane_s16(i16* %a, [4 x <8 x i16>] %b.coerce) {
 ; CHECK-LABEL: test_vst4q_lane_s16
-; CHECK: st4 {{{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: st4 { {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <8 x i16>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <8 x i16>] %b.coerce, 1
@@ -1987,7 +2016,7 @@ entry:
 
 define void @test_vst4q_lane_s32(i32* %a, [4 x <4 x i32>] %b.coerce) {
 ; CHECK-LABEL: test_vst4q_lane_s32
-; CHECK: st4 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st4 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <4 x i32>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <4 x i32>] %b.coerce, 1
@@ -2000,7 +2029,7 @@ entry:
 
 define void @test_vst4q_lane_s64(i64* %a, [4 x <2 x i64>] %b.coerce) {
 ; CHECK-LABEL: test_vst4q_lane_s64
-; CHECK: st4 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st4 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <2 x i64>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <2 x i64>] %b.coerce, 1
@@ -2013,7 +2042,7 @@ entry:
 
 define void @test_vst4q_lane_f32(float* %a, [4 x <4 x float>] %b.coerce) {
 ; CHECK-LABEL: test_vst4q_lane_f32
-; CHECK: st4 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st4 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <4 x float>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <4 x float>] %b.coerce, 1
@@ -2026,7 +2055,7 @@ entry:
 
 define void @test_vst4q_lane_f64(double* %a, [4 x <2 x double>] %b.coerce) {
 ; CHECK-LABEL: test_vst4q_lane_f64
-; CHECK: st4 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st4 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <2 x double>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <2 x double>] %b.coerce, 1
@@ -2039,7 +2068,7 @@ entry:
 
 define void @test_vst4_lane_s8(i8* %a, [4 x <8 x i8>] %b.coerce) {
 ; CHECK-LABEL: test_vst4_lane_s8
-; CHECK: st4 {{{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: st4 { {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <8 x i8>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <8 x i8>] %b.coerce, 1
@@ -2051,7 +2080,7 @@ entry:
 
 define void @test_vst4_lane_s16(i16* %a, [4 x <4 x i16>] %b.coerce) {
 ; CHECK-LABEL: test_vst4_lane_s16
-; CHECK: st4 {{{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: st4 { {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <4 x i16>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <4 x i16>] %b.coerce, 1
@@ -2064,7 +2093,7 @@ entry:
 
 define void @test_vst4_lane_s32(i32* %a, [4 x <2 x i32>] %b.coerce) {
 ; CHECK-LABEL: test_vst4_lane_s32
-; CHECK: st4 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st4 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <2 x i32>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <2 x i32>] %b.coerce, 1
@@ -2077,7 +2106,7 @@ entry:
 
 define void @test_vst4_lane_s64(i64* %a, [4 x <1 x i64>] %b.coerce) {
 ; CHECK-LABEL: test_vst4_lane_s64
-; CHECK: st4 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st4 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <1 x i64>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <1 x i64>] %b.coerce, 1
@@ -2090,7 +2119,7 @@ entry:
 
 define void @test_vst4_lane_f32(float* %a, [4 x <2 x float>] %b.coerce) {
 ; CHECK-LABEL: test_vst4_lane_f32
-; CHECK: st4 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st4 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <2 x float>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <2 x float>] %b.coerce, 1
@@ -2103,7 +2132,7 @@ entry:
 
 define void @test_vst4_lane_f64(double* %a, [4 x <1 x double>] %b.coerce) {
 ; CHECK-LABEL: test_vst4_lane_f64
-; CHECK: st4 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st4 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <1 x double>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <1 x double>] %b.coerce, 1
@@ -2191,4 +2220,81 @@ declare void @llvm.arm.neon.vst4lane.v4i16(i8*, <4 x i16>, <4 x i16>, <4 x i16>,
 declare void @llvm.arm.neon.vst4lane.v2i32(i8*, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, i32, i32)
 declare void @llvm.arm.neon.vst4lane.v1i64(i8*, <1 x i64>, <1 x i64>, <1 x i64>, <1 x i64>, i32, i32)
 declare void @llvm.arm.neon.vst4lane.v2f32(i8*, <2 x float>, <2 x float>, <2 x float>, <2 x float>, i32, i32)
-declare void @llvm.arm.neon.vst4lane.v1f64(i8*, <1 x double>, <1 x double>, <1 x double>, <1 x double>, i32, i32)
\ No newline at end of file
+declare void @llvm.arm.neon.vst4lane.v1f64(i8*, <1 x double>, <1 x double>, <1 x double>, <1 x double>, i32, i32)
+
+define %struct.int8x16x2_t @test_vld2q_lane_s8(i8* readonly %ptr, [2 x <16 x i8>] %src.coerce) {
+; CHECK-LABEL: test_vld2q_lane_s8
+; CHECK: ld2 { {{v[0-9]+}}.b, {{v[0-9]+}}.b }[15], [x0]
+entry:
+  %src.coerce.fca.0.extract = extractvalue [2 x <16 x i8>] %src.coerce, 0
+  %src.coerce.fca.1.extract = extractvalue [2 x <16 x i8>] %src.coerce, 1
+  %vld2_lane = tail call { <16 x i8>, <16 x i8> } @llvm.arm.neon.vld2lane.v16i8(i8* %ptr, <16 x i8> %src.coerce.fca.0.extract, <16 x i8> %src.coerce.fca.1.extract, i32 15, i32 1)
+  %vld2_lane.fca.0.extract = extractvalue { <16 x i8>, <16 x i8> } %vld2_lane, 0
+  %vld2_lane.fca.1.extract = extractvalue { <16 x i8>, <16 x i8> } %vld2_lane, 1
+  %.fca.0.0.insert = insertvalue %struct.int8x16x2_t undef, <16 x i8> %vld2_lane.fca.0.extract, 0, 0
+  %.fca.0.1.insert = insertvalue %struct.int8x16x2_t %.fca.0.0.insert, <16 x i8> %vld2_lane.fca.1.extract, 0, 1
+  ret %struct.int8x16x2_t %.fca.0.1.insert
+}
+
+define %struct.uint8x16x2_t @test_vld2q_lane_u8(i8* readonly %ptr, [2 x <16 x i8>] %src.coerce) {
+; CHECK-LABEL: test_vld2q_lane_u8
+; CHECK: ld2 { {{v[0-9]+}}.b, {{v[0-9]+}}.b }[15], [x0]
+entry:
+  %src.coerce.fca.0.extract = extractvalue [2 x <16 x i8>] %src.coerce, 0
+  %src.coerce.fca.1.extract = extractvalue [2 x <16 x i8>] %src.coerce, 1
+  %vld2_lane = tail call { <16 x i8>, <16 x i8> } @llvm.arm.neon.vld2lane.v16i8(i8* %ptr, <16 x i8> %src.coerce.fca.0.extract, <16 x i8> %src.coerce.fca.1.extract, i32 15, i32 1)
+  %vld2_lane.fca.0.extract = extractvalue { <16 x i8>, <16 x i8> } %vld2_lane, 0
+  %vld2_lane.fca.1.extract = extractvalue { <16 x i8>, <16 x i8> } %vld2_lane, 1
+  %.fca.0.0.insert = insertvalue %struct.uint8x16x2_t undef, <16 x i8> %vld2_lane.fca.0.extract, 0, 0
+  %.fca.0.1.insert = insertvalue %struct.uint8x16x2_t %.fca.0.0.insert, <16 x i8> %vld2_lane.fca.1.extract, 0, 1
+  ret %struct.uint8x16x2_t %.fca.0.1.insert
+}
+
+define %struct.poly8x16x2_t @test_vld2q_lane_p8(i8* readonly %ptr, [2 x <16 x i8>] %src.coerce) {
+; CHECK-LABEL: test_vld2q_lane_p8
+; CHECK: ld2 { {{v[0-9]+}}.b, {{v[0-9]+}}.b }[15], [x0]
+entry:
+  %src.coerce.fca.0.extract = extractvalue [2 x <16 x i8>] %src.coerce, 0
+  %src.coerce.fca.1.extract = extractvalue [2 x <16 x i8>] %src.coerce, 1
+  %vld2_lane = tail call { <16 x i8>, <16 x i8> } @llvm.arm.neon.vld2lane.v16i8(i8* %ptr, <16 x i8> %src.coerce.fca.0.extract, <16 x i8> %src.coerce.fca.1.extract, i32 15, i32 1)
+  %vld2_lane.fca.0.extract = extractvalue { <16 x i8>, <16 x i8> } %vld2_lane, 0
+  %vld2_lane.fca.1.extract = extractvalue { <16 x i8>, <16 x i8> } %vld2_lane, 1
+  %.fca.0.0.insert = insertvalue %struct.poly8x16x2_t undef, <16 x i8> %vld2_lane.fca.0.extract, 0, 0
+  %.fca.0.1.insert = insertvalue %struct.poly8x16x2_t %.fca.0.0.insert, <16 x i8> %vld2_lane.fca.1.extract, 0, 1
+  ret %struct.poly8x16x2_t %.fca.0.1.insert
+}
+
+define %struct.int8x16x3_t @test_vld3q_lane_s8(i8* readonly %ptr, [3 x <16 x i8>] %src.coerce) {
+; CHECK-LABEL: test_vld3q_lane_s8
+; CHECK: ld3 { {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b }[15], [x0]
+entry:
+  %src.coerce.fca.0.extract = extractvalue [3 x <16 x i8>] %src.coerce, 0
+  %src.coerce.fca.1.extract = extractvalue [3 x <16 x i8>] %src.coerce, 1
+  %src.coerce.fca.2.extract = extractvalue [3 x <16 x i8>] %src.coerce, 2
+  %vld3_lane = tail call { <16 x i8>, <16 x i8>, <16 x i8> } @llvm.arm.neon.vld3lane.v16i8(i8* %ptr, <16 x i8> %src.coerce.fca.0.extract, <16 x i8> %src.coerce.fca.1.extract, <16 x i8> %src.coerce.fca.2.extract, i32 15, i32 1)
+  %vld3_lane.fca.0.extract = extractvalue { <16 x i8>, <16 x i8>, <16 x i8> } %vld3_lane, 0
+  %vld3_lane.fca.1.extract = extractvalue { <16 x i8>, <16 x i8>, <16 x i8> } %vld3_lane, 1
+  %vld3_lane.fca.2.extract = extractvalue { <16 x i8>, <16 x i8>, <16 x i8> } %vld3_lane, 2
+  %.fca.0.0.insert = insertvalue %struct.int8x16x3_t undef, <16 x i8> %vld3_lane.fca.0.extract, 0, 0
+  %.fca.0.1.insert = insertvalue %struct.int8x16x3_t %.fca.0.0.insert, <16 x i8> %vld3_lane.fca.1.extract, 0, 1
+  %.fca.0.2.insert = insertvalue %struct.int8x16x3_t %.fca.0.1.insert, <16 x i8> %vld3_lane.fca.2.extract, 0, 2
+  ret %struct.int8x16x3_t %.fca.0.2.insert
+}
+
+define %struct.uint8x16x3_t @test_vld3q_lane_u8(i8* readonly %ptr, [3 x <16 x i8>] %src.coerce) {
+; CHECK-LABEL: test_vld3q_lane_u8
+; CHECK: ld3 { {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b }[15], [x0]
+entry:
+  %src.coerce.fca.0.extract = extractvalue [3 x <16 x i8>] %src.coerce, 0
+  %src.coerce.fca.1.extract = extractvalue [3 x <16 x i8>] %src.coerce, 1
+  %src.coerce.fca.2.extract = extractvalue [3 x <16 x i8>] %src.coerce, 2
+  %vld3_lane = tail call { <16 x i8>, <16 x i8>, <16 x i8> } @llvm.arm.neon.vld3lane.v16i8(i8* %ptr, <16 x i8> %src.coerce.fca.0.extract, <16 x i8> %src.coerce.fca.1.extract, <16 x i8> %src.coerce.fca.2.extract, i32 15, i32 1)
+  %vld3_lane.fca.0.extract = extractvalue { <16 x i8>, <16 x i8>, <16 x i8> } %vld3_lane, 0
+  %vld3_lane.fca.1.extract = extractvalue { <16 x i8>, <16 x i8>, <16 x i8> } %vld3_lane, 1
+  %vld3_lane.fca.2.extract = extractvalue { <16 x i8>, <16 x i8>, <16 x i8> } %vld3_lane, 2
+  %.fca.0.0.insert = insertvalue %struct.uint8x16x3_t undef, <16 x i8> %vld3_lane.fca.0.extract, 0, 0
+  %.fca.0.1.insert = insertvalue %struct.uint8x16x3_t %.fca.0.0.insert, <16 x i8> %vld3_lane.fca.1.extract, 0, 1
+  %.fca.0.2.insert = insertvalue %struct.uint8x16x3_t %.fca.0.1.insert, <16 x i8> %vld3_lane.fca.2.extract, 0, 2
+  ret %struct.uint8x16x3_t %.fca.0.2.insert
+}
+