ARM: use the proper target object format for WoA
[oota-llvm.git] / test / CodeGen / AArch64 / neon-simd-ldst-one.ll
index 3f28320f23d59d7f89b9887acb1181a3d7c8be4f..75c2a82ab57e93d24b97d5d782c153171794fcaa 100644 (file)
@@ -1,5 +1,9 @@
 ; RUN: llc < %s -verify-machineinstrs -mtriple=aarch64-none-linux-gnu -mattr=+neon | FileCheck %s
+; interesting parts copied into arm64 directory as aarch64-neon-simd-ldst-one.ll
 
+%struct.uint8x16x2_t = type { [2 x <16 x i8>] }
+%struct.poly8x16x2_t = type { [2 x <16 x i8>] }
+%struct.uint8x16x3_t = type { [3 x <16 x i8>] }
 %struct.int8x16x2_t = type { [2 x <16 x i8>] }
 %struct.int16x8x2_t = type { [2 x <8 x i16>] }
 %struct.int32x4x2_t = type { [2 x <4 x i32>] }
 %struct.float32x2x4_t = type { [4 x <2 x float>] }
 %struct.float64x1x4_t = type { [4 x <1 x double>] }
 
+define <16 x i8> @test_ld_from_poll_v16i8(<16 x i8> %a) {
+; CHECK-LABEL: test_ld_from_poll_v16i8
+; CHECK: adrp {{x[0-9]+}}, .{{[A-Z0-9_]+}}
+; CHECK-NEXT: ldr {{q[0-9]+}}, [{{x[0-9]+}}, #:lo12:.{{[A-Z0-9_]+}}]
+entry:
+  %b = add <16 x i8> %a, <i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 8, i8 9, i8 10, i8 11, i8 2, i8 13, i8 14, i8 15, i8 16>
+  ret <16 x i8> %b
+}
+
+define <8 x i16> @test_ld_from_poll_v8i16(<8 x i16> %a) {
+; CHECK-LABEL: test_ld_from_poll_v8i16
+; CHECK: adrp {{x[0-9]+}}, .{{[A-Z0-9_]+}}
+; CHECK-NEXT: ldr {{q[0-9]+}}, [{{x[0-9]+}}, #:lo12:.{{[A-Z0-9_]+}}]
+entry:
+  %b = add <8 x i16> %a, <i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7, i16 8>
+  ret <8 x i16> %b
+}
+
+define <4 x i32> @test_ld_from_poll_v4i32(<4 x i32> %a) {
+; CHECK-LABEL: test_ld_from_poll_v4i32
+; CHECK: adrp {{x[0-9]+}}, .{{[A-Z0-9_]+}}
+; CHECK-NEXT: ldr {{q[0-9]+}}, [{{x[0-9]+}}, #:lo12:.{{[A-Z0-9_]+}}]
+entry:
+  %b = add <4 x i32> %a, <i32 1, i32 2, i32 3, i32 4>
+  ret <4 x i32> %b
+}
+
+define <2 x i64> @test_ld_from_poll_v2i64(<2 x i64> %a) {
+; CHECK-LABEL: test_ld_from_poll_v2i64
+; CHECK: adrp {{x[0-9]+}}, .{{[A-Z0-9_]+}}
+; CHECK-NEXT: ldr {{q[0-9]+}}, [{{x[0-9]+}}, #:lo12:.{{[A-Z0-9_]+}}]
+entry:
+  %b = add <2 x i64> %a, <i64 1, i64 2>
+  ret <2 x i64> %b
+}
+
+define <4 x float> @test_ld_from_poll_v4f32(<4 x float> %a) {
+; CHECK-LABEL: test_ld_from_poll_v4f32
+; CHECK: adrp {{x[0-9]+}}, .{{[A-Z0-9_]+}}
+; CHECK-NEXT: ldr {{q[0-9]+}}, [{{x[0-9]+}}, #:lo12:.{{[A-Z0-9_]+}}]
+entry:
+  %b = fadd <4 x float> %a, <float 1.0, float 2.0, float 3.0, float 4.0>
+  ret <4 x float> %b
+}
+
+define <2 x double> @test_ld_from_poll_v2f64(<2 x double> %a) {
+; CHECK-LABEL: test_ld_from_poll_v2f64
+; CHECK: adrp {{x[0-9]+}}, .{{[A-Z0-9_]+}}
+; CHECK-NEXT: ldr {{q[0-9]+}}, [{{x[0-9]+}}, #:lo12:.{{[A-Z0-9_]+}}]
+entry:
+  %b = fadd <2 x double> %a, <double 1.0, double 2.0>
+  ret <2 x double> %b
+}
+
+define <8 x i8> @test_ld_from_poll_v8i8(<8 x i8> %a) {
+; CHECK-LABEL: test_ld_from_poll_v8i8
+; CHECK: adrp {{x[0-9]+}}, .{{[A-Z0-9_]+}}
+; CHECK-NEXT: ldr {{d[0-9]+}}, [{{x[0-9]+}}, #:lo12:.{{[A-Z0-9_]+}}]
+entry:
+  %b = add <8 x i8> %a, <i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 8>
+  ret <8 x i8> %b
+}
+
+define <4 x i16> @test_ld_from_poll_v4i16(<4 x i16> %a) {
+; CHECK-LABEL: test_ld_from_poll_v4i16
+; CHECK: adrp {{x[0-9]+}}, .{{[A-Z0-9_]+}}
+; CHECK-NEXT: ldr {{d[0-9]+}}, [{{x[0-9]+}}, #:lo12:.{{[A-Z0-9_]+}}]
+entry:
+  %b = add <4 x i16> %a, <i16 1, i16 2, i16 3, i16 4>
+  ret <4 x i16> %b
+}
+
+define <2 x i32> @test_ld_from_poll_v2i32(<2 x i32> %a) {
+; CHECK-LABEL: test_ld_from_poll_v2i32
+; CHECK: adrp {{x[0-9]+}}, .{{[A-Z0-9_]+}}
+; CHECK-NEXT: ldr {{d[0-9]+}}, [{{x[0-9]+}}, #:lo12:.{{[A-Z0-9_]+}}]
+entry:
+  %b = add <2 x i32> %a, <i32 1, i32 2>
+  ret <2 x i32> %b
+}
+
 define <16 x i8> @test_vld1q_dup_s8(i8* %a) {
 ; CHECK-LABEL: test_vld1q_dup_s8
-; CHECK: ld1r {{{v[0-9]+}}.16b}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.16b }, [x0]
 entry:
   %0 = load i8* %a, align 1
   %1 = insertelement <16 x i8> undef, i8 %0, i32 0
@@ -49,7 +134,7 @@ entry:
 
 define <8 x i16> @test_vld1q_dup_s16(i16* %a) {
 ; CHECK-LABEL: test_vld1q_dup_s16
-; CHECK: ld1r {{{v[0-9]+}}.8h}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.8h }, [x0]
 entry:
   %0 = load i16* %a, align 2
   %1 = insertelement <8 x i16> undef, i16 %0, i32 0
@@ -59,7 +144,7 @@ entry:
 
 define <4 x i32> @test_vld1q_dup_s32(i32* %a) {
 ; CHECK-LABEL: test_vld1q_dup_s32
-; CHECK: ld1r {{{v[0-9]+}}.4s}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.4s }, [x0]
 entry:
   %0 = load i32* %a, align 4
   %1 = insertelement <4 x i32> undef, i32 %0, i32 0
@@ -69,7 +154,7 @@ entry:
 
 define <2 x i64> @test_vld1q_dup_s64(i64* %a) {
 ; CHECK-LABEL: test_vld1q_dup_s64
-; CHECK: ld1r {{{v[0-9]+}}.2d}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.2d }, [x0]
 entry:
   %0 = load i64* %a, align 8
   %1 = insertelement <2 x i64> undef, i64 %0, i32 0
@@ -79,7 +164,7 @@ entry:
 
 define <4 x float> @test_vld1q_dup_f32(float* %a) {
 ; CHECK-LABEL: test_vld1q_dup_f32
-; CHECK: ld1r {{{v[0-9]+}}.4s}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.4s }, [x0]
 entry:
   %0 = load float* %a, align 4
   %1 = insertelement <4 x float> undef, float %0, i32 0
@@ -89,7 +174,7 @@ entry:
 
 define <2 x double> @test_vld1q_dup_f64(double* %a) {
 ; CHECK-LABEL: test_vld1q_dup_f64
-; CHECK: ld1r {{{v[0-9]+}}.2d}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.2d }, [x0]
 entry:
   %0 = load double* %a, align 8
   %1 = insertelement <2 x double> undef, double %0, i32 0
@@ -99,7 +184,7 @@ entry:
 
 define <8 x i8> @test_vld1_dup_s8(i8* %a) {
 ; CHECK-LABEL: test_vld1_dup_s8
-; CHECK: ld1r {{{v[0-9]+}}.8b}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.8b }, [x0]
 entry:
   %0 = load i8* %a, align 1
   %1 = insertelement <8 x i8> undef, i8 %0, i32 0
@@ -109,7 +194,7 @@ entry:
 
 define <4 x i16> @test_vld1_dup_s16(i16* %a) {
 ; CHECK-LABEL: test_vld1_dup_s16
-; CHECK: ld1r {{{v[0-9]+}}.4h}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.4h }, [x0]
 entry:
   %0 = load i16* %a, align 2
   %1 = insertelement <4 x i16> undef, i16 %0, i32 0
@@ -119,7 +204,7 @@ entry:
 
 define <2 x i32> @test_vld1_dup_s32(i32* %a) {
 ; CHECK-LABEL: test_vld1_dup_s32
-; CHECK: ld1r {{{v[0-9]+}}.2s}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.2s }, [x0]
 entry:
   %0 = load i32* %a, align 4
   %1 = insertelement <2 x i32> undef, i32 %0, i32 0
@@ -129,7 +214,7 @@ entry:
 
 define <1 x i64> @test_vld1_dup_s64(i64* %a) {
 ; CHECK-LABEL: test_vld1_dup_s64
-; CHECK: ld1r {{{v[0-9]+}}.1d}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.1d }, [x0]
 entry:
   %0 = load i64* %a, align 8
   %1 = insertelement <1 x i64> undef, i64 %0, i32 0
@@ -138,7 +223,7 @@ entry:
 
 define <2 x float> @test_vld1_dup_f32(float* %a) {
 ; CHECK-LABEL: test_vld1_dup_f32
-; CHECK: ld1r {{{v[0-9]+}}.2s}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.2s }, [x0]
 entry:
   %0 = load float* %a, align 4
   %1 = insertelement <2 x float> undef, float %0, i32 0
@@ -148,16 +233,41 @@ entry:
 
 define <1 x double> @test_vld1_dup_f64(double* %a) {
 ; CHECK-LABEL: test_vld1_dup_f64
-; CHECK: ld1r {{{v[0-9]+}}.1d}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.1d }, [x0]
 entry:
   %0 = load double* %a, align 8
   %1 = insertelement <1 x double> undef, double %0, i32 0
   ret <1 x double> %1
 }
 
+define <1 x i64> @testDUP.v1i64(i64* %a, i64* %b) #0 {
+; As there is a store operation depending on %1, LD1R pattern can't be selected.
+; So LDR and FMOV should be emitted.
+; CHECK-LABEL: testDUP.v1i64
+; CHECK: ldr {{x[0-9]+}}, [{{x[0-9]+}}]
+; CHECK: fmov {{d[0-9]+}}, {{x[0-9]+}}
+; CHECK: str {{x[0-9]+}}, [{{x[0-9]+}}]
+  %1 = load i64* %a, align 8
+  store i64 %1, i64* %b, align 8
+  %vecinit.i = insertelement <1 x i64> undef, i64 %1, i32 0
+  ret <1 x i64> %vecinit.i
+}
+
+define <1 x double> @testDUP.v1f64(double* %a, double* %b) #0 {
+; As there is a store operation depending on %1, LD1R pattern can't be selected.
+; So LDR and FMOV should be emitted.
+; CHECK-LABEL: testDUP.v1f64
+; CHECK: ldr {{d[0-9]+}}, [{{x[0-9]+}}]
+; CHECK: str {{d[0-9]+}}, [{{x[0-9]+}}]
+  %1 = load double* %a, align 8
+  store double %1, double* %b, align 8
+  %vecinit.i = insertelement <1 x double> undef, double %1, i32 0
+  ret <1 x double> %vecinit.i
+}
+
 define %struct.int8x16x2_t @test_vld2q_dup_s8(i8* %a) {
 ; CHECK-LABEL: test_vld2q_dup_s8
-; CHECK: ld2r {{{v[0-9]+}}.16b, {{v[0-9]+}}.16b}, [x0]
+; CHECK: ld2r { {{v[0-9]+}}.16b, {{v[0-9]+}}.16b }, [x0]
 entry:
   %vld_dup = tail call { <16 x i8>, <16 x i8> } @llvm.arm.neon.vld2lane.v16i8(i8* %a, <16 x i8> undef, <16 x i8> undef, i32 0, i32 1)
   %0 = extractvalue { <16 x i8>, <16 x i8> } %vld_dup, 0
@@ -171,7 +281,7 @@ entry:
 
 define %struct.int16x8x2_t @test_vld2q_dup_s16(i16* %a) {
 ; CHECK-LABEL: test_vld2q_dup_s16
-; CHECK: ld2r {{{v[0-9]+}}.8h, {{v[0-9]+}}.8h}, [x0]
+; CHECK: ld2r { {{v[0-9]+}}.8h, {{v[0-9]+}}.8h }, [x0]
 entry:
   %0 = bitcast i16* %a to i8*
   %vld_dup = tail call { <8 x i16>, <8 x i16> } @llvm.arm.neon.vld2lane.v8i16(i8* %0, <8 x i16> undef, <8 x i16> undef, i32 0, i32 2)
@@ -186,7 +296,7 @@ entry:
 
 define %struct.int32x4x2_t @test_vld2q_dup_s32(i32* %a) {
 ; CHECK-LABEL: test_vld2q_dup_s32
-; CHECK: ld2r {{{v[0-9]+}}.4s, {{v[0-9]+}}.4s}, [x0]
+; CHECK: ld2r { {{v[0-9]+}}.4s, {{v[0-9]+}}.4s }, [x0]
 entry:
   %0 = bitcast i32* %a to i8*
   %vld_dup = tail call { <4 x i32>, <4 x i32> } @llvm.arm.neon.vld2lane.v4i32(i8* %0, <4 x i32> undef, <4 x i32> undef, i32 0, i32 4)
@@ -201,7 +311,7 @@ entry:
 
 define %struct.int64x2x2_t @test_vld2q_dup_s64(i64* %a) {
 ; CHECK-LABEL: test_vld2q_dup_s64
-; CHECK: ld2r {{{v[0-9]+}}.2d, {{v[0-9]+}}.2d}, [x0]
+; CHECK: ld2r { {{v[0-9]+}}.2d, {{v[0-9]+}}.2d }, [x0]
 entry:
   %0 = bitcast i64* %a to i8*
   %vld_dup = tail call { <2 x i64>, <2 x i64> } @llvm.arm.neon.vld2lane.v2i64(i8* %0, <2 x i64> undef, <2 x i64> undef, i32 0, i32 8)
@@ -216,7 +326,7 @@ entry:
 
 define %struct.float32x4x2_t @test_vld2q_dup_f32(float* %a) {
 ; CHECK-LABEL: test_vld2q_dup_f32
-; CHECK: ld2r {{{v[0-9]+}}.4s, {{v[0-9]+}}.4s}, [x0]
+; CHECK: ld2r { {{v[0-9]+}}.4s, {{v[0-9]+}}.4s }, [x0]
 entry:
   %0 = bitcast float* %a to i8*
   %vld_dup = tail call { <4 x float>, <4 x float> } @llvm.arm.neon.vld2lane.v4f32(i8* %0, <4 x float> undef, <4 x float> undef, i32 0, i32 4)
@@ -231,7 +341,7 @@ entry:
 
 define %struct.float64x2x2_t @test_vld2q_dup_f64(double* %a) {
 ; CHECK-LABEL: test_vld2q_dup_f64
-; CHECK: ld2r {{{v[0-9]+}}.2d, {{v[0-9]+}}.2d}, [x0]
+; CHECK: ld2r { {{v[0-9]+}}.2d, {{v[0-9]+}}.2d }, [x0]
 entry:
   %0 = bitcast double* %a to i8*
   %vld_dup = tail call { <2 x double>, <2 x double> } @llvm.arm.neon.vld2lane.v2f64(i8* %0, <2 x double> undef, <2 x double> undef, i32 0, i32 8)
@@ -246,7 +356,7 @@ entry:
 
 define %struct.int8x8x2_t @test_vld2_dup_s8(i8* %a) {
 ; CHECK-LABEL: test_vld2_dup_s8
-; CHECK: ld2r {{{v[0-9]+}}.8b, {{v[0-9]+}}.8b}, [x0]
+; CHECK: ld2r { {{v[0-9]+}}.8b, {{v[0-9]+}}.8b }, [x0]
 entry:
   %vld_dup = tail call { <8 x i8>, <8 x i8> } @llvm.arm.neon.vld2lane.v8i8(i8* %a, <8 x i8> undef, <8 x i8> undef, i32 0, i32 1)
   %0 = extractvalue { <8 x i8>, <8 x i8> } %vld_dup, 0
@@ -260,7 +370,7 @@ entry:
 
 define %struct.int16x4x2_t @test_vld2_dup_s16(i16* %a) {
 ; CHECK-LABEL: test_vld2_dup_s16
-; CHECK: ld2r {{{v[0-9]+}}.4h, {{v[0-9]+}}.4h}, [x0]
+; CHECK: ld2r { {{v[0-9]+}}.4h, {{v[0-9]+}}.4h }, [x0]
 entry:
   %0 = bitcast i16* %a to i8*
   %vld_dup = tail call { <4 x i16>, <4 x i16> } @llvm.arm.neon.vld2lane.v4i16(i8* %0, <4 x i16> undef, <4 x i16> undef, i32 0, i32 2)
@@ -275,7 +385,7 @@ entry:
 
 define %struct.int32x2x2_t @test_vld2_dup_s32(i32* %a) {
 ; CHECK-LABEL: test_vld2_dup_s32
-; CHECK: ld2r {{{v[0-9]+}}.2s, {{v[0-9]+}}.2s}, [x0]
+; CHECK: ld2r { {{v[0-9]+}}.2s, {{v[0-9]+}}.2s }, [x0]
 entry:
   %0 = bitcast i32* %a to i8*
   %vld_dup = tail call { <2 x i32>, <2 x i32> } @llvm.arm.neon.vld2lane.v2i32(i8* %0, <2 x i32> undef, <2 x i32> undef, i32 0, i32 4)
@@ -290,7 +400,7 @@ entry:
 
 define %struct.int64x1x2_t @test_vld2_dup_s64(i64* %a) {
 ; CHECK-LABEL: test_vld2_dup_s64
-; CHECK: ld1 {{{v[0-9]+}}.1d, {{v[0-9]+}}.1d}, [x0]
+; CHECK: ld1 { {{v[0-9]+}}.1d, {{v[0-9]+}}.1d }, [x0]
 entry:
   %0 = bitcast i64* %a to i8*
   %vld_dup = tail call { <1 x i64>, <1 x i64> } @llvm.arm.neon.vld2.v1i64(i8* %0, i32 8)
@@ -303,7 +413,7 @@ entry:
 
 define %struct.float32x2x2_t @test_vld2_dup_f32(float* %a) {
 ; CHECK-LABEL: test_vld2_dup_f32
-; CHECK: ld2r {{{v[0-9]+}}.2s, {{v[0-9]+}}.2s}, [x0]
+; CHECK: ld2r { {{v[0-9]+}}.2s, {{v[0-9]+}}.2s }, [x0]
 entry:
   %0 = bitcast float* %a to i8*
   %vld_dup = tail call { <2 x float>, <2 x float> } @llvm.arm.neon.vld2lane.v2f32(i8* %0, <2 x float> undef, <2 x float> undef, i32 0, i32 4)
@@ -318,7 +428,7 @@ entry:
 
 define %struct.float64x1x2_t @test_vld2_dup_f64(double* %a) {
 ; CHECK-LABEL: test_vld2_dup_f64
-; CHECK: ld1 {{{v[0-9]+}}.1d, {{v[0-9]+}}.1d}, [x0]
+; CHECK: ld1 { {{v[0-9]+}}.1d, {{v[0-9]+}}.1d }, [x0]
 entry:
   %0 = bitcast double* %a to i8*
   %vld_dup = tail call { <1 x double>, <1 x double> } @llvm.arm.neon.vld2.v1f64(i8* %0, i32 8)
@@ -331,7 +441,7 @@ entry:
 
 define %struct.int8x16x3_t @test_vld3q_dup_s8(i8* %a) {
 ; CHECK-LABEL: test_vld3q_dup_s8
-; CHECK: ld3r {{{v[0-9]+}}.16b, {{v[0-9]+}}.16b, {{v[0-9]+}}.16b}, [x0]
+; CHECK: ld3r { {{v[0-9]+}}.16b, {{v[0-9]+}}.16b, {{v[0-9]+}}.16b }, [x0]
 entry:
   %vld_dup = tail call { <16 x i8>, <16 x i8>, <16 x i8> } @llvm.arm.neon.vld3lane.v16i8(i8* %a, <16 x i8> undef, <16 x i8> undef, <16 x i8> undef, i32 0, i32 1)
   %0 = extractvalue { <16 x i8>, <16 x i8>, <16 x i8> } %vld_dup, 0
@@ -348,7 +458,7 @@ entry:
 
 define %struct.int16x8x3_t @test_vld3q_dup_s16(i16* %a) {
 ; CHECK-LABEL: test_vld3q_dup_s16
-; CHECK: ld3r {{{v[0-9]+}}.8h, {{v[0-9]+}}.8h, {{v[0-9]+}}.8h}, [x0]
+; CHECK: ld3r { {{v[0-9]+}}.8h, {{v[0-9]+}}.8h, {{v[0-9]+}}.8h }, [x0]
 entry:
   %0 = bitcast i16* %a to i8*
   %vld_dup = tail call { <8 x i16>, <8 x i16>, <8 x i16> } @llvm.arm.neon.vld3lane.v8i16(i8* %0, <8 x i16> undef, <8 x i16> undef, <8 x i16> undef, i32 0, i32 2)
@@ -366,7 +476,7 @@ entry:
 
 define %struct.int32x4x3_t @test_vld3q_dup_s32(i32* %a) {
 ; CHECK-LABEL: test_vld3q_dup_s32
-; CHECK: ld3r {{{v[0-9]+}}.4s, {{v[0-9]+}}.4s, {{v[0-9]+}}.4s}, [x0]
+; CHECK: ld3r { {{v[0-9]+}}.4s, {{v[0-9]+}}.4s, {{v[0-9]+}}.4s }, [x0]
 entry:
   %0 = bitcast i32* %a to i8*
   %vld_dup = tail call { <4 x i32>, <4 x i32>, <4 x i32> } @llvm.arm.neon.vld3lane.v4i32(i8* %0, <4 x i32> undef, <4 x i32> undef, <4 x i32> undef, i32 0, i32 4)
@@ -384,7 +494,7 @@ entry:
 
 define %struct.int64x2x3_t @test_vld3q_dup_s64(i64* %a) {
 ; CHECK-LABEL: test_vld3q_dup_s64
-; CHECK: ld3r {{{v[0-9]+}}.2d, {{v[0-9]+}}.2d, {{v[0-9]+}}.2d}, [x0]
+; CHECK: ld3r { {{v[0-9]+}}.2d, {{v[0-9]+}}.2d, {{v[0-9]+}}.2d }, [x0]
 entry:
   %0 = bitcast i64* %a to i8*
   %vld_dup = tail call { <2 x i64>, <2 x i64>, <2 x i64> } @llvm.arm.neon.vld3lane.v2i64(i8* %0, <2 x i64> undef, <2 x i64> undef, <2 x i64> undef, i32 0, i32 8)
@@ -402,7 +512,7 @@ entry:
 
 define %struct.float32x4x3_t @test_vld3q_dup_f32(float* %a) {
 ; CHECK-LABEL: test_vld3q_dup_f32
-; CHECK: ld3r {{{v[0-9]+}}.4s, {{v[0-9]+}}.4s, {{v[0-9]+}}.4s}, [x0]
+; CHECK: ld3r { {{v[0-9]+}}.4s, {{v[0-9]+}}.4s, {{v[0-9]+}}.4s }, [x0]
 entry:
   %0 = bitcast float* %a to i8*
   %vld_dup = tail call { <4 x float>, <4 x float>, <4 x float> } @llvm.arm.neon.vld3lane.v4f32(i8* %0, <4 x float> undef, <4 x float> undef, <4 x float> undef, i32 0, i32 4)
@@ -420,7 +530,7 @@ entry:
 
 define %struct.float64x2x3_t @test_vld3q_dup_f64(double* %a) {
 ; CHECK-LABEL: test_vld3q_dup_f64
-; CHECK: ld3r {{{v[0-9]+}}.2d, {{v[0-9]+}}.2d, {{v[0-9]+}}.2d}, [x0]
+; CHECK: ld3r { {{v[0-9]+}}.2d, {{v[0-9]+}}.2d, {{v[0-9]+}}.2d }, [x0]
 entry:
   %0 = bitcast double* %a to i8*
   %vld_dup = tail call { <2 x double>, <2 x double>, <2 x double> } @llvm.arm.neon.vld3lane.v2f64(i8* %0, <2 x double> undef, <2 x double> undef, <2 x double> undef, i32 0, i32 8)
@@ -438,7 +548,7 @@ entry:
 
 define %struct.int8x8x3_t @test_vld3_dup_s8(i8* %a) {
 ; CHECK-LABEL: test_vld3_dup_s8
-; CHECK: ld3r {{{v[0-9]+}}.8b, {{v[0-9]+}}.8b, {{v[0-9]+}}.8b}, [x0]
+; CHECK: ld3r { {{v[0-9]+}}.8b, {{v[0-9]+}}.8b, {{v[0-9]+}}.8b }, [x0]
 entry:
   %vld_dup = tail call { <8 x i8>, <8 x i8>, <8 x i8> } @llvm.arm.neon.vld3lane.v8i8(i8* %a, <8 x i8> undef, <8 x i8> undef, <8 x i8> undef, i32 0, i32 1)
   %0 = extractvalue { <8 x i8>, <8 x i8>, <8 x i8> } %vld_dup, 0
@@ -455,7 +565,7 @@ entry:
 
 define %struct.int16x4x3_t @test_vld3_dup_s16(i16* %a) {
 ; CHECK-LABEL: test_vld3_dup_s16
-; CHECK: ld3r {{{v[0-9]+}}.4h, {{v[0-9]+}}.4h, {{v[0-9]+}}.4h}, [x0]
+; CHECK: ld3r { {{v[0-9]+}}.4h, {{v[0-9]+}}.4h, {{v[0-9]+}}.4h }, [x0]
 entry:
   %0 = bitcast i16* %a to i8*
   %vld_dup = tail call { <4 x i16>, <4 x i16>, <4 x i16> } @llvm.arm.neon.vld3lane.v4i16(i8* %0, <4 x i16> undef, <4 x i16> undef, <4 x i16> undef, i32 0, i32 2)
@@ -473,7 +583,7 @@ entry:
 
 define %struct.int32x2x3_t @test_vld3_dup_s32(i32* %a) {
 ; CHECK-LABEL: test_vld3_dup_s32
-; CHECK: ld3r {{{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s}, [x0]
+; CHECK: ld3r { {{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s }, [x0]
 entry:
   %0 = bitcast i32* %a to i8*
   %vld_dup = tail call { <2 x i32>, <2 x i32>, <2 x i32> } @llvm.arm.neon.vld3lane.v2i32(i8* %0, <2 x i32> undef, <2 x i32> undef, <2 x i32> undef, i32 0, i32 4)
@@ -491,7 +601,7 @@ entry:
 
 define %struct.int64x1x3_t @test_vld3_dup_s64(i64* %a) {
 ; CHECK-LABEL: test_vld3_dup_s64
-; CHECK: ld1 {{{v[0-9]+}}.1d, {{v[0-9]+}}.1d, {{v[0-9]+}}.1d}, [x0]
+; CHECK: ld1 { {{v[0-9]+}}.1d, {{v[0-9]+}}.1d, {{v[0-9]+}}.1d }, [x0]
 entry:
   %0 = bitcast i64* %a to i8*
   %vld_dup = tail call { <1 x i64>, <1 x i64>, <1 x i64> } @llvm.arm.neon.vld3.v1i64(i8* %0, i32 8)
@@ -506,7 +616,7 @@ entry:
 
 define %struct.float32x2x3_t @test_vld3_dup_f32(float* %a) {
 ; CHECK-LABEL: test_vld3_dup_f32
-; CHECK: ld3r {{{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s}, [x0]
+; CHECK: ld3r { {{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s }, [x0]
 entry:
   %0 = bitcast float* %a to i8*
   %vld_dup = tail call { <2 x float>, <2 x float>, <2 x float> } @llvm.arm.neon.vld3lane.v2f32(i8* %0, <2 x float> undef, <2 x float> undef, <2 x float> undef, i32 0, i32 4)
@@ -524,7 +634,7 @@ entry:
 
 define %struct.float64x1x3_t @test_vld3_dup_f64(double* %a) {
 ; CHECK-LABEL: test_vld3_dup_f64
-; CHECK: ld1 {{{v[0-9]+}}.1d, {{v[0-9]+}}.1d, {{v[0-9]+}}.1d}, [x0]
+; CHECK: ld1 { {{v[0-9]+}}.1d, {{v[0-9]+}}.1d, {{v[0-9]+}}.1d }, [x0]
 entry:
   %0 = bitcast double* %a to i8*
   %vld_dup = tail call { <1 x double>, <1 x double>, <1 x double> } @llvm.arm.neon.vld3.v1f64(i8* %0, i32 8)
@@ -539,7 +649,7 @@ entry:
 
 define %struct.int8x16x4_t @test_vld4q_dup_s8(i8* %a) {
 ; CHECK-LABEL: test_vld4q_dup_s8
-; CHECK: ld4r {{{v[0-9]+}}.16b, {{v[0-9]+}}.16b, {{v[0-9]+}}.16b, {{v[0-9]+}}.16b}, [x0]
+; CHECK: ld4r { {{v[0-9]+}}.16b, {{v[0-9]+}}.16b, {{v[0-9]+}}.16b, {{v[0-9]+}}.16b }, [x0]
 entry:
   %vld_dup = tail call { <16 x i8>, <16 x i8>, <16 x i8>, <16 x i8> } @llvm.arm.neon.vld4lane.v16i8(i8* %a, <16 x i8> undef, <16 x i8> undef, <16 x i8> undef, <16 x i8> undef, i32 0, i32 1)
   %0 = extractvalue { <16 x i8>, <16 x i8>, <16 x i8>, <16 x i8> } %vld_dup, 0
@@ -559,7 +669,7 @@ entry:
 
 define %struct.int16x8x4_t @test_vld4q_dup_s16(i16* %a) {
 ; CHECK-LABEL: test_vld4q_dup_s16
-; CHECK: ld4r {{{v[0-9]+}}.8h, {{v[0-9]+}}.8h, {{v[0-9]+}}.8h, {{v[0-9]+}}.8h}, [x0]
+; CHECK: ld4r { {{v[0-9]+}}.8h, {{v[0-9]+}}.8h, {{v[0-9]+}}.8h, {{v[0-9]+}}.8h }, [x0]
 entry:
   %0 = bitcast i16* %a to i8*
   %vld_dup = tail call { <8 x i16>, <8 x i16>, <8 x i16>, <8 x i16> } @llvm.arm.neon.vld4lane.v8i16(i8* %0, <8 x i16> undef, <8 x i16> undef, <8 x i16> undef, <8 x i16> undef, i32 0, i32 2)
@@ -580,7 +690,7 @@ entry:
 
 define %struct.int32x4x4_t @test_vld4q_dup_s32(i32* %a) {
 ; CHECK-LABEL: test_vld4q_dup_s32
-; CHECK: ld4r {{{v[0-9]+}}.4s, {{v[0-9]+}}.4s, {{v[0-9]+}}.4s, {{v[0-9]+}}.4s}, [x0]
+; CHECK: ld4r { {{v[0-9]+}}.4s, {{v[0-9]+}}.4s, {{v[0-9]+}}.4s, {{v[0-9]+}}.4s }, [x0]
 entry:
   %0 = bitcast i32* %a to i8*
   %vld_dup = tail call { <4 x i32>, <4 x i32>, <4 x i32>, <4 x i32> } @llvm.arm.neon.vld4lane.v4i32(i8* %0, <4 x i32> undef, <4 x i32> undef, <4 x i32> undef, <4 x i32> undef, i32 0, i32 4)
@@ -601,7 +711,7 @@ entry:
 
 define %struct.int64x2x4_t @test_vld4q_dup_s64(i64* %a) {
 ; CHECK-LABEL: test_vld4q_dup_s64
-; CHECK: ld4r {{{v[0-9]+}}.2d, {{v[0-9]+}}.2d, {{v[0-9]+}}.2d, {{v[0-9]+}}.2d}, [x0]
+; CHECK: ld4r { {{v[0-9]+}}.2d, {{v[0-9]+}}.2d, {{v[0-9]+}}.2d, {{v[0-9]+}}.2d }, [x0]
 entry:
   %0 = bitcast i64* %a to i8*
   %vld_dup = tail call { <2 x i64>, <2 x i64>, <2 x i64>, <2 x i64> } @llvm.arm.neon.vld4lane.v2i64(i8* %0, <2 x i64> undef, <2 x i64> undef, <2 x i64> undef, <2 x i64> undef, i32 0, i32 8)
@@ -622,7 +732,7 @@ entry:
 
 define %struct.float32x4x4_t @test_vld4q_dup_f32(float* %a) {
 ; CHECK-LABEL: test_vld4q_dup_f32
-; CHECK: ld4r {{{v[0-9]+}}.4s, {{v[0-9]+}}.4s, {{v[0-9]+}}.4s, {{v[0-9]+}}.4s}, [x0]
+; CHECK: ld4r { {{v[0-9]+}}.4s, {{v[0-9]+}}.4s, {{v[0-9]+}}.4s, {{v[0-9]+}}.4s }, [x0]
 entry:
   %0 = bitcast float* %a to i8*
   %vld_dup = tail call { <4 x float>, <4 x float>, <4 x float>, <4 x float> } @llvm.arm.neon.vld4lane.v4f32(i8* %0, <4 x float> undef, <4 x float> undef, <4 x float> undef, <4 x float> undef, i32 0, i32 4)
@@ -643,7 +753,7 @@ entry:
 
 define %struct.float64x2x4_t @test_vld4q_dup_f64(double* %a) {
 ; CHECK-LABEL: test_vld4q_dup_f64
-; CHECK: ld4r {{{v[0-9]+}}.2d, {{v[0-9]+}}.2d, {{v[0-9]+}}.2d, {{v[0-9]+}}.2d}, [x0]
+; CHECK: ld4r { {{v[0-9]+}}.2d, {{v[0-9]+}}.2d, {{v[0-9]+}}.2d, {{v[0-9]+}}.2d }, [x0]
 entry:
   %0 = bitcast double* %a to i8*
   %vld_dup = tail call { <2 x double>, <2 x double>, <2 x double>, <2 x double> } @llvm.arm.neon.vld4lane.v2f64(i8* %0, <2 x double> undef, <2 x double> undef, <2 x double> undef, <2 x double> undef, i32 0, i32 8)
@@ -664,7 +774,7 @@ entry:
 
 define %struct.int8x8x4_t @test_vld4_dup_s8(i8* %a) {
 ; CHECK-LABEL: test_vld4_dup_s8
-; CHECK: ld4r {{{v[0-9]+}}.8b, {{v[0-9]+}}.8b, {{v[0-9]+}}.8b, {{v[0-9]+}}.8b}, [x0]
+; CHECK: ld4r { {{v[0-9]+}}.8b, {{v[0-9]+}}.8b, {{v[0-9]+}}.8b, {{v[0-9]+}}.8b }, [x0]
 entry:
   %vld_dup = tail call { <8 x i8>, <8 x i8>, <8 x i8>, <8 x i8> } @llvm.arm.neon.vld4lane.v8i8(i8* %a, <8 x i8> undef, <8 x i8> undef, <8 x i8> undef, <8 x i8> undef, i32 0, i32 1)
   %0 = extractvalue { <8 x i8>, <8 x i8>, <8 x i8>, <8 x i8> } %vld_dup, 0
@@ -684,7 +794,7 @@ entry:
 
 define %struct.int16x4x4_t @test_vld4_dup_s16(i16* %a) {
 ; CHECK-LABEL: test_vld4_dup_s16
-; CHECK: ld4r {{{v[0-9]+}}.4h, {{v[0-9]+}}.4h, {{v[0-9]+}}.4h, {{v[0-9]+}}.4h}, [x0]
+; CHECK: ld4r { {{v[0-9]+}}.4h, {{v[0-9]+}}.4h, {{v[0-9]+}}.4h, {{v[0-9]+}}.4h }, [x0]
 entry:
   %0 = bitcast i16* %a to i8*
   %vld_dup = tail call { <4 x i16>, <4 x i16>, <4 x i16>, <4 x i16> } @llvm.arm.neon.vld4lane.v4i16(i8* %0, <4 x i16> undef, <4 x i16> undef, <4 x i16> undef, <4 x i16> undef, i32 0, i32 2)
@@ -705,7 +815,7 @@ entry:
 
 define %struct.int32x2x4_t @test_vld4_dup_s32(i32* %a) {
 ; CHECK-LABEL: test_vld4_dup_s32
-; CHECK: ld4r {{{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s}, [x0]
+; CHECK: ld4r { {{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s }, [x0]
 entry:
   %0 = bitcast i32* %a to i8*
   %vld_dup = tail call { <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32> } @llvm.arm.neon.vld4lane.v2i32(i8* %0, <2 x i32> undef, <2 x i32> undef, <2 x i32> undef, <2 x i32> undef, i32 0, i32 4)
@@ -726,7 +836,7 @@ entry:
 
 define %struct.int64x1x4_t @test_vld4_dup_s64(i64* %a) {
 ; CHECK-LABEL: test_vld4_dup_s64
-; CHECK: ld1 {{{v[0-9]+}}.1d, {{v[0-9]+}}.1d, {{v[0-9]+}}.1d, {{v[0-9]+}}.1d}, [x0]
+; CHECK: ld1 { {{v[0-9]+}}.1d, {{v[0-9]+}}.1d, {{v[0-9]+}}.1d, {{v[0-9]+}}.1d }, [x0]
 entry:
   %0 = bitcast i64* %a to i8*
   %vld_dup = tail call { <1 x i64>, <1 x i64>, <1 x i64>, <1 x i64> } @llvm.arm.neon.vld4.v1i64(i8* %0, i32 8)
@@ -743,7 +853,7 @@ entry:
 
 define %struct.float32x2x4_t @test_vld4_dup_f32(float* %a) {
 ; CHECK-LABEL: test_vld4_dup_f32
-; CHECK: ld4r {{{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s}, [x0]
+; CHECK: ld4r { {{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s, {{v[0-9]+}}.2s }, [x0]
 entry:
   %0 = bitcast float* %a to i8*
   %vld_dup = tail call { <2 x float>, <2 x float>, <2 x float>, <2 x float> } @llvm.arm.neon.vld4lane.v2f32(i8* %0, <2 x float> undef, <2 x float> undef, <2 x float> undef, <2 x float> undef, i32 0, i32 4)
@@ -764,7 +874,7 @@ entry:
 
 define %struct.float64x1x4_t @test_vld4_dup_f64(double* %a) {
 ; CHECK-LABEL: test_vld4_dup_f64
-; CHECK: ld1 {{{v[0-9]+}}.1d, {{v[0-9]+}}.1d, {{v[0-9]+}}.1d, {{v[0-9]+}}.1d}, [x0]
+; CHECK: ld1 { {{v[0-9]+}}.1d, {{v[0-9]+}}.1d, {{v[0-9]+}}.1d, {{v[0-9]+}}.1d }, [x0]
 entry:
   %0 = bitcast double* %a to i8*
   %vld_dup = tail call { <1 x double>, <1 x double>, <1 x double>, <1 x double> } @llvm.arm.neon.vld4.v1f64(i8* %0, i32 8)
@@ -781,7 +891,7 @@ entry:
 
 define <16 x i8> @test_vld1q_lane_s8(i8* %a, <16 x i8> %b) {
 ; CHECK-LABEL: test_vld1q_lane_s8
-; CHECK: ld1 {{{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: ld1 { {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %0 = load i8* %a, align 1
   %vld1_lane = insertelement <16 x i8> %b, i8 %0, i32 15
@@ -790,7 +900,7 @@ entry:
 
 define <8 x i16> @test_vld1q_lane_s16(i16* %a, <8 x i16> %b) {
 ; CHECK-LABEL: test_vld1q_lane_s16
-; CHECK: ld1 {{{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: ld1 { {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %0 = load i16* %a, align 2
   %vld1_lane = insertelement <8 x i16> %b, i16 %0, i32 7
@@ -799,7 +909,7 @@ entry:
 
 define <4 x i32> @test_vld1q_lane_s32(i32* %a, <4 x i32> %b) {
 ; CHECK-LABEL: test_vld1q_lane_s32
-; CHECK: ld1 {{{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld1 { {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %0 = load i32* %a, align 4
   %vld1_lane = insertelement <4 x i32> %b, i32 %0, i32 3
@@ -808,7 +918,7 @@ entry:
 
 define <2 x i64> @test_vld1q_lane_s64(i64* %a, <2 x i64> %b) {
 ; CHECK-LABEL: test_vld1q_lane_s64
-; CHECK: ld1 {{{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld1 { {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %0 = load i64* %a, align 8
   %vld1_lane = insertelement <2 x i64> %b, i64 %0, i32 1
@@ -817,7 +927,7 @@ entry:
 
 define <4 x float> @test_vld1q_lane_f32(float* %a, <4 x float> %b) {
 ; CHECK-LABEL: test_vld1q_lane_f32
-; CHECK: ld1 {{{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld1 { {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %0 = load float* %a, align 4
   %vld1_lane = insertelement <4 x float> %b, float %0, i32 3
@@ -826,7 +936,7 @@ entry:
 
 define <2 x double> @test_vld1q_lane_f64(double* %a, <2 x double> %b) {
 ; CHECK-LABEL: test_vld1q_lane_f64
-; CHECK: ld1 {{{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld1 { {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %0 = load double* %a, align 8
   %vld1_lane = insertelement <2 x double> %b, double %0, i32 1
@@ -835,7 +945,7 @@ entry:
 
 define <8 x i8> @test_vld1_lane_s8(i8* %a, <8 x i8> %b) {
 ; CHECK-LABEL: test_vld1_lane_s8
-; CHECK: ld1 {{{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: ld1 { {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %0 = load i8* %a, align 1
   %vld1_lane = insertelement <8 x i8> %b, i8 %0, i32 7
@@ -844,7 +954,7 @@ entry:
 
 define <4 x i16> @test_vld1_lane_s16(i16* %a, <4 x i16> %b) {
 ; CHECK-LABEL: test_vld1_lane_s16
-; CHECK: ld1 {{{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: ld1 { {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %0 = load i16* %a, align 2
   %vld1_lane = insertelement <4 x i16> %b, i16 %0, i32 3
@@ -853,7 +963,7 @@ entry:
 
 define <2 x i32> @test_vld1_lane_s32(i32* %a, <2 x i32> %b) {
 ; CHECK-LABEL: test_vld1_lane_s32
-; CHECK: ld1 {{{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld1 { {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %0 = load i32* %a, align 4
   %vld1_lane = insertelement <2 x i32> %b, i32 %0, i32 1
@@ -862,7 +972,7 @@ entry:
 
 define <1 x i64> @test_vld1_lane_s64(i64* %a, <1 x i64> %b) {
 ; CHECK-LABEL: test_vld1_lane_s64
-; CHECK: ld1r {{{v[0-9]+}}.1d}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.1d }, [x0]
 entry:
   %0 = load i64* %a, align 8
   %vld1_lane = insertelement <1 x i64> undef, i64 %0, i32 0
@@ -871,7 +981,7 @@ entry:
 
 define <2 x float> @test_vld1_lane_f32(float* %a, <2 x float> %b) {
 ; CHECK-LABEL: test_vld1_lane_f32
-; CHECK: ld1 {{{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld1 { {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %0 = load float* %a, align 4
   %vld1_lane = insertelement <2 x float> %b, float %0, i32 1
@@ -880,7 +990,7 @@ entry:
 
 define <1 x double> @test_vld1_lane_f64(double* %a, <1 x double> %b) {
 ; CHECK-LABEL: test_vld1_lane_f64
-; CHECK: ld1r {{{v[0-9]+}}.1d}, [x0]
+; CHECK: ld1r { {{v[0-9]+}}.1d }, [x0]
 entry:
   %0 = load double* %a, align 8
   %vld1_lane = insertelement <1 x double> undef, double %0, i32 0
@@ -889,7 +999,7 @@ entry:
 
 define %struct.int16x8x2_t @test_vld2q_lane_s16(i16* %a, [2 x <8 x i16>] %b.coerce) {
 ; CHECK-LABEL: test_vld2q_lane_s16
-; CHECK: ld2 {{{v[0-9]+}}.h, {{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: ld2 { {{v[0-9]+}}.h, {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <8 x i16>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <8 x i16>] %b.coerce, 1
@@ -904,7 +1014,7 @@ entry:
 
 define %struct.int32x4x2_t @test_vld2q_lane_s32(i32* %a, [2 x <4 x i32>] %b.coerce) {
 ; CHECK-LABEL: test_vld2q_lane_s32
-; CHECK: ld2 {{{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld2 { {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <4 x i32>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <4 x i32>] %b.coerce, 1
@@ -919,7 +1029,7 @@ entry:
 
 define %struct.int64x2x2_t @test_vld2q_lane_s64(i64* %a, [2 x <2 x i64>] %b.coerce) {
 ; CHECK-LABEL: test_vld2q_lane_s64
-; CHECK: ld2 {{{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld2 { {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <2 x i64>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <2 x i64>] %b.coerce, 1
@@ -934,7 +1044,7 @@ entry:
 
 define %struct.float32x4x2_t @test_vld2q_lane_f32(float* %a, [2 x <4 x float>] %b.coerce) {
 ; CHECK-LABEL: test_vld2q_lane_f32
-; CHECK: ld2 {{{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld2 { {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <4 x float>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <4 x float>] %b.coerce, 1
@@ -949,7 +1059,7 @@ entry:
 
 define %struct.float64x2x2_t @test_vld2q_lane_f64(double* %a, [2 x <2 x double>] %b.coerce) {
 ; CHECK-LABEL: test_vld2q_lane_f64
-; CHECK: ld2 {{{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld2 { {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <2 x double>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <2 x double>] %b.coerce, 1
@@ -964,7 +1074,7 @@ entry:
 
 define %struct.int8x8x2_t @test_vld2_lane_s8(i8* %a, [2 x <8 x i8>] %b.coerce) {
 ; CHECK-LABEL: test_vld2_lane_s8
-; CHECK: ld2 {{{v[0-9]+}}.b, {{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: ld2 { {{v[0-9]+}}.b, {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <8 x i8>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <8 x i8>] %b.coerce, 1
@@ -978,7 +1088,7 @@ entry:
 
 define %struct.int16x4x2_t @test_vld2_lane_s16(i16* %a, [2 x <4 x i16>] %b.coerce) {
 ; CHECK-LABEL: test_vld2_lane_s16
-; CHECK: ld2 {{{v[0-9]+}}.h, {{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: ld2 { {{v[0-9]+}}.h, {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <4 x i16>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <4 x i16>] %b.coerce, 1
@@ -993,7 +1103,7 @@ entry:
 
 define %struct.int32x2x2_t @test_vld2_lane_s32(i32* %a, [2 x <2 x i32>] %b.coerce) {
 ; CHECK-LABEL: test_vld2_lane_s32
-; CHECK: ld2 {{{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld2 { {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <2 x i32>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <2 x i32>] %b.coerce, 1
@@ -1008,7 +1118,7 @@ entry:
 
 define %struct.int64x1x2_t @test_vld2_lane_s64(i64* %a, [2 x <1 x i64>] %b.coerce) {
 ; CHECK-LABEL: test_vld2_lane_s64
-; CHECK: ld2 {{{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld2 { {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <1 x i64>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <1 x i64>] %b.coerce, 1
@@ -1023,7 +1133,7 @@ entry:
 
 define %struct.float32x2x2_t @test_vld2_lane_f32(float* %a, [2 x <2 x float>] %b.coerce) {
 ; CHECK-LABEL: test_vld2_lane_f32
-; CHECK: ld2 {{{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld2 { {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <2 x float>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <2 x float>] %b.coerce, 1
@@ -1038,7 +1148,7 @@ entry:
 
 define %struct.float64x1x2_t @test_vld2_lane_f64(double* %a, [2 x <1 x double>] %b.coerce) {
 ; CHECK-LABEL: test_vld2_lane_f64
-; CHECK: ld2 {{{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld2 { {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <1 x double>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <1 x double>] %b.coerce, 1
@@ -1053,7 +1163,7 @@ entry:
 
 define %struct.int16x8x3_t @test_vld3q_lane_s16(i16* %a, [3 x <8 x i16>] %b.coerce) {
 ; CHECK-LABEL: test_vld3q_lane_s16
-; CHECK: ld3 {{{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: ld3 { {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <8 x i16>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <8 x i16>] %b.coerce, 1
@@ -1071,7 +1181,7 @@ entry:
 
 define %struct.int32x4x3_t @test_vld3q_lane_s32(i32* %a, [3 x <4 x i32>] %b.coerce) {
 ; CHECK-LABEL: test_vld3q_lane_s32
-; CHECK: ld3 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld3 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <4 x i32>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <4 x i32>] %b.coerce, 1
@@ -1089,7 +1199,7 @@ entry:
 
 define %struct.int64x2x3_t @test_vld3q_lane_s64(i64* %a, [3 x <2 x i64>] %b.coerce) {
 ; CHECK-LABEL: test_vld3q_lane_s64
-; CHECK: ld3 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld3 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <2 x i64>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <2 x i64>] %b.coerce, 1
@@ -1107,7 +1217,7 @@ entry:
 
 define %struct.float32x4x3_t @test_vld3q_lane_f32(float* %a, [3 x <4 x float>] %b.coerce) {
 ; CHECK-LABEL: test_vld3q_lane_f32
-; CHECK: ld3 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld3 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <4 x float>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <4 x float>] %b.coerce, 1
@@ -1125,7 +1235,7 @@ entry:
 
 define %struct.float64x2x3_t @test_vld3q_lane_f64(double* %a, [3 x <2 x double>] %b.coerce) {
 ; CHECK-LABEL: test_vld3q_lane_f64
-; CHECK: ld3 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld3 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <2 x double>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <2 x double>] %b.coerce, 1
@@ -1143,7 +1253,7 @@ entry:
 
 define %struct.int8x8x3_t @test_vld3_lane_s8(i8* %a, [3 x <8 x i8>] %b.coerce) {
 ; CHECK-LABEL: test_vld3_lane_s8
-; CHECK: ld3 {{{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: ld3 { {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <8 x i8>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <8 x i8>] %b.coerce, 1
@@ -1160,7 +1270,7 @@ entry:
 
 define %struct.int16x4x3_t @test_vld3_lane_s16(i16* %a, [3 x <4 x i16>] %b.coerce) {
 ; CHECK-LABEL: test_vld3_lane_s16
-; CHECK: ld3 {{{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: ld3 { {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <4 x i16>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <4 x i16>] %b.coerce, 1
@@ -1178,7 +1288,7 @@ entry:
 
 define %struct.int32x2x3_t @test_vld3_lane_s32(i32* %a, [3 x <2 x i32>] %b.coerce) {
 ; CHECK-LABEL: test_vld3_lane_s32
-; CHECK: ld3 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld3 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <2 x i32>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <2 x i32>] %b.coerce, 1
@@ -1196,7 +1306,7 @@ entry:
 
 define %struct.int64x1x3_t @test_vld3_lane_s64(i64* %a, [3 x <1 x i64>] %b.coerce) {
 ; CHECK-LABEL: test_vld3_lane_s64
-; CHECK: ld3 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld3 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <1 x i64>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <1 x i64>] %b.coerce, 1
@@ -1214,7 +1324,7 @@ entry:
 
 define %struct.float32x2x3_t @test_vld3_lane_f32(float* %a, [3 x <2 x float>] %b.coerce) {
 ; CHECK-LABEL: test_vld3_lane_f32
-; CHECK: ld3 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld3 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <2 x float>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <2 x float>] %b.coerce, 1
@@ -1232,7 +1342,7 @@ entry:
 
 define %struct.float64x1x3_t @test_vld3_lane_f64(double* %a, [3 x <1 x double>] %b.coerce) {
 ; CHECK-LABEL: test_vld3_lane_f64
-; CHECK: ld3 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld3 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <1 x double>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <1 x double>] %b.coerce, 1
@@ -1250,7 +1360,7 @@ entry:
 
 define %struct.int8x16x4_t @test_vld4q_lane_s8(i8* %a, [4 x <16 x i8>] %b.coerce) {
 ; CHECK-LABEL: test_vld4q_lane_s8
-; CHECK: ld4 {{{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: ld4 { {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <16 x i8>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <16 x i8>] %b.coerce, 1
@@ -1270,7 +1380,7 @@ entry:
 
 define %struct.int16x8x4_t @test_vld4q_lane_s16(i16* %a, [4 x <8 x i16>] %b.coerce) {
 ; CHECK-LABEL: test_vld4q_lane_s16
-; CHECK: ld4 {{{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: ld4 { {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <8 x i16>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <8 x i16>] %b.coerce, 1
@@ -1291,7 +1401,7 @@ entry:
 
 define %struct.int32x4x4_t @test_vld4q_lane_s32(i32* %a, [4 x <4 x i32>] %b.coerce) {
 ; CHECK-LABEL: test_vld4q_lane_s32
-; CHECK: ld4 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld4 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <4 x i32>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <4 x i32>] %b.coerce, 1
@@ -1312,7 +1422,7 @@ entry:
 
 define %struct.int64x2x4_t @test_vld4q_lane_s64(i64* %a, [4 x <2 x i64>] %b.coerce) {
 ; CHECK-LABEL: test_vld4q_lane_s64
-; CHECK: ld4 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld4 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <2 x i64>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <2 x i64>] %b.coerce, 1
@@ -1333,7 +1443,7 @@ entry:
 
 define %struct.float32x4x4_t @test_vld4q_lane_f32(float* %a, [4 x <4 x float>] %b.coerce) {
 ; CHECK-LABEL: test_vld4q_lane_f32
-; CHECK: ld4 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld4 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <4 x float>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <4 x float>] %b.coerce, 1
@@ -1354,7 +1464,7 @@ entry:
 
 define %struct.float64x2x4_t @test_vld4q_lane_f64(double* %a, [4 x <2 x double>] %b.coerce) {
 ; CHECK-LABEL: test_vld4q_lane_f64
-; CHECK: ld4 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld4 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <2 x double>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <2 x double>] %b.coerce, 1
@@ -1375,7 +1485,7 @@ entry:
 
 define %struct.int8x8x4_t @test_vld4_lane_s8(i8* %a, [4 x <8 x i8>] %b.coerce) {
 ; CHECK-LABEL: test_vld4_lane_s8
-; CHECK: ld4 {{{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: ld4 { {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <8 x i8>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <8 x i8>] %b.coerce, 1
@@ -1395,7 +1505,7 @@ entry:
 
 define %struct.int16x4x4_t @test_vld4_lane_s16(i16* %a, [4 x <4 x i16>] %b.coerce) {
 ; CHECK-LABEL: test_vld4_lane_s16
-; CHECK: ld4 {{{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: ld4 { {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <4 x i16>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <4 x i16>] %b.coerce, 1
@@ -1416,7 +1526,7 @@ entry:
 
 define %struct.int32x2x4_t @test_vld4_lane_s32(i32* %a, [4 x <2 x i32>] %b.coerce) {
 ; CHECK-LABEL: test_vld4_lane_s32
-; CHECK: ld4 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld4 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <2 x i32>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <2 x i32>] %b.coerce, 1
@@ -1437,7 +1547,7 @@ entry:
 
 define %struct.int64x1x4_t @test_vld4_lane_s64(i64* %a, [4 x <1 x i64>] %b.coerce) {
 ; CHECK-LABEL: test_vld4_lane_s64
-; CHECK: ld4 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld4 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <1 x i64>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <1 x i64>] %b.coerce, 1
@@ -1458,7 +1568,7 @@ entry:
 
 define %struct.float32x2x4_t @test_vld4_lane_f32(float* %a, [4 x <2 x float>] %b.coerce) {
 ; CHECK-LABEL: test_vld4_lane_f32
-; CHECK: ld4 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: ld4 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <2 x float>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <2 x float>] %b.coerce, 1
@@ -1479,7 +1589,7 @@ entry:
 
 define %struct.float64x1x4_t @test_vld4_lane_f64(double* %a, [4 x <1 x double>] %b.coerce) {
 ; CHECK-LABEL: test_vld4_lane_f64
-; CHECK: ld4 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: ld4 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <1 x double>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <1 x double>] %b.coerce, 1
@@ -1500,7 +1610,7 @@ entry:
 
 define void @test_vst1q_lane_s8(i8* %a, <16 x i8> %b) {
 ; CHECK-LABEL: test_vst1q_lane_s8
-; CHECK: st1 {{{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: st1 { {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %0 = extractelement <16 x i8> %b, i32 15
   store i8 %0, i8* %a, align 1
@@ -1509,7 +1619,7 @@ entry:
 
 define void @test_vst1q_lane_s16(i16* %a, <8 x i16> %b) {
 ; CHECK-LABEL: test_vst1q_lane_s16
-; CHECK: st1 {{{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: st1 { {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %0 = extractelement <8 x i16> %b, i32 7
   store i16 %0, i16* %a, align 2
@@ -1518,7 +1628,7 @@ entry:
 
 define void @test_vst1q_lane_s32(i32* %a, <4 x i32> %b) {
 ; CHECK-LABEL: test_vst1q_lane_s32
-; CHECK: st1 {{{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st1 { {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %0 = extractelement <4 x i32> %b, i32 3
   store i32 %0, i32* %a, align 4
@@ -1527,7 +1637,7 @@ entry:
 
 define void @test_vst1q_lane_s64(i64* %a, <2 x i64> %b) {
 ; CHECK-LABEL: test_vst1q_lane_s64
-; CHECK: st1 {{{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st1 { {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %0 = extractelement <2 x i64> %b, i32 1
   store i64 %0, i64* %a, align 8
@@ -1536,7 +1646,7 @@ entry:
 
 define void @test_vst1q_lane_f32(float* %a, <4 x float> %b) {
 ; CHECK-LABEL: test_vst1q_lane_f32
-; CHECK: st1 {{{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st1 { {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %0 = extractelement <4 x float> %b, i32 3
   store float %0, float* %a, align 4
@@ -1545,7 +1655,7 @@ entry:
 
 define void @test_vst1q_lane_f64(double* %a, <2 x double> %b) {
 ; CHECK-LABEL: test_vst1q_lane_f64
-; CHECK: st1 {{{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st1 { {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %0 = extractelement <2 x double> %b, i32 1
   store double %0, double* %a, align 8
@@ -1554,7 +1664,7 @@ entry:
 
 define void @test_vst1_lane_s8(i8* %a, <8 x i8> %b) {
 ; CHECK-LABEL: test_vst1_lane_s8
-; CHECK: st1 {{{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: st1 { {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %0 = extractelement <8 x i8> %b, i32 7
   store i8 %0, i8* %a, align 1
@@ -1563,7 +1673,7 @@ entry:
 
 define void @test_vst1_lane_s16(i16* %a, <4 x i16> %b) {
 ; CHECK-LABEL: test_vst1_lane_s16
-; CHECK: st1 {{{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: st1 { {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %0 = extractelement <4 x i16> %b, i32 3
   store i16 %0, i16* %a, align 2
@@ -1572,7 +1682,7 @@ entry:
 
 define void @test_vst1_lane_s32(i32* %a, <2 x i32> %b) {
 ; CHECK-LABEL: test_vst1_lane_s32
-; CHECK: st1 {{{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st1 { {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %0 = extractelement <2 x i32> %b, i32 1
   store i32 %0, i32* %a, align 4
@@ -1581,7 +1691,7 @@ entry:
 
 define void @test_vst1_lane_s64(i64* %a, <1 x i64> %b) {
 ; CHECK-LABEL: test_vst1_lane_s64
-; CHECK: st1 {{{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st1 { {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %0 = extractelement <1 x i64> %b, i32 0
   store i64 %0, i64* %a, align 8
@@ -1590,7 +1700,7 @@ entry:
 
 define void @test_vst1_lane_f32(float* %a, <2 x float> %b) {
 ; CHECK-LABEL: test_vst1_lane_f32
-; CHECK: st1 {{{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st1 { {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %0 = extractelement <2 x float> %b, i32 1
   store float %0, float* %a, align 4
@@ -1599,7 +1709,7 @@ entry:
 
 define void @test_vst1_lane_f64(double* %a, <1 x double> %b) {
 ; CHECK-LABEL: test_vst1_lane_f64
-; CHECK: st1 {{{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st1 { {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %0 = extractelement <1 x double> %b, i32 0
   store double %0, double* %a, align 8
@@ -1608,7 +1718,7 @@ entry:
 
 define void @test_vst2q_lane_s8(i8* %a, [2 x <16 x i8>] %b.coerce) {
 ; CHECK-LABEL: test_vst2q_lane_s8
-; CHECK: st2 {{{v[0-9]+}}.b, {{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: st2 { {{v[0-9]+}}.b, {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <16 x i8>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <16 x i8>] %b.coerce, 1
@@ -1618,7 +1728,7 @@ entry:
 
 define void @test_vst2q_lane_s16(i16* %a, [2 x <8 x i16>] %b.coerce) {
 ; CHECK-LABEL: test_vst2q_lane_s16
-; CHECK: st2 {{{v[0-9]+}}.h, {{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: st2 { {{v[0-9]+}}.h, {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <8 x i16>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <8 x i16>] %b.coerce, 1
@@ -1629,7 +1739,7 @@ entry:
 
 define void @test_vst2q_lane_s32(i32* %a, [2 x <4 x i32>] %b.coerce) {
 ; CHECK-LABEL: test_vst2q_lane_s32
-; CHECK: st2 {{{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st2 { {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <4 x i32>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <4 x i32>] %b.coerce, 1
@@ -1640,7 +1750,7 @@ entry:
 
 define void @test_vst2q_lane_s64(i64* %a, [2 x <2 x i64>] %b.coerce) {
 ; CHECK-LABEL: test_vst2q_lane_s64
-; CHECK: st2 {{{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st2 { {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <2 x i64>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <2 x i64>] %b.coerce, 1
@@ -1651,7 +1761,7 @@ entry:
 
 define void @test_vst2q_lane_f32(float* %a, [2 x <4 x float>] %b.coerce) {
 ; CHECK-LABEL: test_vst2q_lane_f32
-; CHECK: st2 {{{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st2 { {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <4 x float>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <4 x float>] %b.coerce, 1
@@ -1662,7 +1772,7 @@ entry:
 
 define void @test_vst2q_lane_f64(double* %a, [2 x <2 x double>] %b.coerce) {
 ; CHECK-LABEL: test_vst2q_lane_f64
-; CHECK: st2 {{{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st2 { {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <2 x double>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <2 x double>] %b.coerce, 1
@@ -1673,7 +1783,7 @@ entry:
 
 define void @test_vst2_lane_s8(i8* %a, [2 x <8 x i8>] %b.coerce) {
 ; CHECK-LABEL: test_vst2_lane_s8
-; CHECK: st2 {{{v[0-9]+}}.b, {{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: st2 { {{v[0-9]+}}.b, {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <8 x i8>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <8 x i8>] %b.coerce, 1
@@ -1683,7 +1793,7 @@ entry:
 
 define void @test_vst2_lane_s16(i16* %a, [2 x <4 x i16>] %b.coerce) {
 ; CHECK-LABEL: test_vst2_lane_s16
-; CHECK: st2 {{{v[0-9]+}}.h, {{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: st2 { {{v[0-9]+}}.h, {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <4 x i16>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <4 x i16>] %b.coerce, 1
@@ -1694,7 +1804,7 @@ entry:
 
 define void @test_vst2_lane_s32(i32* %a, [2 x <2 x i32>] %b.coerce) {
 ; CHECK-LABEL: test_vst2_lane_s32
-; CHECK: st2 {{{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st2 { {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <2 x i32>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <2 x i32>] %b.coerce, 1
@@ -1705,7 +1815,7 @@ entry:
 
 define void @test_vst2_lane_s64(i64* %a, [2 x <1 x i64>] %b.coerce) {
 ; CHECK-LABEL: test_vst2_lane_s64
-; CHECK: st2 {{{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st2 { {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <1 x i64>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <1 x i64>] %b.coerce, 1
@@ -1716,7 +1826,7 @@ entry:
 
 define void @test_vst2_lane_f32(float* %a, [2 x <2 x float>] %b.coerce) {
 ; CHECK-LABEL: test_vst2_lane_f32
-; CHECK: st2 {{{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st2 { {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <2 x float>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <2 x float>] %b.coerce, 1
@@ -1727,7 +1837,7 @@ entry:
 
 define void @test_vst2_lane_f64(double* %a, [2 x <1 x double>] %b.coerce) {
 ; CHECK-LABEL: test_vst2_lane_f64
-; CHECK: st2 {{{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st2 { {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [2 x <1 x double>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [2 x <1 x double>] %b.coerce, 1
@@ -1738,7 +1848,7 @@ entry:
 
 define void @test_vst3q_lane_s8(i8* %a, [3 x <16 x i8>] %b.coerce) {
 ; CHECK-LABEL: test_vst3q_lane_s8
-; CHECK: st3 {{{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: st3 { {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <16 x i8>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <16 x i8>] %b.coerce, 1
@@ -1749,7 +1859,7 @@ entry:
 
 define void @test_vst3q_lane_s16(i16* %a, [3 x <8 x i16>] %b.coerce) {
 ; CHECK-LABEL: test_vst3q_lane_s16
-; CHECK: st3 {{{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: st3 { {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <8 x i16>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <8 x i16>] %b.coerce, 1
@@ -1761,7 +1871,7 @@ entry:
 
 define void @test_vst3q_lane_s32(i32* %a, [3 x <4 x i32>] %b.coerce) {
 ; CHECK-LABEL: test_vst3q_lane_s32
-; CHECK: st3 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st3 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <4 x i32>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <4 x i32>] %b.coerce, 1
@@ -1773,7 +1883,7 @@ entry:
 
 define void @test_vst3q_lane_s64(i64* %a, [3 x <2 x i64>] %b.coerce) {
 ; CHECK-LABEL: test_vst3q_lane_s64
-; CHECK: st3 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st3 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <2 x i64>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <2 x i64>] %b.coerce, 1
@@ -1785,7 +1895,7 @@ entry:
 
 define void @test_vst3q_lane_f32(float* %a, [3 x <4 x float>] %b.coerce) {
 ; CHECK-LABEL: test_vst3q_lane_f32
-; CHECK: st3 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st3 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <4 x float>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <4 x float>] %b.coerce, 1
@@ -1797,7 +1907,7 @@ entry:
 
 define void @test_vst3q_lane_f64(double* %a, [3 x <2 x double>] %b.coerce) {
 ; CHECK-LABEL: test_vst3q_lane_f64
-; CHECK: st3 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st3 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <2 x double>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <2 x double>] %b.coerce, 1
@@ -1809,7 +1919,7 @@ entry:
 
 define void @test_vst3_lane_s8(i8* %a, [3 x <8 x i8>] %b.coerce) {
 ; CHECK-LABEL: test_vst3_lane_s8
-; CHECK: st3 {{{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: st3 { {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <8 x i8>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <8 x i8>] %b.coerce, 1
@@ -1820,7 +1930,7 @@ entry:
 
 define void @test_vst3_lane_s16(i16* %a, [3 x <4 x i16>] %b.coerce) {
 ; CHECK-LABEL: test_vst3_lane_s16
-; CHECK: st3 {{{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: st3 { {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <4 x i16>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <4 x i16>] %b.coerce, 1
@@ -1832,7 +1942,7 @@ entry:
 
 define void @test_vst3_lane_s32(i32* %a, [3 x <2 x i32>] %b.coerce) {
 ; CHECK-LABEL: test_vst3_lane_s32
-; CHECK: st3 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st3 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <2 x i32>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <2 x i32>] %b.coerce, 1
@@ -1844,7 +1954,7 @@ entry:
 
 define void @test_vst3_lane_s64(i64* %a, [3 x <1 x i64>] %b.coerce) {
 ; CHECK-LABEL: test_vst3_lane_s64
-; CHECK: st3 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st3 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <1 x i64>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <1 x i64>] %b.coerce, 1
@@ -1856,7 +1966,7 @@ entry:
 
 define void @test_vst3_lane_f32(float* %a, [3 x <2 x float>] %b.coerce) {
 ; CHECK-LABEL: test_vst3_lane_f32
-; CHECK: st3 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st3 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <2 x float>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <2 x float>] %b.coerce, 1
@@ -1868,7 +1978,7 @@ entry:
 
 define void @test_vst3_lane_f64(double* %a, [3 x <1 x double>] %b.coerce) {
 ; CHECK-LABEL: test_vst3_lane_f64
-; CHECK: st3 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st3 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [3 x <1 x double>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [3 x <1 x double>] %b.coerce, 1
@@ -1880,7 +1990,7 @@ entry:
 
 define void @test_vst4q_lane_s8(i16* %a, [4 x <16 x i8>] %b.coerce) {
 ; CHECK-LABEL: test_vst4q_lane_s8
-; CHECK: st4 {{{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: st4 { {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <16 x i8>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <16 x i8>] %b.coerce, 1
@@ -1893,7 +2003,7 @@ entry:
 
 define void @test_vst4q_lane_s16(i16* %a, [4 x <8 x i16>] %b.coerce) {
 ; CHECK-LABEL: test_vst4q_lane_s16
-; CHECK: st4 {{{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: st4 { {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <8 x i16>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <8 x i16>] %b.coerce, 1
@@ -1906,7 +2016,7 @@ entry:
 
 define void @test_vst4q_lane_s32(i32* %a, [4 x <4 x i32>] %b.coerce) {
 ; CHECK-LABEL: test_vst4q_lane_s32
-; CHECK: st4 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st4 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <4 x i32>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <4 x i32>] %b.coerce, 1
@@ -1919,7 +2029,7 @@ entry:
 
 define void @test_vst4q_lane_s64(i64* %a, [4 x <2 x i64>] %b.coerce) {
 ; CHECK-LABEL: test_vst4q_lane_s64
-; CHECK: st4 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st4 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <2 x i64>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <2 x i64>] %b.coerce, 1
@@ -1932,7 +2042,7 @@ entry:
 
 define void @test_vst4q_lane_f32(float* %a, [4 x <4 x float>] %b.coerce) {
 ; CHECK-LABEL: test_vst4q_lane_f32
-; CHECK: st4 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st4 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <4 x float>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <4 x float>] %b.coerce, 1
@@ -1945,7 +2055,7 @@ entry:
 
 define void @test_vst4q_lane_f64(double* %a, [4 x <2 x double>] %b.coerce) {
 ; CHECK-LABEL: test_vst4q_lane_f64
-; CHECK: st4 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st4 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <2 x double>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <2 x double>] %b.coerce, 1
@@ -1958,7 +2068,7 @@ entry:
 
 define void @test_vst4_lane_s8(i8* %a, [4 x <8 x i8>] %b.coerce) {
 ; CHECK-LABEL: test_vst4_lane_s8
-; CHECK: st4 {{{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b}[{{[0-9]+}}], [x0]
+; CHECK: st4 { {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <8 x i8>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <8 x i8>] %b.coerce, 1
@@ -1970,7 +2080,7 @@ entry:
 
 define void @test_vst4_lane_s16(i16* %a, [4 x <4 x i16>] %b.coerce) {
 ; CHECK-LABEL: test_vst4_lane_s16
-; CHECK: st4 {{{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h}[{{[0-9]+}}], [x0]
+; CHECK: st4 { {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h, {{v[0-9]+}}.h }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <4 x i16>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <4 x i16>] %b.coerce, 1
@@ -1983,7 +2093,7 @@ entry:
 
 define void @test_vst4_lane_s32(i32* %a, [4 x <2 x i32>] %b.coerce) {
 ; CHECK-LABEL: test_vst4_lane_s32
-; CHECK: st4 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st4 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <2 x i32>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <2 x i32>] %b.coerce, 1
@@ -1996,7 +2106,7 @@ entry:
 
 define void @test_vst4_lane_s64(i64* %a, [4 x <1 x i64>] %b.coerce) {
 ; CHECK-LABEL: test_vst4_lane_s64
-; CHECK: st4 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st4 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <1 x i64>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <1 x i64>] %b.coerce, 1
@@ -2009,7 +2119,7 @@ entry:
 
 define void @test_vst4_lane_f32(float* %a, [4 x <2 x float>] %b.coerce) {
 ; CHECK-LABEL: test_vst4_lane_f32
-; CHECK: st4 {{{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s}[{{[0-9]+}}], [x0]
+; CHECK: st4 { {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s, {{v[0-9]+}}.s }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <2 x float>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <2 x float>] %b.coerce, 1
@@ -2022,7 +2132,7 @@ entry:
 
 define void @test_vst4_lane_f64(double* %a, [4 x <1 x double>] %b.coerce) {
 ; CHECK-LABEL: test_vst4_lane_f64
-; CHECK: st4 {{{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d}[{{[0-9]+}}], [x0]
+; CHECK: st4 { {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d, {{v[0-9]+}}.d }[{{[0-9]+}}], [x0]
 entry:
   %b.coerce.fca.0.extract = extractvalue [4 x <1 x double>] %b.coerce, 0
   %b.coerce.fca.1.extract = extractvalue [4 x <1 x double>] %b.coerce, 1
@@ -2110,4 +2220,81 @@ declare void @llvm.arm.neon.vst4lane.v4i16(i8*, <4 x i16>, <4 x i16>, <4 x i16>,
 declare void @llvm.arm.neon.vst4lane.v2i32(i8*, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, i32, i32)
 declare void @llvm.arm.neon.vst4lane.v1i64(i8*, <1 x i64>, <1 x i64>, <1 x i64>, <1 x i64>, i32, i32)
 declare void @llvm.arm.neon.vst4lane.v2f32(i8*, <2 x float>, <2 x float>, <2 x float>, <2 x float>, i32, i32)
-declare void @llvm.arm.neon.vst4lane.v1f64(i8*, <1 x double>, <1 x double>, <1 x double>, <1 x double>, i32, i32)
\ No newline at end of file
+declare void @llvm.arm.neon.vst4lane.v1f64(i8*, <1 x double>, <1 x double>, <1 x double>, <1 x double>, i32, i32)
+
+define %struct.int8x16x2_t @test_vld2q_lane_s8(i8* readonly %ptr, [2 x <16 x i8>] %src.coerce) {
+; CHECK-LABEL: test_vld2q_lane_s8
+; CHECK: ld2 { {{v[0-9]+}}.b, {{v[0-9]+}}.b }[15], [x0]
+entry:
+  %src.coerce.fca.0.extract = extractvalue [2 x <16 x i8>] %src.coerce, 0
+  %src.coerce.fca.1.extract = extractvalue [2 x <16 x i8>] %src.coerce, 1
+  %vld2_lane = tail call { <16 x i8>, <16 x i8> } @llvm.arm.neon.vld2lane.v16i8(i8* %ptr, <16 x i8> %src.coerce.fca.0.extract, <16 x i8> %src.coerce.fca.1.extract, i32 15, i32 1)
+  %vld2_lane.fca.0.extract = extractvalue { <16 x i8>, <16 x i8> } %vld2_lane, 0
+  %vld2_lane.fca.1.extract = extractvalue { <16 x i8>, <16 x i8> } %vld2_lane, 1
+  %.fca.0.0.insert = insertvalue %struct.int8x16x2_t undef, <16 x i8> %vld2_lane.fca.0.extract, 0, 0
+  %.fca.0.1.insert = insertvalue %struct.int8x16x2_t %.fca.0.0.insert, <16 x i8> %vld2_lane.fca.1.extract, 0, 1
+  ret %struct.int8x16x2_t %.fca.0.1.insert
+}
+
+define %struct.uint8x16x2_t @test_vld2q_lane_u8(i8* readonly %ptr, [2 x <16 x i8>] %src.coerce) {
+; CHECK-LABEL: test_vld2q_lane_u8
+; CHECK: ld2 { {{v[0-9]+}}.b, {{v[0-9]+}}.b }[15], [x0]
+entry:
+  %src.coerce.fca.0.extract = extractvalue [2 x <16 x i8>] %src.coerce, 0
+  %src.coerce.fca.1.extract = extractvalue [2 x <16 x i8>] %src.coerce, 1
+  %vld2_lane = tail call { <16 x i8>, <16 x i8> } @llvm.arm.neon.vld2lane.v16i8(i8* %ptr, <16 x i8> %src.coerce.fca.0.extract, <16 x i8> %src.coerce.fca.1.extract, i32 15, i32 1)
+  %vld2_lane.fca.0.extract = extractvalue { <16 x i8>, <16 x i8> } %vld2_lane, 0
+  %vld2_lane.fca.1.extract = extractvalue { <16 x i8>, <16 x i8> } %vld2_lane, 1
+  %.fca.0.0.insert = insertvalue %struct.uint8x16x2_t undef, <16 x i8> %vld2_lane.fca.0.extract, 0, 0
+  %.fca.0.1.insert = insertvalue %struct.uint8x16x2_t %.fca.0.0.insert, <16 x i8> %vld2_lane.fca.1.extract, 0, 1
+  ret %struct.uint8x16x2_t %.fca.0.1.insert
+}
+
+define %struct.poly8x16x2_t @test_vld2q_lane_p8(i8* readonly %ptr, [2 x <16 x i8>] %src.coerce) {
+; CHECK-LABEL: test_vld2q_lane_p8
+; CHECK: ld2 { {{v[0-9]+}}.b, {{v[0-9]+}}.b }[15], [x0]
+entry:
+  %src.coerce.fca.0.extract = extractvalue [2 x <16 x i8>] %src.coerce, 0
+  %src.coerce.fca.1.extract = extractvalue [2 x <16 x i8>] %src.coerce, 1
+  %vld2_lane = tail call { <16 x i8>, <16 x i8> } @llvm.arm.neon.vld2lane.v16i8(i8* %ptr, <16 x i8> %src.coerce.fca.0.extract, <16 x i8> %src.coerce.fca.1.extract, i32 15, i32 1)
+  %vld2_lane.fca.0.extract = extractvalue { <16 x i8>, <16 x i8> } %vld2_lane, 0
+  %vld2_lane.fca.1.extract = extractvalue { <16 x i8>, <16 x i8> } %vld2_lane, 1
+  %.fca.0.0.insert = insertvalue %struct.poly8x16x2_t undef, <16 x i8> %vld2_lane.fca.0.extract, 0, 0
+  %.fca.0.1.insert = insertvalue %struct.poly8x16x2_t %.fca.0.0.insert, <16 x i8> %vld2_lane.fca.1.extract, 0, 1
+  ret %struct.poly8x16x2_t %.fca.0.1.insert
+}
+
+define %struct.int8x16x3_t @test_vld3q_lane_s8(i8* readonly %ptr, [3 x <16 x i8>] %src.coerce) {
+; CHECK-LABEL: test_vld3q_lane_s8
+; CHECK: ld3 { {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b }[15], [x0]
+entry:
+  %src.coerce.fca.0.extract = extractvalue [3 x <16 x i8>] %src.coerce, 0
+  %src.coerce.fca.1.extract = extractvalue [3 x <16 x i8>] %src.coerce, 1
+  %src.coerce.fca.2.extract = extractvalue [3 x <16 x i8>] %src.coerce, 2
+  %vld3_lane = tail call { <16 x i8>, <16 x i8>, <16 x i8> } @llvm.arm.neon.vld3lane.v16i8(i8* %ptr, <16 x i8> %src.coerce.fca.0.extract, <16 x i8> %src.coerce.fca.1.extract, <16 x i8> %src.coerce.fca.2.extract, i32 15, i32 1)
+  %vld3_lane.fca.0.extract = extractvalue { <16 x i8>, <16 x i8>, <16 x i8> } %vld3_lane, 0
+  %vld3_lane.fca.1.extract = extractvalue { <16 x i8>, <16 x i8>, <16 x i8> } %vld3_lane, 1
+  %vld3_lane.fca.2.extract = extractvalue { <16 x i8>, <16 x i8>, <16 x i8> } %vld3_lane, 2
+  %.fca.0.0.insert = insertvalue %struct.int8x16x3_t undef, <16 x i8> %vld3_lane.fca.0.extract, 0, 0
+  %.fca.0.1.insert = insertvalue %struct.int8x16x3_t %.fca.0.0.insert, <16 x i8> %vld3_lane.fca.1.extract, 0, 1
+  %.fca.0.2.insert = insertvalue %struct.int8x16x3_t %.fca.0.1.insert, <16 x i8> %vld3_lane.fca.2.extract, 0, 2
+  ret %struct.int8x16x3_t %.fca.0.2.insert
+}
+
+define %struct.uint8x16x3_t @test_vld3q_lane_u8(i8* readonly %ptr, [3 x <16 x i8>] %src.coerce) {
+; CHECK-LABEL: test_vld3q_lane_u8
+; CHECK: ld3 { {{v[0-9]+}}.b, {{v[0-9]+}}.b, {{v[0-9]+}}.b }[15], [x0]
+entry:
+  %src.coerce.fca.0.extract = extractvalue [3 x <16 x i8>] %src.coerce, 0
+  %src.coerce.fca.1.extract = extractvalue [3 x <16 x i8>] %src.coerce, 1
+  %src.coerce.fca.2.extract = extractvalue [3 x <16 x i8>] %src.coerce, 2
+  %vld3_lane = tail call { <16 x i8>, <16 x i8>, <16 x i8> } @llvm.arm.neon.vld3lane.v16i8(i8* %ptr, <16 x i8> %src.coerce.fca.0.extract, <16 x i8> %src.coerce.fca.1.extract, <16 x i8> %src.coerce.fca.2.extract, i32 15, i32 1)
+  %vld3_lane.fca.0.extract = extractvalue { <16 x i8>, <16 x i8>, <16 x i8> } %vld3_lane, 0
+  %vld3_lane.fca.1.extract = extractvalue { <16 x i8>, <16 x i8>, <16 x i8> } %vld3_lane, 1
+  %vld3_lane.fca.2.extract = extractvalue { <16 x i8>, <16 x i8>, <16 x i8> } %vld3_lane, 2
+  %.fca.0.0.insert = insertvalue %struct.uint8x16x3_t undef, <16 x i8> %vld3_lane.fca.0.extract, 0, 0
+  %.fca.0.1.insert = insertvalue %struct.uint8x16x3_t %.fca.0.0.insert, <16 x i8> %vld3_lane.fca.1.extract, 0, 1
+  %.fca.0.2.insert = insertvalue %struct.uint8x16x3_t %.fca.0.1.insert, <16 x i8> %vld3_lane.fca.2.extract, 0, 2
+  ret %struct.uint8x16x3_t %.fca.0.2.insert
+}
+