Add neon optimization for selfguided_restoration Gains w.r.t. C 8bit ~ 2.93x 10bit ~ 2.96x 12bit ~ 2.96x Change-Id: Icb7ba3c2160b4c023059631b696425017b6741f1

commit: 0350496fef61dcb20e853b8bd55486f42936329e [log] [tgz]
author: Venkat <sanampudi.venkatarao@ittiam.com> Tue Jun 26 08:41:26 2018 +0530
committer: Harish Mahendrakar <harish.mahendrakar@ittiam.com> Fri Jun 29 16:22:55 2018 +0000
tree: 312771cdb7721dd01d7d0f348d235ba846c3edd2
parent: b48bc12c8d27b66ad8aa067c7f313b6925e4f433 [diff] [blame]
diff --git a/av1/common/arm/transpose_neon.h b/av1/common/arm/transpose_neon.h
index 53727bb..fe13408 100644
--- a/av1/common/arm/transpose_neon.h
+++ b/av1/common/arm/transpose_neon.h

@@ -419,4 +419,42 @@
   *a3 = vreinterpret_s16_s32(c1.val[1]);
 }
 
+static INLINE int32x4x2_t aom_vtrnq_s64_to_s32(int32x4_t a0, int32x4_t a1) {
+  int32x4x2_t b0;
+  b0.val[0] = vcombine_s32(vget_low_s32(a0), vget_low_s32(a1));
+  b0.val[1] = vcombine_s32(vget_high_s32(a0), vget_high_s32(a1));
+  return b0;
+}
+
+static INLINE void transpose_s32_4x4(int32x4_t *a0, int32x4_t *a1,
+                                     int32x4_t *a2, int32x4_t *a3) {
+  // Swap 32 bit elements. Goes from:
+  // a0: 00 01 02 03
+  // a1: 10 11 12 13
+  // a2: 20 21 22 23
+  // a3: 30 31 32 33
+  // to:
+  // b0.val[0]: 00 10 02 12
+  // b0.val[1]: 01 11 03 13
+  // b1.val[0]: 20 30 22 32
+  // b1.val[1]: 21 31 23 33
+
+  const int32x4x2_t b0 = vtrnq_s32(*a0, *a1);
+  const int32x4x2_t b1 = vtrnq_s32(*a2, *a3);
+
+  // Swap 64 bit elements resulting in:
+  // c0.val[0]: 00 10 20 30
+  // c0.val[1]: 02 12 22 32
+  // c1.val[0]: 01 11 21 31
+  // c1.val[1]: 03 13 23 33
+
+  const int32x4x2_t c0 = aom_vtrnq_s64_to_s32(b0.val[0], b1.val[0]);
+  const int32x4x2_t c1 = aom_vtrnq_s64_to_s32(b0.val[1], b1.val[1]);
+
+  *a0 = c0.val[0];
+  *a1 = c1.val[0];
+  *a2 = c0.val[1];
+  *a3 = c1.val[1];
+}
+
 #endif  // AV1_COMMON_ARM_TRANSPOSE_NEON_H_
commit	0350496fef61dcb20e853b8bd55486f42936329e	[log] [tgz]
author	Venkat <sanampudi.venkatarao@ittiam.com>	Tue Jun 26 08:41:26 2018 +0530
committer	Harish Mahendrakar <harish.mahendrakar@ittiam.com>	Fri Jun 29 16:22:55 2018 +0000
tree	312771cdb7721dd01d7d0f348d235ba846c3edd2
parent	b48bc12c8d27b66ad8aa067c7f313b6925e4f433 [diff] [blame]