Improve high bitdepth CLPF SIMD The high bitdepth was a direct translation of the low bit code, but the tricks to keep 9 bit differences saturated within 8 bit are redundant in high bitdepth, so the these were replaced with simpler and more readable code. Change-Id: I0710a1f1b9dcde8039d3dfa0f74cd2ea2b3bae27

commit: 6501122f1a3f3be3f739afad6832832f2f97ca29 [log] [tgz]
author: Steinar Midtskogen <stemidts@cisco.com> Fri Mar 31 20:55:19 2017 +0200
committer: Steinar Midtskogen <stemidts@cisco.com> Fri Mar 31 19:55:08 2017 +0000
tree: 51942e62faae7f84000fa48ac80837acd5a34996
parent: 9cf0c9cde7698754c0e07768f9290b5ff3c13341 [diff]
diff --git a/av1/common/clpf_simd.h b/av1/common/clpf_simd.h
index 4a0b220..eb81a25 100644
--- a/av1/common/clpf_simd.h
+++ b/av1/common/clpf_simd.h

@@ -209,8 +209,9 @@
 // strength + (abs(a - b) >> (dmp - log2(s)))))
 SIMD_INLINE v128 constrain_hbd(v128 a, v128 b, unsigned int strength,
                                unsigned int dmp) {
-  const v128 diff = v128_sub_16(v128_max_s16(a, b), v128_min_s16(a, b));
-  const v128 sign = v128_cmpeq_16(v128_min_s16(a, b), a);  // -(a <= b)
+  v128 diff = v128_sub_16(a, b);
+  const v128 sign = v128_shr_n_s16(diff, 15);
+  diff = v128_abs_s16(diff);
   const v128 zero = v128_zero();
   const v128 s = v128_max_s16(
       zero, v128_sub_16(v128_dup_16(strength),
commit	6501122f1a3f3be3f739afad6832832f2f97ca29	[log] [tgz]
author	Steinar Midtskogen <stemidts@cisco.com>	Fri Mar 31 20:55:19 2017 +0200
committer	Steinar Midtskogen <stemidts@cisco.com>	Fri Mar 31 19:55:08 2017 +0000
tree	51942e62faae7f84000fa48ac80837acd5a34996
parent	9cf0c9cde7698754c0e07768f9290b5ff3c13341 [diff]