av1/common/riscv/cdef_block_rvv.c - aom - Git at Google

 /*
  * Copyright (c) 2025, Alliance for Open Media. All rights reserved.
  *
  * This source code is subject to the terms of the BSD 2 Clause License and
  * the Alliance for Open Media Patent License 1.0. If the BSD 2 Clause License
  * was not distributed with this source code in the LICENSE file, you can
  * obtain it at www.aomedia.org/license/software. If the Alliance for Open
  * Media Patent License 1.0 was not distributed with this source code in the
  * PATENTS file, you can obtain it at www.aomedia.org/license/patent.
  */

 #include <riscv_vector.h>

 #include "config/aom_config.h"
 #include "config/av1_rtcd.h"
 #include "av1/common/cdef_block.h"

 // partial A is a 16-bit vector of the form:
 // [x8 x7 x6 x5 x4 x3 x2 x1] and partial B has the form:
 // [0  y1 y2 y3 y4 y5 y6 y7].
 // This function computes (x1^2+y1^2)*C1 + (x2^2+y2^2)*C2 + ...
 // (x7^2+y2^7)*C7 + (x8^2+0^2)*C8 where the C1..C8 constants are in const1
 // and const2.
 static inline vuint32m1_t fold_mul_and_sum_rvv(vint16m1_t partiala,
                                                vint16m1_t partialb,
                                                vuint32m1_t const1,
                                                vuint32m1_t const2) {
   // Square and add the corresponding x and y values.
   vint32m2_t cost = __riscv_vwmul_vv_i32m2(partiala, partiala, 8);
   cost = __riscv_vwmacc_vv_i32m2(cost, partialb, partialb, 8);

   // Multiply by constant.
   vuint32m2_t tmp1_u32m2 = __riscv_vreinterpret_v_i32m2_u32m2(cost);
   vuint32m1_t cost_u32m1 = __riscv_vmul_vv_u32m1(
       __riscv_vlmul_trunc_v_u32m2_u32m1(tmp1_u32m2), const1, 4);
   tmp1_u32m2 = __riscv_vslidedown_vx_u32m2(tmp1_u32m2, 4, 8);
   vuint32m1_t ret = __riscv_vmacc_vv_u32m1(
       cost_u32m1, __riscv_vlmul_trunc_v_u32m2_u32m1(tmp1_u32m2), const2, 4);
   return ret;
 }

 // This function computes the cost along directions 4, 5, 6, 7. (4 is diagonal
 // down-right, 6 is vertical).
 //
 // For each direction the lines are shifted so that we can perform a
 // basic sum on each vector element. For example, direction 5 is "south by
 // southeast", so we need to add the pixels along each line i below:
 //
 // 0  1 2 3 4 5 6 7
 // 0  1 2 3 4 5 6 7
 // 8  0 1 2 3 4 5 6
 // 8  0 1 2 3 4 5 6
 // 9  8 0 1 2 3 4 5
 // 9  8 0 1 2 3 4 5
 // 10 9 8 0 1 2 3 4
 // 10 9 8 0 1 2 3 4
 //
 // For this to fit nicely in vectors, the lines need to be shifted like so:
 //        0 1 2 3 4 5 6 7
 //        0 1 2 3 4 5 6 7
 //      8 0 1 2 3 4 5 6
 //      8 0 1 2 3 4 5 6
 //    9 8 0 1 2 3 4 5
 //    9 8 0 1 2 3 4 5
 // 10 9 8 0 1 2 3 4
 // 10 9 8 0 1 2 3 4
 //
 // In this configuration we can now perform SIMD additions to get the cost
 // along direction 5. Since this won't fit into a single 128-bit vector, we use
 // two of them to compute each half of the new configuration, and pad the empty
 // spaces with zeros. Similar shifting is done for other directions, except
 // direction 6 which is straightforward as it's the vertical direction.
 static vuint32m1_t compute_vert_directions_rvv(
     vint16m1_t lines_0, vint16m1_t lines_1, vint16m1_t lines_2,
     vint16m1_t lines_3, vint16m1_t lines_4, vint16m1_t lines_5,
     vint16m1_t lines_6, vint16m1_t lines_7, uint32_t cost[4], size_t vl) {
   size_t VL_SLIDE_DOWN = __riscv_vsetvl_e16m1(16);
   vint16m1_t vec_zero_i16m1 = __riscv_vmv_v_x_i16m1(0, vl);

   // Partial sums for lines 0 and 1.
   vint16m1_t partial4a =
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, lines_0, (8 - 1), vl);
   vint16m1_t tmp1_i16m1 =
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, lines_1, (8 - 2), vl);
   partial4a = __riscv_vadd_vv_i16m1(partial4a, tmp1_i16m1, vl);
   vint16m1_t partial4b = __riscv_vslide1down_vx_i16m1(lines_0, 0, vl);
   tmp1_i16m1 = __riscv_vslidedown_vx_i16m1(lines_1, 2, VL_SLIDE_DOWN);
   partial4b = __riscv_vadd_vv_i16m1(partial4b, tmp1_i16m1, vl);
   tmp1_i16m1 = __riscv_vadd_vv_i16m1(lines_0, lines_1, VL_SLIDE_DOWN);
   vint16m1_t partial5a =
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, tmp1_i16m1, (8 - 3), vl);
   vint16m1_t partial5b =
       __riscv_vslidedown_vx_i16m1(tmp1_i16m1, 3, VL_SLIDE_DOWN);
   vint16m1_t partial7a =
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, tmp1_i16m1, (8 - 6), vl);
   vint16m1_t partial7b =
       __riscv_vslidedown_vx_i16m1(tmp1_i16m1, 6, VL_SLIDE_DOWN);
   vint16m1_t partial6 = __riscv_vmv_v_v_i16m1(tmp1_i16m1, vl);

   // Partial sums for lines 2 and 3.
   tmp1_i16m1 = __riscv_vslideup_vx_i16m1(vec_zero_i16m1, lines_2, (8 - 3), vl);
   partial4a = __riscv_vadd_vv_i16m1(partial4a, tmp1_i16m1, vl);
   tmp1_i16m1 = __riscv_vslideup_vx_i16m1(vec_zero_i16m1, lines_3, (8 - 4), vl);
   partial4a = __riscv_vadd_vv_i16m1(partial4a, tmp1_i16m1, vl);
   tmp1_i16m1 = __riscv_vslidedown_vx_i16m1(lines_2, 3, VL_SLIDE_DOWN);
   partial4b = __riscv_vadd_vv_i16m1(partial4b, tmp1_i16m1, vl);
   tmp1_i16m1 = __riscv_vslidedown_vx_i16m1(lines_3, 4, VL_SLIDE_DOWN);
   partial4b = __riscv_vadd_vv_i16m1(partial4b, tmp1_i16m1, vl);
   tmp1_i16m1 = __riscv_vadd_vv_i16m1(lines_2, lines_3, VL_SLIDE_DOWN);
   partial5a = __riscv_vadd_vv_i16m1(
       partial5a,
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, tmp1_i16m1, (8 - 4), vl), vl);
   partial5b = __riscv_vadd_vv_i16m1(
       partial5b, __riscv_vslidedown_vx_i16m1(tmp1_i16m1, 4, VL_SLIDE_DOWN), vl);
   partial7a = __riscv_vadd_vv_i16m1(
       partial7a,
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, tmp1_i16m1, (8 - 5), vl), vl);
   partial7b = __riscv_vadd_vv_i16m1(
       partial7b, __riscv_vslidedown_vx_i16m1(tmp1_i16m1, 5, VL_SLIDE_DOWN), vl);
   partial6 = __riscv_vadd_vv_i16m1(partial6, tmp1_i16m1, vl);

   // Partial sums for lines 4 and 5.
   partial4a = __riscv_vadd_vv_i16m1(
       partial4a,
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, lines_4, (8 - 5), vl), vl);
   partial4a = __riscv_vadd_vv_i16m1(
       partial4a,
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, lines_5, (8 - 6), vl), vl);
   partial4b = __riscv_vadd_vv_i16m1(
       partial4b, __riscv_vslidedown_vx_i16m1(lines_4, 5, VL_SLIDE_DOWN), vl);
   partial4b = __riscv_vadd_vv_i16m1(
       partial4b, __riscv_vslidedown_vx_i16m1(lines_5, 6, VL_SLIDE_DOWN), vl);
   tmp1_i16m1 = __riscv_vadd_vv_i16m1(lines_4, lines_5, VL_SLIDE_DOWN);
   partial5a = __riscv_vadd_vv_i16m1(
       partial5a,
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, tmp1_i16m1, (8 - 5), vl), vl);
   partial5b = __riscv_vadd_vv_i16m1(
       partial5b, __riscv_vslidedown_vx_i16m1(tmp1_i16m1, 5, VL_SLIDE_DOWN), vl);
   partial7a = __riscv_vadd_vv_i16m1(
       partial7a,
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, tmp1_i16m1, (8 - 4), vl), vl);
   partial7b = __riscv_vadd_vv_i16m1(
       partial7b, __riscv_vslidedown_vx_i16m1(tmp1_i16m1, 4, VL_SLIDE_DOWN), vl);
   partial6 = __riscv_vadd_vv_i16m1(partial6, tmp1_i16m1, vl);

   // Partial sums for lines 6 and 7.
   partial4a = __riscv_vadd_vv_i16m1(
       partial4a,
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, lines_6, (8 - 7), vl), vl);
   partial4a = __riscv_vadd_vv_i16m1(partial4a, lines_7, vl);
   partial4b = __riscv_vadd_vv_i16m1(
       partial4b, __riscv_vslidedown_vx_i16m1(lines_6, 7, VL_SLIDE_DOWN), vl);
   tmp1_i16m1 = __riscv_vadd_vv_i16m1(lines_6, lines_7, VL_SLIDE_DOWN);
   partial5a = __riscv_vadd_vv_i16m1(
       partial5a,
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, tmp1_i16m1, (8 - 6), vl), vl);
   partial5b = __riscv_vadd_vv_i16m1(
       partial5b, __riscv_vslidedown_vx_i16m1(tmp1_i16m1, 6, VL_SLIDE_DOWN), vl);
   partial7a = __riscv_vadd_vv_i16m1(
       partial7a,
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, tmp1_i16m1, (8 - 3), vl), vl);
   partial7b = __riscv_vadd_vv_i16m1(
       partial7b, __riscv_vslidedown_vx_i16m1(tmp1_i16m1, 3, VL_SLIDE_DOWN), vl);
   partial6 = __riscv_vadd_vv_i16m1(partial6, tmp1_i16m1, vl);

   // const0 = { 840, 420, 280, 210, }
   vuint32m1_t const0 = __riscv_vmv_s_x_u32m1(210, 4);
   const0 = __riscv_vslide1up_vx_u32m1(const0, 280, 4);
   const0 = __riscv_vslide1up_vx_u32m1(const0, 420, 4);
   const0 = __riscv_vslide1up_vx_u32m1(const0, 840, 4);

   // const1 = { 168, 140, 120, 105, }
   vuint32m1_t const1 = __riscv_vmv_s_x_u32m1(105, 4);
   const1 = __riscv_vslide1up_vx_u32m1(const1, 120, 4);
   const1 = __riscv_vslide1up_vx_u32m1(const1, 140, 4);
   const1 = __riscv_vslide1up_vx_u32m1(const1, 168, 4);

   // const2 = { 0, 0, 420, 210, }
   vuint32m1_t const2 = __riscv_vmv_v_x_u32m1(0, 4);
   const2 = __riscv_vslide1down_vx_u32m1(const2, 420, 4);
   const2 = __riscv_vslide1down_vx_u32m1(const2, 210, 4);

   // const3 = { 140, 105, 105, 105, };
   vuint32m1_t const3 = __riscv_vmv_v_x_u32m1(105, 4);
   const3 = __riscv_vslide1up_vx_u32m1(const3, 140, 4);

   // Compute costs in terms of partial sums.
   vint32m2_t tmp1_i32m2 = __riscv_vwmul_vv_i32m2(partial6, partial6, vl);
   vint32m2_t partial6_s32 = __riscv_vslidedown_vx_i32m2(tmp1_i32m2, 4, vl);
   partial6_s32 = __riscv_vadd_vv_i32m2(partial6_s32, tmp1_i32m2, 4);

   // Reverse partial B.
   // pattern = { 6, 5, 4, 3, 2, 1, 0, 7, }.
   vuint32m1_t costs_0, costs_1, costs_2, costs_3;
   static const uint16_t tab_u16[8] = {
     6, 5, 4, 3, 2, 1, 0, 7,
   };
   vuint16m1_t index_u16m1 = __riscv_vle16_v_u16m1(tab_u16, 8);
   vint16m1_t partial4b_rv =
       __riscv_vrgather_vv_i16m1(partial4b, index_u16m1, 8);
   costs_0 = fold_mul_and_sum_rvv(partial4a, partial4b_rv, const0, const1);
   vuint32m1_t partial6_u32 = __riscv_vreinterpret_v_i32m1_u32m1(
       __riscv_vlmul_trunc_v_i32m2_i32m1(partial6_s32));
   costs_2 = __riscv_vmul_vx_u32m1(partial6_u32, 105, 4);
   vint16m1_t partial5b_rv =
       __riscv_vrgather_vv_i16m1(partial5b, index_u16m1, 8);
   costs_1 = fold_mul_and_sum_rvv(partial5a, partial5b_rv, const2, const3);
   vint16m1_t partial7b_rv =
       __riscv_vrgather_vv_i16m1(partial7b, index_u16m1, 8);
   costs_3 = fold_mul_and_sum_rvv(partial7a, partial7b_rv, const2, const3);

   // combine values
   vuint32m1_t vec_scalar_u32m1 = __riscv_vmv_s_x_u32m1(0, 1);
   vuint32m1_t cost0_sum =
       __riscv_vredsum_vs_u32m1_u32m1(costs_0, vec_scalar_u32m1, 4);
   vuint32m1_t cost1_sum =
       __riscv_vredsum_vs_u32m1_u32m1(costs_1, vec_scalar_u32m1, 4);
   vuint32m1_t cost2_sum =
       __riscv_vredsum_vs_u32m1_u32m1(costs_2, vec_scalar_u32m1, 4);
   vuint32m1_t cost3_sum =
       __riscv_vredsum_vs_u32m1_u32m1(costs_3, vec_scalar_u32m1, 4);

   vuint32m1_t cost47 = __riscv_vslideup_vx_u32m1(cost0_sum, cost1_sum, 1, 4);
   cost47 = __riscv_vslideup_vx_u32m1(cost47, cost2_sum, 2, 4);
   cost47 = __riscv_vslideup_vx_u32m1(cost47, cost3_sum, 3, 4);
   __riscv_vse32_v_u32m1(&cost[0], cost47, 4);
   return cost47;
 }

 static inline vuint32m1_t fold_mul_and_sum_pairwise_rvv(vint16m1_t partiala,
                                                         vint16m1_t partialb,
                                                         vint16m1_t partialc,
                                                         vuint32m1_t const0) {
   vuint16m1_t vid_u16m1 = __riscv_vid_v_u16m1(4);
   vuint16m1_t index_u16m1 = __riscv_vsll_vx_u16m1(vid_u16m1, 1, 4);
   vint16m1_t tmp_i16m1 = __riscv_vslide1down_vx_i16m1(partiala, 0, 8);
   vint32m2_t partiala_i32m2 = __riscv_vwadd_vv_i32m2(partiala, tmp_i16m1, 8);
   tmp_i16m1 = __riscv_vslide1down_vx_i16m1(partialb, 0, 8);
   vint32m2_t partialb_i32m2 = __riscv_vwadd_vv_i32m2(partialb, tmp_i16m1, 8);

   tmp_i16m1 = __riscv_vslide1down_vx_i16m1(partialc, 0, 8);
   vint32m2_t partialc_i32m2 = __riscv_vwadd_vv_i32m2(partialc, tmp_i16m1, 8);
   partiala_i32m2 = __riscv_vmul_vv_i32m2(partiala_i32m2, partiala_i32m2, 8);
   partialb_i32m2 = __riscv_vmul_vv_i32m2(partialb_i32m2, partialb_i32m2, 8);
   vint32m1_t partialb_i32m1 = __riscv_vlmul_trunc_v_i32m2_i32m1(
       __riscv_vrgatherei16_vv_i32m2(partialb_i32m2, index_u16m1, 4));
   partialc_i32m2 = __riscv_vmul_vv_i32m2(partialc_i32m2, partialc_i32m2, 8);
   partiala_i32m2 = __riscv_vadd_vv_i32m2(partiala_i32m2, partialc_i32m2, 8);
   vint32m1_t partiala_i32m1 = __riscv_vlmul_trunc_v_i32m2_i32m1(
       __riscv_vrgatherei16_vv_i32m2(partiala_i32m2, index_u16m1, 4));

   vuint32m1_t cost = __riscv_vmul_vx_u32m1(
       __riscv_vreinterpret_v_i32m1_u32m1(partialb_i32m1), 105, 4);
   cost = __riscv_vmacc_vv_u32m1(
       cost, __riscv_vreinterpret_v_i32m1_u32m1(partiala_i32m1), const0, 4);
   return cost;
 }

 static inline vint32m1_t horizontal_add_4d_s16x8(vint16m1_t lines_0,
                                                  vint16m1_t lines_1,
                                                  vint16m1_t lines_2,
                                                  vint16m1_t lines_3) {
   vint32m1_t vec_scalar_i32m1 = __riscv_vmv_s_x_i32m1(0, 1);
   vint32m1_t lines0_sum =
       __riscv_vwredsum_vs_i16m1_i32m1(lines_0, vec_scalar_i32m1, 8);
   vint32m1_t lines1_sum =
       __riscv_vwredsum_vs_i16m1_i32m1(lines_1, vec_scalar_i32m1, 8);
   vint32m1_t lines2_sum =
       __riscv_vwredsum_vs_i16m1_i32m1(lines_2, vec_scalar_i32m1, 8);
   vint32m1_t lines3_sum =
       __riscv_vwredsum_vs_i16m1_i32m1(lines_3, vec_scalar_i32m1, 8);

   vint32m1_t ret = __riscv_vslideup_vx_i32m1(lines0_sum, lines1_sum, 1, 4);
   ret = __riscv_vslideup_vx_i32m1(ret, lines2_sum, 2, 4);
   ret = __riscv_vslideup_vx_i32m1(ret, lines3_sum, 3, 4);
   return ret;
 }

 // This function computes the cost along directions 0, 1, 2, 3. (0 means
 // 45-degree up-right, 2 is horizontal).
 //
 // For direction 1 and 3 ("east northeast" and "east southeast") the shifted
 // lines need three vectors instead of two. For direction 1 for example, we need
 // to compute the sums along the line i below:
 // 0 0 1 1 2 2 3  3
 // 1 1 2 2 3 3 4  4
 // 2 2 3 3 4 4 5  5
 // 3 3 4 4 5 5 6  6
 // 4 4 5 5 6 6 7  7
 // 5 5 6 6 7 7 8  8
 // 6 6 7 7 8 8 9  9
 // 7 7 8 8 9 9 10 10
 //
 // Which means we need the following configuration:
 // 0 0 1 1 2 2 3 3
 //     1 1 2 2 3 3 4 4
 //         2 2 3 3 4 4 5 5
 //             3 3 4 4 5 5 6 6
 //                 4 4 5 5 6 6 7 7
 //                     5 5 6 6 7 7 8 8
 //                         6 6 7 7 8 8 9 9
 //                             7 7 8 8 9 9 10 10
 //
 // Three vectors are needed to compute this, as well as some extra pairwise
 // additions.
 static vuint32m1_t compute_horiz_directions_rvv(
     vint16m1_t lines_0, vint16m1_t lines_1, vint16m1_t lines_2,
     vint16m1_t lines_3, vint16m1_t lines_4, vint16m1_t lines_5,
     vint16m1_t lines_6, vint16m1_t lines_7, uint32_t cost[4], size_t vl) {
   // Compute diagonal directions (1, 2, 3).
   // Partial sums for lines 0 and 1.
   size_t VL_SLIDE_DOWN = __riscv_vsetvl_e16m1(16);
   vint16m1_t vec_zero_i16m1 = __riscv_vmv_v_x_i16m1(0, vl);
   vint16m1_t partial0a = __riscv_vmv_v_v_i16m1(lines_0, vl);
   partial0a = __riscv_vadd_vv_i16m1(
       partial0a,
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, lines_1, (8 - 7), vl), vl);
   vint16m1_t partial0b = __riscv_vslidedown_vx_i16m1(lines_1, 7, VL_SLIDE_DOWN);
   vint16m1_t partial1a = __riscv_vadd_vv_i16m1(
       lines_0, __riscv_vslideup_vx_i16m1(vec_zero_i16m1, lines_1, (8 - 6), vl),
       vl);
   vint16m1_t partial1b = __riscv_vslidedown_vx_i16m1(lines_1, 6, VL_SLIDE_DOWN);
   vint16m1_t partial3a = __riscv_vslidedown_vx_i16m1(lines_0, 2, VL_SLIDE_DOWN);
   partial3a = __riscv_vadd_vv_i16m1(
       partial3a, __riscv_vslidedown_vx_i16m1(lines_1, 4, VL_SLIDE_DOWN), vl);
   vint16m1_t partial3b =
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, lines_0, (8 - 2), vl);
   partial3b = __riscv_vadd_vv_i16m1(
       partial3b, __riscv_vslideup_vx_i16m1(vec_zero_i16m1, lines_1, 4, vl), vl);

   // Partial sums for lines 2 and 3.
   partial0a = __riscv_vadd_vv_i16m1(
       partial0a,
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, lines_2, (8 - 6), vl), vl);
   partial0a = __riscv_vadd_vv_i16m1(
       partial0a,
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, lines_3, (8 - 5), vl), vl);
   partial0b = __riscv_vadd_vv_i16m1(
       partial0b, __riscv_vslidedown_vx_i16m1(lines_2, 6, VL_SLIDE_DOWN), vl);
   partial0b = __riscv_vadd_vv_i16m1(
       partial0b, __riscv_vslidedown_vx_i16m1(lines_3, 5, VL_SLIDE_DOWN), vl);
   partial1a = __riscv_vadd_vv_i16m1(
       partial1a,
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, lines_2, (8 - 4), vl), vl);
   partial1a = __riscv_vadd_vv_i16m1(
       partial1a,
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, lines_3, (8 - 2), vl), vl);
   partial1b = __riscv_vadd_vv_i16m1(
       partial1b, __riscv_vslidedown_vx_i16m1(lines_2, 4, VL_SLIDE_DOWN), vl);
   partial1b = __riscv_vadd_vv_i16m1(
       partial1b, __riscv_vslidedown_vx_i16m1(lines_3, 2, VL_SLIDE_DOWN), vl);
   partial3a = __riscv_vadd_vv_i16m1(
       partial3a, __riscv_vslidedown_vx_i16m1(lines_2, 6, VL_SLIDE_DOWN), vl);
   partial3b = __riscv_vadd_vv_i16m1(
       partial3b,
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, lines_2, (8 - 6), vl), vl);
   partial3b = __riscv_vadd_vv_i16m1(partial3b, lines_3, vl);

   // Partial sums for lines 4 and 5.
   partial0a = __riscv_vadd_vv_i16m1(
       partial0a,
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, lines_4, (8 - 4), vl), vl);
   partial0a = __riscv_vadd_vv_i16m1(
       partial0a,
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, lines_5, (8 - 3), vl), vl);
   partial0b = __riscv_vadd_vv_i16m1(
       partial0b, __riscv_vslidedown_vx_i16m1(lines_4, 4, VL_SLIDE_DOWN), vl);
   partial0b = __riscv_vadd_vv_i16m1(
       partial0b, __riscv_vslidedown_vx_i16m1(lines_5, 3, VL_SLIDE_DOWN), vl);
   partial1b = __riscv_vadd_vv_i16m1(partial1b, lines_4, vl);
   partial1b = __riscv_vadd_vv_i16m1(
       partial1b,
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, lines_5, (8 - 6), vl), vl);
   vint16m1_t partial1c = __riscv_vslidedown_vx_i16m1(lines_5, 6, VL_SLIDE_DOWN);
   partial3b = __riscv_vadd_vv_i16m1(
       partial3b, __riscv_vslidedown_vx_i16m1(lines_4, 2, VL_SLIDE_DOWN), vl);
   partial3b = __riscv_vadd_vv_i16m1(
       partial3b, __riscv_vslidedown_vx_i16m1(lines_5, 4, VL_SLIDE_DOWN), vl);
   vint16m1_t partial3c =
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, lines_4, (8 - 2), vl);
   partial3c = __riscv_vadd_vv_i16m1(
       partial3c,
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, lines_5, (8 - 4), vl), vl);

   // Partial sums for lines 6 and 7.
   partial0a = __riscv_vadd_vv_i16m1(
       partial0a,
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, lines_6, (8 - 2), vl), vl);
   partial0a = __riscv_vadd_vv_i16m1(
       partial0a,
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, lines_7, (8 - 1), vl), vl);
   partial0b = __riscv_vadd_vv_i16m1(
       partial0b, __riscv_vslidedown_vx_i16m1(lines_6, 2, VL_SLIDE_DOWN), vl);
   partial0b = __riscv_vadd_vv_i16m1(
       partial0b, __riscv_vslide1down_vx_i16m1(lines_7, 0, vl), vl);
   partial1b = __riscv_vadd_vv_i16m1(
       partial1b,
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, lines_6, (8 - 4), vl), vl);
   partial1b = __riscv_vadd_vv_i16m1(
       partial1b,
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, lines_7, (8 - 2), vl), vl);
   partial1c = __riscv_vadd_vv_i16m1(
       partial1c, __riscv_vslidedown_vx_i16m1(lines_6, 4, VL_SLIDE_DOWN), vl);
   partial1c = __riscv_vadd_vv_i16m1(
       partial1c, __riscv_vslidedown_vx_i16m1(lines_7, 2, VL_SLIDE_DOWN), vl);
   partial3b = __riscv_vadd_vv_i16m1(
       partial3b, __riscv_vslidedown_vx_i16m1(lines_6, 6, VL_SLIDE_DOWN), vl);
   partial3c = __riscv_vadd_vv_i16m1(
       partial3c,
       __riscv_vslideup_vx_i16m1(vec_zero_i16m1, lines_6, (8 - 6), vl), vl);
   partial3c = __riscv_vadd_vv_i16m1(partial3c, lines_7, vl);

   // Special case for direction 2 as it's just a sum along each line.
   vint32m1_t partial2a =
       horizontal_add_4d_s16x8(lines_0, lines_1, lines_2, lines_3);
   vint32m1_t partial2b =
       horizontal_add_4d_s16x8(lines_4, lines_5, lines_6, lines_7);
   vuint32m1_t partial2a_u32 = __riscv_vreinterpret_v_i32m1_u32m1(
       __riscv_vmul_vv_i32m1(partial2a, partial2a, 4));
   vuint32m1_t partial2b_u32 = __riscv_vreinterpret_v_i32m1_u32m1(
       __riscv_vmul_vv_i32m1(partial2b, partial2b, 4));

   // const0 = { 840, 420, 280, 210, }
   vuint32m1_t const0 = __riscv_vmv_s_x_u32m1(210, 4);
   const0 = __riscv_vslide1up_vx_u32m1(const0, 280, 4);
   const0 = __riscv_vslide1up_vx_u32m1(const0, 420, 4);
   const0 = __riscv_vslide1up_vx_u32m1(const0, 840, 4);

   // const1 = { 168, 140, 120, 105, }
   vuint32m1_t const1 = __riscv_vmv_s_x_u32m1(105, 4);
   const1 = __riscv_vslide1up_vx_u32m1(const1, 120, 4);
   const1 = __riscv_vslide1up_vx_u32m1(const1, 140, 4);
   const1 = __riscv_vslide1up_vx_u32m1(const1, 168, 4);

   // const2 = { 420, 210, 140, 105, };
   vuint32m1_t const2 = __riscv_vmv_s_x_u32m1(105, 4);
   const2 = __riscv_vslide1up_vx_u32m1(const2, 140, 4);
   const2 = __riscv_vslide1up_vx_u32m1(const2, 210, 4);
   const2 = __riscv_vslide1up_vx_u32m1(const2, 420, 4);

   static const uint16_t tab_u16[8] = {
     0, 6, 5, 4, 3, 2, 1, 0,
   };
   vuint32m1_t costs_0, costs_1, costs_2, costs_3;
   vuint16m1_t template_u16m1 = __riscv_vle16_v_u16m1(tab_u16, 8);

   // Reverse partial c.
   // pattern = { 6, 5, 4, 3, 2, 1, 0, 7, }
   vuint16m1_t index_u16m1 = __riscv_vslide1down_vx_u16m1(template_u16m1, 7, 8);
   vint16m1_t partial0b_rv =
       __riscv_vrgather_vv_i16m1(partial0b, index_u16m1, 8);
   costs_0 = fold_mul_and_sum_rvv(partial0a, partial0b_rv, const0, const1);

   // Reverse partial c.
   // pattern = { 5, 4, 3, 2, 1, 0, 6, 7, }
   vuint16m1_t index_pair_u16m1 =
       __riscv_vslide1down_vx_u16m1(template_u16m1, 6, 8);
   index_pair_u16m1 = __riscv_vslide1down_vx_u16m1(index_pair_u16m1, 7, 8);
   vint16m1_t partialc_rv =
       __riscv_vrgather_vv_i16m1(partial1c, index_pair_u16m1, 8);
   costs_1 =
       fold_mul_and_sum_pairwise_rvv(partial1a, partial1b, partialc_rv, const2);

   costs_2 = __riscv_vadd_vv_u32m1(partial2a_u32, partial2b_u32, 4);
   costs_2 = __riscv_vmul_vx_u32m1(costs_2, 105, 4);

   vint16m1_t partial3a_rv =
       __riscv_vrgather_vv_i16m1(partial3a, index_pair_u16m1, 8);
   costs_3 =
       fold_mul_and_sum_pairwise_rvv(partial3c, partial3b, partial3a_rv, const2);

   // combine values
   vuint32m1_t vec_scalar_u32m1 = __riscv_vmv_s_x_u32m1(0, 1);
   vuint32m1_t cost0_sum =
       __riscv_vredsum_vs_u32m1_u32m1(costs_0, vec_scalar_u32m1, 4);
   vuint32m1_t cost1_sum =
       __riscv_vredsum_vs_u32m1_u32m1(costs_1, vec_scalar_u32m1, 4);
   vuint32m1_t cost2_sum =
       __riscv_vredsum_vs_u32m1_u32m1(costs_2, vec_scalar_u32m1, 4);
   vuint32m1_t cost3_sum =
       __riscv_vredsum_vs_u32m1_u32m1(costs_3, vec_scalar_u32m1, 4);

   costs_0 = __riscv_vslideup_vx_u32m1(cost0_sum, cost1_sum, 1, 4);
   costs_0 = __riscv_vslideup_vx_u32m1(costs_0, cost2_sum, 2, 4);
   costs_0 = __riscv_vslideup_vx_u32m1(costs_0, cost3_sum, 3, 4);
   __riscv_vse32_v_u32m1(&cost[0], costs_0, 4);
   return costs_0;
 }

 int cdef_find_dir_rvv(const uint16_t *img, int stride, int32_t *var,
                       int coeff_shift) {
   size_t vl = 8;
   size_t vlmax = __riscv_vsetvlmax_e16m1();
   vuint16m1_t s;
   vint16m1_t lines_0, lines_1, lines_2, lines_3;
   vint16m1_t lines_4, lines_5, lines_6, lines_7;
   vuint16m1_t vec_zero_u16m1 =
       __riscv_vmv_v_x_u16m1(0, __riscv_vsetvl_e16m1(16));

   if (vlmax == 8)
     s = __riscv_vle16_v_u16m1(img, vl);
   else
     s = __riscv_vle16_v_u16m1_tu(vec_zero_u16m1, img, vl);
   lines_0 = __riscv_vreinterpret_v_u16m1_i16m1(
       __riscv_vsrl_vx_u16m1(s, coeff_shift, vl));
   lines_0 = __riscv_vsub_vx_i16m1(lines_0, 128, vl);

   img += stride;
   if (vlmax == 8)
     s = __riscv_vle16_v_u16m1(img, vl);
   else
     s = __riscv_vle16_v_u16m1_tu(vec_zero_u16m1, img, vl);
   lines_1 = __riscv_vreinterpret_v_u16m1_i16m1(
       __riscv_vsrl_vx_u16m1(s, coeff_shift, vl));
   lines_1 = __riscv_vsub_vx_i16m1(lines_1, 128, vl);

   img += stride;
   if (vlmax == 8)
     s = __riscv_vle16_v_u16m1(img, vl);
   else
     s = __riscv_vle16_v_u16m1_tu(vec_zero_u16m1, img, vl);
   lines_2 = __riscv_vreinterpret_v_u16m1_i16m1(
       __riscv_vsrl_vx_u16m1(s, coeff_shift, vl));
   lines_2 = __riscv_vsub_vx_i16m1(lines_2, 128, vl);

   img += stride;
   if (vlmax == 8)
     s = __riscv_vle16_v_u16m1(img, vl);
   else
     s = __riscv_vle16_v_u16m1_tu(vec_zero_u16m1, img, vl);
   lines_3 = __riscv_vreinterpret_v_u16m1_i16m1(
       __riscv_vsrl_vx_u16m1(s, coeff_shift, vl));
   lines_3 = __riscv_vsub_vx_i16m1(lines_3, 128, vl);

   img += stride;
   if (vlmax == 8)
     s = __riscv_vle16_v_u16m1(img, vl);
   else
     s = __riscv_vle16_v_u16m1_tu(vec_zero_u16m1, img, vl);
   lines_4 = __riscv_vreinterpret_v_u16m1_i16m1(
       __riscv_vsrl_vx_u16m1(s, coeff_shift, vl));
   lines_4 = __riscv_vsub_vx_i16m1(lines_4, 128, vl);

   img += stride;
   if (vlmax == 8)
     s = __riscv_vle16_v_u16m1(img, vl);
   else
     s = __riscv_vle16_v_u16m1_tu(vec_zero_u16m1, img, vl);
   lines_5 = __riscv_vreinterpret_v_u16m1_i16m1(
       __riscv_vsrl_vx_u16m1(s, coeff_shift, vl));
   lines_5 = __riscv_vsub_vx_i16m1(lines_5, 128, vl);

   img += stride;
   if (vlmax == 8)
     s = __riscv_vle16_v_u16m1(img, vl);
   else
     s = __riscv_vle16_v_u16m1_tu(vec_zero_u16m1, img, vl);
   lines_6 = __riscv_vreinterpret_v_u16m1_i16m1(
       __riscv_vsrl_vx_u16m1(s, coeff_shift, vl));
   lines_6 = __riscv_vsub_vx_i16m1(lines_6, 128, vl);

   img += stride;
   if (vlmax == 8)
     s = __riscv_vle16_v_u16m1(img, vl);
   else
     s = __riscv_vle16_v_u16m1_tu(vec_zero_u16m1, img, vl);
   lines_7 = __riscv_vreinterpret_v_u16m1_i16m1(
       __riscv_vsrl_vx_u16m1(s, coeff_shift, vl));
   lines_7 = __riscv_vsub_vx_i16m1(lines_7, 128, vl);

   // Compute "mostly vertical" directions.
   uint32_t cost[8];
   vuint32m1_t cost47 =
       compute_vert_directions_rvv(lines_0, lines_1, lines_2, lines_3, lines_4,
                                   lines_5, lines_6, lines_7, cost + 4, vl);

   // Compute "mostly horizontal" directions.
   vuint32m1_t cost03 =
       compute_horiz_directions_rvv(lines_0, lines_1, lines_2, lines_3, lines_4,
                                    lines_5, lines_6, lines_7, cost, vl);

   // Find max cost as well as its index to get best_dir.
   // The max cost needs to be propagated in the whole vector to find its
   // position in the original cost vectors cost03 and cost47.
   vuint32m1_t vec_scalar_u32m1 = __riscv_vmv_s_x_u32m1(0, 1);
   vuint32m1_t cost07 = __riscv_vmaxu_vv_u32m1(cost03, cost47, 4);
   uint32_t best_cost = __riscv_vmv_x_s_u32m1_u32(
       __riscv_vredmaxu_vs_u32m1_u32m1(cost07, vec_scalar_u32m1, 4));
   vbool32_t mask_cost = __riscv_vmseq_vx_u32m1_b32(cost03, best_cost, 4);
   long best_dir = __riscv_vfirst_m_b32(mask_cost, 4);
   if (best_dir == -1) {
     mask_cost = __riscv_vmseq_vx_u32m1_b32(cost47, best_cost, 4);
     best_dir = __riscv_vfirst_m_b32(mask_cost, 4);
     best_dir += 4;
   }

   // Difference between the optimal variance and the variance along the
   // orthogonal direction. Again, the sum(x^2) terms cancel out.
   *var = best_cost - cost[(best_dir + 4) & 7];

   // We'd normally divide by 840, but dividing by 1024 is close enough
   // for what we're going to do with this.
   *var >>= 10;
   return (int)best_dir;
 }

 void cdef_copy_rect8_8bit_to_16bit_rvv(uint16_t *dst, int dstride,
                                        const uint8_t *src, int sstride,
                                        int width, int height) {
   do {
     int w = 0;
     size_t num_cols = width;
     while (num_cols > 0) {
       size_t vl = __riscv_vsetvl_e8mf2(num_cols);
       vuint8mf2_t u8_src = __riscv_vle8_v_u8mf2(src + w, vl);
       vuint16m1_t u16_src = __riscv_vwcvtu_x_x_v_u16m1(u8_src, vl);
       __riscv_vse16_v_u16m1(dst + w, u16_src, vl);

       w += vl;
       num_cols -= vl;
     }
     src += sstride;
     dst += dstride;
   } while (--height != 0);
 }

 void cdef_copy_rect8_16bit_to_16bit_rvv(uint16_t *dst, int dstride,
                                         const uint16_t *src, int sstride,
                                         int width, int height) {
   do {
     int w = 0;
     size_t num_cols = width;
     while (num_cols > 0) {
       size_t vl = __riscv_vsetvl_e16m1(num_cols);
       vuint16m1_t u16_src = __riscv_vle16_v_u16m1(src + w, vl);
       __riscv_vse16_v_u16m1(dst + w, u16_src, vl);

       w += vl;
       num_cols -= vl;
     }
     src += sstride;
     dst += dstride;
   } while (--height != 0);
 }

 static inline vint16m1_t constrain16(vint16m1_t a, vint16m1_t b,
                                      int16_t threshold, int16_t adjdamp,
                                      size_t vl) {
   if (!threshold) return __riscv_vmv_v_x_i16m1(0, vl);
   const vbool16_t mask = __riscv_vmslt_vv_i16m1_b16(a, b, vl);
   const vint16m1_t diff = __riscv_vsub_vv_i16m1(a, b, vl);
   const vint16m1_t abs_diff = __riscv_vneg_v_i16m1_tumu(mask, diff, diff, vl);
   const vint16m1_t shift = __riscv_vsra_vx_i16m1(abs_diff, adjdamp, vl);
   const vint16m1_t thr = __riscv_vmv_v_x_i16m1(threshold, vl);
   const vint16m1_t sub = __riscv_vsub_vv_i16m1(thr, shift, vl);
   const vint16m1_t max = __riscv_vmax_vx_i16m1(sub, 0, vl);
   const vint16m1_t min = __riscv_vmin_vv_i16m1(abs_diff, max, vl);
   return __riscv_vneg_v_i16m1_tumu(mask, min, min, vl);
 }

 static inline vint16m1_t vmax_mask(vint16m1_t a, vint16m1_t b, size_t vl) {
   const vbool16_t mask =
       __riscv_vmseq_vx_i16m1_b16(a, (int16_t)CDEF_VERY_LARGE, vl);
   const vint16m1_t val = __riscv_vmerge_vvm_i16m1(a, b, mask, vl);
   return __riscv_vmax_vv_i16m1(val, b, vl);
 }

 static inline vint16m1_t load_strided_i16_4x2(int16_t *addr,
                                               const ptrdiff_t stride,
                                               size_t vl) {
   const vint16m1_t px_l1 = __riscv_vle16_v_i16m1(addr + stride, vl);
   const vint16m1_t px_l0 = __riscv_vle16_v_i16m1(addr, vl);
   return __riscv_vslideup_vx_i16m1(px_l0, px_l1, 4, vl);
 }

 static inline void store_strided_u8_4x2(uint8_t *addr, vuint8mf2_t vdst,
                                         const ptrdiff_t stride, size_t vl) {
   __riscv_vse8_v_u8mf2(addr, vdst, vl >> 1);
   vdst = __riscv_vslidedown_vx_u8mf2(vdst, 4, vl);
   __riscv_vse8_v_u8mf2(addr + stride, vdst, vl >> 1);
 }

 static inline void store_strided_u16_4x2(uint16_t *addr, vuint16m1_t vdst,
                                          const ptrdiff_t stride, size_t vl) {
   __riscv_vse16_v_u16m1(addr, vdst, vl >> 1);
   vdst = __riscv_vslidedown_vx_u16m1(vdst, 4, vl);
   __riscv_vse16_v_u16m1(addr + stride, vdst, vl >> 1);
 }

 #define LOAD_PIX(addr)                                              \
   const vint16m1_t px = __riscv_vle16_v_i16m1((int16_t *)addr, vl); \
   vint16m1_t sum = __riscv_vmv_v_x_i16m1(0, vl)

 #define LOAD_PIX4(addr)                                        \
   const vint16m1_t px =                                        \
       load_strided_i16_4x2((int16_t *)addr, CDEF_BSTRIDE, vl); \
   vint16m1_t sum = __riscv_vmv_v_x_i16m1(0, vl)

 #define LOAD_DIR(p, addr, o0, o1)                                          \
   const vint16m1_t p##0 = __riscv_vle16_v_i16m1((int16_t *)addr + o0, vl); \
   const vint16m1_t p##1 = __riscv_vle16_v_i16m1((int16_t *)addr - o0, vl); \
   const vint16m1_t p##2 = __riscv_vle16_v_i16m1((int16_t *)addr + o1, vl); \
   const vint16m1_t p##3 = __riscv_vle16_v_i16m1((int16_t *)addr - o1, vl)

 #define LOAD_DIR4(p, addr, o0, o1)                                  \
   const vint16m1_t p##0 =                                           \
       load_strided_i16_4x2((int16_t *)addr + o0, CDEF_BSTRIDE, vl); \
   const vint16m1_t p##1 =                                           \
       load_strided_i16_4x2((int16_t *)addr - o0, CDEF_BSTRIDE, vl); \
   const vint16m1_t p##2 =                                           \
       load_strided_i16_4x2((int16_t *)addr + o1, CDEF_BSTRIDE, vl); \
   const vint16m1_t p##3 =                                           \
       load_strided_i16_4x2((int16_t *)addr - o1, CDEF_BSTRIDE, vl)

 #define MAKE_TAPS                                                         \
   const int *pri_taps = cdef_pri_taps[(pri_strength >> coeff_shift) & 1]; \
   const int16_t tap0 = (int16_t)(pri_taps[0]);                            \
   const int16_t tap1 = (int16_t)(pri_taps[1])

 #define CONSTRAIN(p, strength, shift)                               \
   vint16m1_t p##_c0 =                                               \
       constrain16(p##0, px, (int16_t)strength, (int16_t)shift, vl); \
   vint16m1_t p##_c1 =                                               \
       constrain16(p##1, px, (int16_t)strength, (int16_t)shift, vl); \
   vint16m1_t p##_c2 =                                               \
       constrain16(p##2, px, (int16_t)strength, (int16_t)shift, vl); \
   vint16m1_t p##_c3 =                                               \
       constrain16(p##3, px, (int16_t)strength, (int16_t)shift, vl)

 #define SETUP_MINMAX   \
   vint16m1_t max = px; \
   vint16m1_t min = px

 #define MIN_MAX(p)                              \
   do {                                          \
     max = vmax_mask(p##0, max, vl);             \
     min = __riscv_vmin_vv_i16m1(p##0, min, vl); \
     max = vmax_mask(p##1, max, vl);             \
     min = __riscv_vmin_vv_i16m1(p##1, min, vl); \
     max = vmax_mask(p##2, max, vl);             \
     min = __riscv_vmin_vv_i16m1(p##2, min, vl); \
     max = vmax_mask(p##3, max, vl);             \
     min = __riscv_vmin_vv_i16m1(p##3, min, vl); \
   } while (0)

 #define PRI_0_UPDATE_SUM(p)                                             \
   const vint16m1_t p##sum0 = __riscv_vadd_vv_i16m1(p##_c0, p##_c1, vl); \
   const vint16m1_t p##sum1 = __riscv_vadd_vv_i16m1(p##_c2, p##_c3, vl); \
   sum = __riscv_vmacc_vx_i16m1(sum, tap0, p##sum0, vl);                 \
   sum = __riscv_vmacc_vx_i16m1(sum, tap1, p##sum1, vl)

 #define UPDATE_SUM(p)                                                   \
   const vint16m1_t p##sum0 = __riscv_vadd_vv_i16m1(p##_c0, p##_c1, vl); \
   const vint16m1_t p##sum1 = __riscv_vadd_vv_i16m1(p##_c2, p##_c3, vl); \
   sum = __riscv_vadd_vv_i16m1(sum, p##sum0, vl);                        \
   sum = __riscv_vadd_vv_i16m1(sum, p##sum1, vl)

 #define SEC_0_UPDATE_SUM(p)                                               \
   const vint16m1_t p##sum0 = __riscv_vadd_vv_i16m1(p##_c0, p##_c1, vl);   \
   const vint16m1_t p##sum1 = __riscv_vadd_vv_i16m1(p##_c2, p##_c3, vl);   \
   const vint16m1_t p##sum2 = __riscv_vadd_vv_i16m1(p##sum0, p##sum1, vl); \
   sum = __riscv_vadd_vv_i16m1(sum, __riscv_vsll_vx_i16m1(p##sum2, 1, vl), vl)

 #define BIAS                                                                  \
   const vbool16_t mask = __riscv_vmslt_vx_i16m1_b16(sum, 0, vl);              \
   const vint16m1_t v_8 = __riscv_vmv_v_x_i16m1(8, vl);                        \
   const vint16m1_t bias = __riscv_vsub_vx_i16m1_tumu(mask, v_8, v_8, 1, vl);  \
   const vint16m1_t unclamped = __riscv_vadd_vv_i16m1(                         \
       px, __riscv_vsra_vx_i16m1(__riscv_vadd_vv_i16m1(bias, sum, vl), 4, vl), \
       vl)

 #define STORE4                                     \
   do {                                             \
     store_strided_u8_4x2(dst8, vdst, dstride, vl); \
                                                    \
     in += (CDEF_BSTRIDE << 1);                     \
     dst8 += (dstride << 1);                        \
   } while (0)

 #define STORE4_CLAMPED                                       \
   do {                                                       \
     BIAS;                                                    \
     vint16m1_t clamped = __riscv_vmin_vv_i16m1(              \
         __riscv_vmax_vv_i16m1(unclamped, min, vl), max, vl); \
     vuint8mf2_t vdst = __riscv_vncvt_x_x_w_u8mf2(            \
         __riscv_vreinterpret_v_i16m1_u16m1(clamped), vl);    \
     STORE4;                                                  \
   } while (0)

 #define STORE4_UNCLAMPED                                    \
   do {                                                      \
     BIAS;                                                   \
     vuint8mf2_t vdst = __riscv_vncvt_x_x_w_u8mf2(           \
         __riscv_vreinterpret_v_i16m1_u16m1(unclamped), vl); \
     STORE4;                                                 \
   } while (0)

 #define STORE8                            \
   do {                                    \
     __riscv_vse8_v_u8mf2(dst8, vdst, vl); \
                                           \
     in += CDEF_BSTRIDE;                   \
     dst8 += dstride;                      \
   } while (0)

 #define STORE8_CLAMPED                                       \
   do {                                                       \
     BIAS;                                                    \
     vint16m1_t clamped = __riscv_vmin_vv_i16m1(              \
         __riscv_vmax_vv_i16m1(unclamped, min, vl), max, vl); \
     vuint8mf2_t vdst = __riscv_vncvt_x_x_w_u8mf2(            \
         __riscv_vreinterpret_v_i16m1_u16m1(clamped), vl);    \
     STORE8;                                                  \
   } while (0)

 #define STORE8_UNCLAMPED                                    \
   do {                                                      \
     BIAS;                                                   \
     vuint8mf2_t vdst = __riscv_vncvt_x_x_w_u8mf2(           \
         __riscv_vreinterpret_v_i16m1_u16m1(unclamped), vl); \
     STORE8;                                                 \
   } while (0)

 #define STORE16_4                                    \
   do {                                               \
     store_strided_u16_4x2(dst16, vdst, dstride, vl); \
                                                      \
     in += (CDEF_BSTRIDE << 1);                       \
     dst16 += (dstride << 1);                         \
   } while (0)

 #define STORE16_4_CLAMPED                                           \
   do {                                                              \
     BIAS;                                                           \
     vint16m1_t clamped = __riscv_vmin_vv_i16m1(                     \
         __riscv_vmax_vv_i16m1(unclamped, min, vl), max, vl);        \
     vuint16m1_t vdst = __riscv_vreinterpret_v_i16m1_u16m1(clamped); \
     STORE16_4;                                                      \
   } while (0)

 #define STORE16_4_UNCLAMPED                                           \
   do {                                                                \
     BIAS;                                                             \
     vuint16m1_t vdst = __riscv_vreinterpret_v_i16m1_u16m1(unclamped); \
     STORE16_4;                                                        \
   } while (0)

 #define STORE16                             \
   do {                                      \
     __riscv_vse16_v_u16m1(dst16, vdst, vl); \
                                             \
     in += CDEF_BSTRIDE;                     \
     dst16 += dstride;                       \
   } while (0)

 #define STORE16_CLAMPED                                             \
   do {                                                              \
     BIAS;                                                           \
     vint16m1_t clamped = __riscv_vmin_vv_i16m1(                     \
         __riscv_vmax_vv_i16m1(unclamped, min, vl), max, vl);        \
     vuint16m1_t vdst = __riscv_vreinterpret_v_i16m1_u16m1(clamped); \
     STORE16;                                                        \
   } while (0)

 #define STORE16_UNCLAMPED                                             \
   do {                                                                \
     BIAS;                                                             \
     vuint16m1_t vdst = __riscv_vreinterpret_v_i16m1_u16m1(unclamped); \
     STORE16;                                                          \
   } while (0)

 void cdef_filter_8_0_rvv(void *dest, int dstride, const uint16_t *in,
                          int pri_strength, int sec_strength, int dir,
                          int pri_damping, int sec_damping, int coeff_shift,
                          int block_width, int block_height) {
   const int po1 = cdef_directions[dir][0];
   const int po2 = cdef_directions[dir][1];
   const int s1o1 = cdef_directions[dir + 2][0];
   const int s1o2 = cdef_directions[dir + 2][1];
   const int s2o1 = cdef_directions[dir - 2][0];
   const int s2o2 = cdef_directions[dir - 2][1];
   MAKE_TAPS;

   if (pri_strength) {
     pri_damping = AOMMAX(0, pri_damping - get_msb(pri_strength));
   }
   if (sec_strength) {
     sec_damping = AOMMAX(0, sec_damping - get_msb(sec_strength));
   }

   if (block_width == 8) {
     uint8_t *dst8 = (uint8_t *)dest;

     int h = block_height;
     const size_t vl = block_width;
     do {
       LOAD_PIX(in);
       SETUP_MINMAX;

       // Primary pass
       LOAD_DIR(p, in, po1, po2);
       CONSTRAIN(p, pri_strength, pri_damping);
       MIN_MAX(p);
       PRI_0_UPDATE_SUM(p);

       // Secondary pass 1
       LOAD_DIR(s, in, s1o1, s2o1);
       CONSTRAIN(s, sec_strength, sec_damping);
       MIN_MAX(s);
       SEC_0_UPDATE_SUM(s);

       // Secondary pass 2
       LOAD_DIR(s2, in, s1o2, s2o2);
       CONSTRAIN(s2, sec_strength, sec_damping);
       MIN_MAX(s2);
       UPDATE_SUM(s2);

       // Store
       STORE8_CLAMPED;
     } while (--h != 0);
   } else {
     uint8_t *dst8 = (uint8_t *)dest;

     int h = block_height;
     const size_t vl = block_width << 1;
     do {
       LOAD_PIX4(in);
       SETUP_MINMAX;

       // Primary pass
       LOAD_DIR4(p, in, po1, po2);
       CONSTRAIN(p, pri_strength, pri_damping);
       MIN_MAX(p);
       PRI_0_UPDATE_SUM(p);

       // Secondary pass 1
       LOAD_DIR4(s, in, s1o1, s2o1);
       CONSTRAIN(s, sec_strength, sec_damping);
       MIN_MAX(s);
       SEC_0_UPDATE_SUM(s);

       // Secondary pass 2
       LOAD_DIR4(s2, in, s1o2, s2o2);
       CONSTRAIN(s2, sec_strength, sec_damping);
       MIN_MAX(s2);
       UPDATE_SUM(s2);

       // Store
       STORE4_CLAMPED;

       h -= 2;
     } while (h != 0);
   }
 }

 void cdef_filter_8_1_rvv(void *dest, int dstride, const uint16_t *in,
                          int pri_strength, int sec_strength, int dir,
                          int pri_damping, int sec_damping, int coeff_shift,
                          int block_width, int block_height) {
   (void)sec_strength;
   (void)sec_damping;

   const int po1 = cdef_directions[dir][0];
   const int po2 = cdef_directions[dir][1];
   MAKE_TAPS;

   if (pri_strength) {
     pri_damping = AOMMAX(0, pri_damping - get_msb(pri_strength));
   }

   if (block_width == 8) {
     uint8_t *dst8 = (uint8_t *)dest;

     int h = block_height;
     const size_t vl = block_width;
     do {
       LOAD_PIX(in);

       // Primary pass
       LOAD_DIR(p, in, po1, po2);
       CONSTRAIN(p, pri_strength, pri_damping);
       PRI_0_UPDATE_SUM(p);

       // Store
       STORE8_UNCLAMPED;
     } while (--h != 0);
   } else {
     uint8_t *dst8 = (uint8_t *)dest;

     int h = block_height;
     const size_t vl = block_width << 1;
     do {
       LOAD_PIX4(in);

       // Primary pass
       LOAD_DIR4(p, in, po1, po2);
       CONSTRAIN(p, pri_strength, pri_damping);
       PRI_0_UPDATE_SUM(p);

       // Store
       STORE4_UNCLAMPED;

       h -= 2;
     } while (h != 0);
   }
 }

 void cdef_filter_8_2_rvv(void *dest, int dstride, const uint16_t *in,
                          int pri_strength, int sec_strength, int dir,
                          int pri_damping, int sec_damping, int coeff_shift,
                          int block_width, int block_height) {
   (void)pri_strength;
   (void)pri_damping;
   (void)coeff_shift;

   const int s1o1 = cdef_directions[dir + 2][0];
   const int s1o2 = cdef_directions[dir + 2][1];
   const int s2o1 = cdef_directions[dir - 2][0];
   const int s2o2 = cdef_directions[dir - 2][1];

   if (sec_strength) {
     sec_damping = AOMMAX(0, sec_damping - get_msb(sec_strength));
   }

   if (block_width == 8) {
     uint8_t *dst8 = (uint8_t *)dest;

     int h = block_height;
     const size_t vl = block_width;
     do {
       LOAD_PIX(in);

       // Secondary pass 1
       LOAD_DIR(s, in, s1o1, s2o1);
       CONSTRAIN(s, sec_strength, sec_damping);
       SEC_0_UPDATE_SUM(s);

       // Secondary pass 2
       LOAD_DIR(s2, in, s1o2, s2o2);
       CONSTRAIN(s2, sec_strength, sec_damping);
       UPDATE_SUM(s2);

       // Store
       STORE8_UNCLAMPED;
     } while (--h != 0);
   } else {
     uint8_t *dst8 = (uint8_t *)dest;

     int h = block_height;
     const size_t vl = block_width << 1;
     do {
       LOAD_PIX4(in);

       // Secondary pass 1
       LOAD_DIR4(s, in, s1o1, s2o1);
       CONSTRAIN(s, sec_strength, sec_damping);
       SEC_0_UPDATE_SUM(s);

       // Secondary pass 2
       LOAD_DIR4(s2, in, s1o2, s2o2);
       CONSTRAIN(s2, sec_strength, sec_damping);
       UPDATE_SUM(s2);

       // Store
       STORE4_UNCLAMPED;

       h -= 2;
     } while (h != 0);
   }
 }

 void cdef_filter_8_3_rvv(void *dest, int dstride, const uint16_t *in,
                          int pri_strength, int sec_strength, int dir,
                          int pri_damping, int sec_damping, int coeff_shift,
                          int block_width, int block_height) {
   (void)pri_strength;
   (void)sec_strength;
   (void)dir;
   (void)pri_damping;
   (void)sec_damping;
   (void)coeff_shift;

   if (block_width == 8) {
     uint8_t *dst8 = (uint8_t *)dest;

     int h = block_height;
     const size_t vl = block_width;
     do {
       const vuint16m1_t px = __riscv_vle16_v_u16m1(in, vl);
       const vuint8mf2_t vdst = __riscv_vncvt_x_x_w_u8mf2(px, vl);
       __riscv_vse8_v_u8mf2(dst8, vdst, vl);

       in += CDEF_BSTRIDE;
       dst8 += dstride;
     } while (--h != 0);
   } else {
     uint8_t *dst8 = (uint8_t *)dest;

     int h = block_height;
     const size_t vl = block_width << 1;
     do {
       const vint16m1_t px =
           load_strided_i16_4x2((int16_t *)in, CDEF_BSTRIDE, vl);
       vuint8mf2_t vdst =
           __riscv_vncvt_x_x_w_u8mf2(__riscv_vreinterpret_v_i16m1_u16m1(px), vl);
       store_strided_u8_4x2(dst8, vdst, dstride, vl);

       in += 2 * CDEF_BSTRIDE;
       dst8 += 2 * dstride;
       h -= 2;
     } while (h != 0);
   }
 }

 void cdef_filter_16_0_rvv(void *dest, int dstride, const uint16_t *in,
                           int pri_strength, int sec_strength, int dir,
                           int pri_damping, int sec_damping, int coeff_shift,
                           int block_width, int block_height) {
   const int po1 = cdef_directions[dir][0];
   const int po2 = cdef_directions[dir][1];
   const int s1o1 = cdef_directions[dir + 2][0];
   const int s1o2 = cdef_directions[dir + 2][1];
   const int s2o1 = cdef_directions[dir - 2][0];
   const int s2o2 = cdef_directions[dir - 2][1];
   MAKE_TAPS;

   if (pri_strength) {
     pri_damping = AOMMAX(0, pri_damping - get_msb(pri_strength));
   }
   if (sec_strength) {
     sec_damping = AOMMAX(0, sec_damping - get_msb(sec_strength));
   }

   if (block_width == 8) {
     uint16_t *dst16 = (uint16_t *)dest;

     int h = block_height;
     const size_t vl = block_width;
     do {
       LOAD_PIX(in);
       SETUP_MINMAX;

       // Primary pass
       LOAD_DIR(p, in, po1, po2);
       CONSTRAIN(p, pri_strength, pri_damping);
       MIN_MAX(p);
       PRI_0_UPDATE_SUM(p);

       // Secondary pass 1
       LOAD_DIR(s, in, s1o1, s2o1);
       CONSTRAIN(s, sec_strength, sec_damping);
       MIN_MAX(s);
       SEC_0_UPDATE_SUM(s);

       // Secondary pass 2
       LOAD_DIR(s2, in, s1o2, s2o2);
       CONSTRAIN(s2, sec_strength, sec_damping);
       MIN_MAX(s2);
       UPDATE_SUM(s2);

       // Store
       STORE16_CLAMPED;
     } while (--h != 0);
   } else {
     uint16_t *dst16 = (uint16_t *)dest;

     int h = block_height;
     const size_t vl = block_width << 1;
     do {
       LOAD_PIX4(in);
       SETUP_MINMAX;

       // Primary pass
       LOAD_DIR4(p, in, po1, po2);
       CONSTRAIN(p, pri_strength, pri_damping);
       MIN_MAX(p);
       PRI_0_UPDATE_SUM(p);

       // Secondary pass 1
       LOAD_DIR4(s, in, s1o1, s2o1);
       CONSTRAIN(s, sec_strength, sec_damping);
       MIN_MAX(s);
       SEC_0_UPDATE_SUM(s);

       // Secondary pass 2
       LOAD_DIR4(s2, in, s1o2, s2o2);
       CONSTRAIN(s2, sec_strength, sec_damping);
       MIN_MAX(s2);
       UPDATE_SUM(s2);

       // Store
       STORE16_4_CLAMPED;

       h -= 2;
     } while (h != 0);
   }
 }

 void cdef_filter_16_1_rvv(void *dest, int dstride, const uint16_t *in,
                           int pri_strength, int sec_strength, int dir,
                           int pri_damping, int sec_damping, int coeff_shift,
                           int block_width, int block_height) {
   (void)sec_strength;
   (void)sec_damping;

   const int po1 = cdef_directions[dir][0];
   const int po2 = cdef_directions[dir][1];
   MAKE_TAPS;

   if (pri_strength) {
     pri_damping = AOMMAX(0, pri_damping - get_msb(pri_strength));
   }

   if (block_width == 8) {
     uint16_t *dst16 = (uint16_t *)dest;

     int h = block_height;
     const size_t vl = block_width;
     do {
       LOAD_PIX(in);

       // Primary pass
       LOAD_DIR(p, in, po1, po2);
       CONSTRAIN(p, pri_strength, pri_damping);
       PRI_0_UPDATE_SUM(p);

       // Store
       STORE16_UNCLAMPED;
     } while (--h != 0);
   } else {
     uint16_t *dst16 = (uint16_t *)dest;

     int h = block_height;
     const size_t vl = block_width << 1;
     do {
       LOAD_PIX4(in);

       // Primary pass
       LOAD_DIR4(p, in, po1, po2);
       CONSTRAIN(p, pri_strength, pri_damping);
       PRI_0_UPDATE_SUM(p);

       // Store
       STORE16_4_UNCLAMPED;

       h -= 2;
     } while (h != 0);
   }
 }

 void cdef_filter_16_2_rvv(void *dest, int dstride, const uint16_t *in,
                           int pri_strength, int sec_strength, int dir,
                           int pri_damping, int sec_damping, int coeff_shift,
                           int block_width, int block_height) {
   (void)pri_strength;
   (void)pri_damping;
   (void)coeff_shift;

   const int s1o1 = cdef_directions[dir + 2][0];
   const int s1o2 = cdef_directions[dir + 2][1];
   const int s2o1 = cdef_directions[dir - 2][0];
   const int s2o2 = cdef_directions[dir - 2][1];

   if (sec_strength) {
     sec_damping = AOMMAX(0, sec_damping - get_msb(sec_strength));
   }

   if (block_width == 8) {
     uint16_t *dst16 = (uint16_t *)dest;

     int h = block_height;
     const size_t vl = block_width;
     do {
       LOAD_PIX(in);

       // Secondary pass 1
       LOAD_DIR(s, in, s1o1, s2o1);
       CONSTRAIN(s, sec_strength, sec_damping);
       SEC_0_UPDATE_SUM(s);

       // Secondary pass 2
       LOAD_DIR(s2, in, s1o2, s2o2);
       CONSTRAIN(s2, sec_strength, sec_damping);
       UPDATE_SUM(s2);

       // Store
       STORE16_UNCLAMPED;
     } while (--h != 0);
   } else {
     uint16_t *dst16 = (uint16_t *)dest;

     int h = block_height;
     const size_t vl = block_width << 1;
     do {
       LOAD_PIX4(in);

       // Secondary pass 1
       LOAD_DIR4(s, in, s1o1, s2o1);
       CONSTRAIN(s, sec_strength, sec_damping);
       SEC_0_UPDATE_SUM(s);

       // Secondary pass 2
       LOAD_DIR4(s2, in, s1o2, s2o2);
       CONSTRAIN(s2, sec_strength, sec_damping);
       UPDATE_SUM(s2);

       // Store
       STORE16_4_UNCLAMPED;

       h -= 2;
     } while (h != 0);
   }
 }

 void cdef_filter_16_3_rvv(void *dest, int dstride, const uint16_t *in,
                           int pri_strength, int sec_strength, int dir,
                           int pri_damping, int sec_damping, int coeff_shift,
                           int block_width, int block_height) {
   (void)pri_strength;
   (void)sec_strength;
   (void)dir;
   (void)pri_damping;
   (void)sec_damping;
   (void)coeff_shift;

   if (block_width == 8) {
     uint16_t *dst16 = (uint16_t *)dest;

     int h = block_height;
     const size_t vl = block_width;
     do {
       const vuint16m1_t px = __riscv_vle16_v_u16m1(in, vl);
       __riscv_vse16_v_u16m1(dst16, px, vl);

       in += CDEF_BSTRIDE;
       dst16 += dstride;
     } while (--h != 0);
   } else {
     uint16_t *dst16 = (uint16_t *)dest;

     int h = block_height;
     const size_t vl = block_width << 1;
     do {
       const vint16m1_t px =
           load_strided_i16_4x2((int16_t *)in, CDEF_BSTRIDE, vl);
       vuint16m1_t vdst = __riscv_vreinterpret_v_i16m1_u16m1(px);
       store_strided_u16_4x2(dst16, vdst, dstride, vl);

       in += 2 * CDEF_BSTRIDE;
       dst16 += 2 * dstride;
       h -= 2;
     } while (h != 0);
   }
 }