#include #include #include #include #include #if defined(__clang__) #include #elif defined(__GNUC__) || defined(__GNUG__) #include #include #endif #include #include #include namespace at { namespace vec { // See Note [CPU_CAPABILITY namespace] inline namespace CPU_CAPABILITY { template constexpr bool is_zarch_implemented() { return ( std::is_same_v || std::is_same_v || std::is_same_v || std::is_same_v || std::is_same_v || std::is_same_v || std::is_same_v || std::is_same_v); } template constexpr bool is_zarch_implemented_quant() { return ( std::is_same_v || std::is_same_v || std::is_same_v); } template constexpr bool is_zarch_implemented_complex() { return std::is_same_v> || std::is_same_v>; } constexpr int offset0 = 0; constexpr int offset16 = 16; template struct VecBinaryType { using type __attribute__((vector_size(16))) = uintmax_t; }; template <> struct VecBinaryType<8> { using type = __attribute__((vector_size(16))) unsigned long long; }; template <> struct VecBinaryType<4> { using type = __attribute__((vector_size(16))) unsigned int; }; template <> struct VecBinaryType<2> { using type = __attribute__((vector_size(16))) unsigned short; }; template <> struct VecBinaryType<1> { using type = __attribute__((vector_size(16))) unsigned char; }; template struct VecInnerType { using Type __attribute__((vector_size(16))) = T; using BinaryType = typename VecBinaryType::type; using ElementType = T; static constexpr int size = 16 / sizeof(T); }; // define for int64_t properly for load template <> struct VecInnerType { using Type = __attribute__((vector_size(16))) signed long long; using ElementType = signed long long; using BinaryType = typename VecBinaryType::type; static constexpr int size = 16 / sizeof(signed long long); }; template using ZSimdVect = typename VecInnerType::Type; template using ZSimdVectBinary = typename VecInnerType::BinaryType; template using ZSimdVectElement = typename VecInnerType::ElementType; constexpr int blendChoiceInner( const uint64_t mask, const uint64_t half1 = 0xF, const uint64_t half2 = 0xF0) { uint64_t none = 0; uint64_t both = half1 | half2; // clamp it between 0 and both auto res_mask = mask & both; // return (a._vec0, a._vec1) if (res_mask == none) return 0; // return (b._vec0,b._vec1) else if (res_mask == both) return 1; // return (b._vec0, a._vec1) else if (res_mask == half1) return 2; // return (a._vec0,b._vec1) else if (res_mask == half2) return 3; // return (*_vec0,a._vec1) else if (res_mask > 0 && res_mask < half1) return 4; // return (*_vec0,b._vec1) else if ((res_mask & half2) == half2) return 5; // return (a._vec0,*_vec1) else if ((res_mask & half1) == 0 && res_mask > half1) return 6; // return (b._vec0,*_vec1) else if ((res_mask & half1) == half1 && res_mask > half1) return 7; // return (*_vec0,*_vec1) return 8; } // it can be used to emulate blend faster template constexpr int blendChoice(const uint64_t mask) { static_assert(Z < 1 || Z > 8, "not implemented"); return blendChoiceInner(mask); } template <> constexpr int blendChoice<1>(const uint64_t mask) { return blendChoiceInner(mask, 0x0000FFFF, 0xFFFF0000); } template <> constexpr int blendChoice<2>(const uint64_t mask) { return blendChoiceInner(mask, 0x00FF, 0xFF00); } template <> constexpr int blendChoice<4>(const uint64_t mask) { return blendChoiceInner(mask, 0xF, 0xF0); } template <> constexpr int blendChoice<8>(const uint64_t mask) { // clamp it 0 and 0xF return blendChoiceInner(mask, 0x3, 0xC); } template constexpr auto GetMask1(const uint64_t mask) { return typename VecBinaryType::type{}; } template constexpr auto GetMask2(const uint64_t mask) { return typename VecBinaryType::type{}; } template <> constexpr auto GetMask1<1>(const uint64_t mask) { constexpr uint8_t t = (int)0xFF; uint8_t g0 = (mask & 1) * t; uint8_t g1 = ((mask & 2) >> 1) * t; uint8_t g2 = ((mask & 4) >> 2) * t; uint8_t g3 = ((mask & 8) >> 3) * t; uint8_t g4 = ((mask & 16) >> 4) * t; uint8_t g5 = ((mask & 32) >> 5) * t; uint8_t g6 = ((mask & 64) >> 6) * t; uint8_t g7 = ((mask & 128) >> 7) * t; uint8_t g8 = ((mask & 256) >> 8) * t; uint8_t g9 = ((mask & 512) >> 9) * t; uint8_t g10 = ((mask & 1024) >> 10) * t; uint8_t g11 = ((mask & 2048) >> 11) * t; uint8_t g12 = ((mask & 4096) >> 12) * t; uint8_t g13 = ((mask & 8192) >> 13) * t; uint8_t g14 = ((mask & 16384) >> 14) * t; uint8_t g15 = ((mask & 32768) >> 15) * t; return (typename VecBinaryType<1>::type){ g0, g1, g2, g3, g4, g5, g6, g7, g8, g9, g10, g11, g12, g13, g14, g15}; } template <> constexpr auto GetMask2<1>(const uint64_t mask) { uint64_t mask2 = (mask & 0xFFFFFFFF) >> 16; return GetMask1<1>(mask2); } template <> constexpr auto GetMask1<2>(const uint64_t mask) { constexpr uint16_t t = (int)0xFFFF; uint16_t g0 = (mask & 1) * t; uint16_t g1 = ((mask & 2) >> 1) * t; uint16_t g2 = ((mask & 4) >> 2) * t; uint16_t g3 = ((mask & 8) >> 3) * t; uint16_t g4 = ((mask & 16) >> 4) * t; uint16_t g5 = ((mask & 32) >> 5) * t; uint16_t g6 = ((mask & 64) >> 6) * t; uint16_t g7 = ((mask & 128) >> 7) * t; return (typename VecBinaryType<2>::type){g0, g1, g2, g3, g4, g5, g6, g7}; } template <> constexpr auto GetMask2<2>(const uint64_t mask) { uint64_t mask2 = (mask & 0xFFFF) >> 8; return GetMask1<2>(mask2); } template <> constexpr auto GetMask1<4>(const uint64_t mask) { uint32_t g0 = (mask & 1) * 0xffffffff; uint32_t g1 = ((mask & 2) >> 1) * 0xffffffff; uint32_t g2 = ((mask & 4) >> 2) * 0xffffffff; uint32_t g3 = ((mask & 8) >> 3) * 0xffffffff; return (typename VecBinaryType<4>::type){g0, g1, g2, g3}; } template <> constexpr auto GetMask2<4>(const uint64_t mask) { uint64_t mask2 = (mask & 0xFF) >> 4; return GetMask1<4>(mask2); } template <> constexpr auto GetMask1<8>(const uint64_t mask) { uint64_t g0 = (mask & 1) * 0xffffffffffffffff; uint64_t g1 = ((mask & 2) >> 1) * 0xffffffffffffffff; return (typename VecBinaryType<8>::type){g0, g1}; } template <> constexpr auto GetMask2<8>(const uint64_t mask) { uint64_t mask2 = (mask & 0xF) >> 2; return GetMask1<8>(mask2); } template constexpr int maskForComplex(uint32_t mask) { return 0; } template <> constexpr int maskForComplex<8>(uint32_t mask) { mask = mask & 0xF; int complex_mask = 0; if (mask & 1) complex_mask |= 3; if (mask & 2) complex_mask |= (3 << 2); if (mask & 4) complex_mask |= (3 << 4); if (mask & 8) complex_mask |= (3 << 6); return complex_mask; } template <> constexpr int maskForComplex<16>(uint32_t mask) { mask = mask & 0x3; int complex_mask = 0; if (mask & 1) complex_mask |= 3; if (mask & 2) complex_mask |= (3 << 2); return complex_mask; } template > constexpr int blend_choice() { return 0xAA; } template <> constexpr int blend_choice>() { return 0x0A; } constexpr int64_t allbitset(int16_t x) { int64_t onex = 1; return (onex << x) - onex; } namespace { /* unnamed namespace */ ZSimdVect vec_mergee(ZSimdVect x, ZSimdVect y) { constexpr ZSimdVectBinary mergee_mask{ 0, 1, 2, 3, 16, 17, 18, 19, 8, 9, 10, 11, 24, 25, 26, 27}; return vec_perm(x, y, mergee_mask); } ZSimdVect vec_mergee(ZSimdVect x, ZSimdVect y) { return vec_mergeh(x, y); } ZSimdVect vec_mergeo(ZSimdVect x, ZSimdVect y) { constexpr ZSimdVectBinary mergeo_mask{ 4, 5, 6, 7, 20, 21, 22, 23, 12, 13, 14, 15, 28, 29, 30, 31}; return vec_perm(x, y, mergeo_mask); } ZSimdVect vec_mergeo(ZSimdVect x, ZSimdVect y) { return vec_mergel(x, y); } } /* unnamed namespace */ // template constexpr auto GetBpermZeroMask() { return ZSimdVectBinary{ 128, 128, 128, 128, 128, 128, 128, 128, 128, 128, 128, 128, 96, 64, 32, 0}; } template <> constexpr auto GetBpermZeroMask() { return ZSimdVectBinary{ 128, 128, 128, 128, 128, 128, 128, 128, 128, 128, 128, 128, 128, 128, 64, 0}; } constexpr auto GetSwapMaskFloat() { return ZSimdVectBinary{ 4, 5, 6, 7, 0, 1, 2, 3, 12, 13, 14, 15, 8, 9, 10, 11}; } template struct is_vec_specialized_for()>> : std::bool_constant {}; template struct Vectorized()>> { public: using value_type = T; using vtype = ZSimdVect; using vmaskType = ZSimdVectBinary; using size_type = int; // because of gcc inconsistency for int64_t we are obliged to use this, not // value_type using ElementType = ZSimdVectElement; using vinner_data = std::pair; private: vtype _vec0; vtype _vec1; public: static constexpr size_type size() { return VECTOR_WIDTH / sizeof(ElementType); } Vectorized() {} C10_ALWAYS_INLINE Vectorized(vtype v) : _vec0{v}, _vec1{v} {} C10_ALWAYS_INLINE Vectorized(const vinner_data& v) : _vec0{v.first}, _vec1{v.second} {} C10_ALWAYS_INLINE Vectorized(vtype v1, vtype v2) : _vec0{v1}, _vec1{v2} {} C10_ALWAYS_INLINE Vectorized(T s) : _vec0{vec_splats((ElementType)s)}, _vec1{vec_splats((ElementType)s)} {} template struct LoaduHelper { static Vectorized C10_ALWAYS_INLINE loadu(const U* ptr, int count = size()) { __at_align__ ElementType tmp_values[size()] = {}; std::memcpy( tmp_values, ptr, std::min(count, size()) * sizeof(ElementType)); return { vec_xl(offset0, &(tmp_values[0])), vec_xl(offset16, &(tmp_values[0]))}; } }; template struct LoaduHelper { static Vectorized C10_ALWAYS_INLINE loadu(const ElementType* ptr, int count = size()) { if (count == size()) { return {vec_xl(offset0, ptr), vec_xl(offset16, ptr)}; } __at_align__ ElementType tmp_values[size()] = {}; std::memcpy( tmp_values, ptr, std::min(count, size()) * sizeof(ElementType)); return { vec_xl(offset0, &(tmp_values[0])), vec_xl(offset16, &(tmp_values[0]))}; } }; template static Vectorized C10_ALWAYS_INLINE loadu(const U* ptr, int count = size()) { return LoaduHelper::loadu(ptr, count); } template static Vectorized C10_ALWAYS_INLINE loadu_one_fourth(const U* ptr) { // load only first 8 bytes // only intended to be used with uint8_t return loadu(ptr, 8 / sizeof(ElementType)); } template struct StoreHelper { static void C10_ALWAYS_INLINE store(const Vectorized& vec, U* ptr, int count = size()) { if (count > 0) { __at_align__ ElementType tmp_values[size()]; vec_xst(vec._vec0, offset0, &(tmp_values[0])); vec_xst(vec._vec1, offset16, &(tmp_values[0])); std::memcpy( ptr, tmp_values, std::min(count, size()) * sizeof(ElementType)); } } }; template struct StoreHelper { static void C10_ALWAYS_INLINE store(const Vectorized& vec, ElementType* ptr, int count = size()) { if (count == size()) { vec_xst(vec._vec0, offset0, ptr); vec_xst(vec._vec1, offset16, ptr); } else if (count > 0) { __at_align__ ElementType tmp_values[size()]; vec_xst(vec._vec0, offset0, &(tmp_values[0])); vec_xst(vec._vec1, offset16, &(tmp_values[0])); std::memcpy( ptr, tmp_values, std::min(count, size()) * sizeof(ElementType)); } } }; template void C10_ALWAYS_INLINE store(U* ptr, int count = size()) const { return StoreHelper::store(*this, ptr, count); } C10_ALWAYS_INLINE const vtype& vec0() const { return _vec0; } C10_ALWAYS_INLINE const vtype& vec1() const { return _vec1; } C10_ALWAYS_INLINE vinner_data data() const { return std::make_pair<>(_vec0, _vec1); } C10_ALWAYS_INLINE operator vinner_data() const { return data(); } C10_ALWAYS_INLINE const vmaskType vecb0() const { return (vmaskType)_vec0; } C10_ALWAYS_INLINE const vmaskType vecb1() const { return (vmaskType)_vec1; } static Vectorized C10_ALWAYS_INLINE blendv( const Vectorized& a, const Vectorized& b, const Vectorized& mask) { return { vec_sel(a._vec0, b._vec0, mask.vecb0()), vec_sel(a._vec1, b._vec1, mask.vecb1())}; } template = 0> C10_ALWAYS_INLINE Vectorized(T s1, T s2, T s3, T s4) : _vec0{s1, s2}, _vec1{s3, s4} {} template = 0> C10_ALWAYS_INLINE Vectorized(T s1, T s2, T s3, T s4, T s5, T s6, T s7, T s8) : _vec0{s1, s2, s3, s4}, _vec1{s5, s6, s7, s8} {} template = 0> C10_ALWAYS_INLINE Vectorized( T s1, T s2, T s3, T s4, T s5, T s6, T s7, T s8, T s9, T s10, T s11, T s12, T s13, T s14, T s15, T s16) : _vec0{s1, s2, s3, s4, s5, s6, s7, s8}, _vec1{s9, s10, s11, s12, s13, s14, s15, s16} {} template = 0> C10_ALWAYS_INLINE Vectorized( T s1, T s2, T s3, T s4, T s5, T s6, T s7, T s8, T s9, T s10, T s11, T s12, T s13, T s14, T s15, T s16, T s17, T s18, T s19, T s20, T s21, T s22, T s23, T s24, T s25, T s26, T s27, T s28, T s29, T s30, T s31, T s32) : _vec0{s1, s2, s3, s4, s5, s6, s7, s8, s9, s10, s11, s12, s13, s14, s15, s16}, _vec1{ s17, s18, s19, s20, s21, s22, s23, s24, s25, s26, s27, s28, s29, s30, s31, s32} {} template static std::enable_if_t> arange( T base = 0, step_t step = static_cast(1)) { return Vectorized(base, base + step, base + 2 * step, base + 3 * step); } template static std::enable_if_t> arange( T base = 0, step_t step = static_cast(1)) { return Vectorized( base, base + step, base + 2 * step, base + 3 * step, base + 4 * step, base + 5 * step, base + 6 * step, base + 7 * step); } template static std::enable_if_t> arange( T base = 0, step_t step = static_cast(1)) { return Vectorized( base, base + step, base + 2 * step, base + 3 * step, base + 4 * step, base + 5 * step, base + 6 * step, base + 7 * step, base + 8 * step, base + 9 * step, base + 10 * step, base + 11 * step, base + 12 * step, base + 13 * step, base + 14 * step, base + 15 * step); } template static std::enable_if_t> arange( T base = 0, step_t step = static_cast(1)) { return Vectorized( base, base + step, base + 2 * step, base + 3 * step, base + 4 * step, base + 5 * step, base + 6 * step, base + 7 * step, base + 8 * step, base + 9 * step, base + 10 * step, base + 11 * step, base + 12 * step, base + 13 * step, base + 14 * step, base + 15 * step, base + 16 * step, base + 17 * step, base + 18 * step, base + 19 * step, base + 20 * step, base + 21 * step, base + 22 * step, base + 23 * step, base + 24 * step, base + 25 * step, base + 26 * step, base + 27 * step, base + 28 * step, base + 29 * step, base + 30 * step, base + 31 * step); } // blend section template static std::enable_if_t(mask) == 0, Vectorized> C10_ALWAYS_INLINE blend(const Vectorized& a, const Vectorized& b) { return a; } template static std::enable_if_t(mask) == 1, Vectorized> C10_ALWAYS_INLINE blend(const Vectorized& a, const Vectorized& b) { return b; } template static std::enable_if_t(mask) == 2, Vectorized> C10_ALWAYS_INLINE blend(const Vectorized& a, const Vectorized& b) { return {b._vec0, a._vec1}; } template static std::enable_if_t(mask) == 3, Vectorized> C10_ALWAYS_INLINE blend(const Vectorized& a, const Vectorized& b) { return {a._vec0, b._vec1}; } template static std::enable_if_t(mask) == 4, Vectorized> C10_ALWAYS_INLINE blend(const Vectorized& a, const Vectorized& b) { const vmaskType mask_1st = GetMask1(mask); return {(vtype)vec_sel(a._vec0, b._vec0, mask_1st), a._vec1}; } template static std::enable_if_t(mask) == 5, Vectorized> C10_ALWAYS_INLINE blend(const Vectorized& a, const Vectorized& b) { const vmaskType mask_1st = GetMask1(mask); return {(vtype)vec_sel(a._vec0, b._vec0, mask_1st), b._vec1}; } template static std::enable_if_t(mask) == 6, Vectorized> C10_ALWAYS_INLINE blend(const Vectorized& a, const Vectorized& b) { const vmaskType mask_2nd = GetMask2(mask); // generated masks return {a._vec0, (vtype)vec_sel(a._vec1, b._vec1, mask_2nd)}; } template static std::enable_if_t(mask) == 7, Vectorized> C10_ALWAYS_INLINE blend(const Vectorized& a, const Vectorized& b) { const vmaskType mask_2nd = GetMask2(mask); // generated masks return {b._vec0, (vtype)vec_sel(a._vec1, b._vec1, mask_2nd)}; } template static std::enable_if_t(mask) == 8, Vectorized> C10_ALWAYS_INLINE blend(const Vectorized& a, const Vectorized& b) { const vmaskType mask_1st = GetMask1(mask); const vmaskType mask_2nd = GetMask2(mask); return { (vtype)vec_sel(a._vec0, b._vec0, mask_1st), (vtype)vec_sel(a._vec1, b._vec1, mask_2nd)}; } template static inline std::enable_if_t<(Z >= C), Vectorized> set_inner( const Vectorized& a, const Vectorized& b, size_t count) { return b; } template static inline std::enable_if_t<(Z < C), Vectorized> set_inner( const Vectorized& a, const Vectorized& b, size_t count) { if (count == Z) return blend(a, b); else return set_inner(a, b, count); } static Vectorized set( const Vectorized& a, const Vectorized& b, size_t count = size()) { if (count == 0) return a; return set_inner<1, size()>(a, b, count); } const ElementType& operator[](int idx) const = delete; ElementType& operator[](int idx) = delete; Vectorized _not() const { return {(vtype)vec_nor(vecb0(), vecb0()), (vtype)vec_nor(vecb1(), vecb1())}; } Vectorized C10_ALWAYS_INLINE eq(const Vectorized& other) const { return (*this == other) & Vectorized((T)1.0); } Vectorized C10_ALWAYS_INLINE ne(const Vectorized& other) const { return (*this != other) & Vectorized((T)1.0); } Vectorized C10_ALWAYS_INLINE gt(const Vectorized& other) const { return (*this > other) & Vectorized((T)1.0); } Vectorized C10_ALWAYS_INLINE ge(const Vectorized& other) const { return (*this >= other) & Vectorized((T)1.0); } Vectorized C10_ALWAYS_INLINE lt(const Vectorized& other) const { return (*this < other) & Vectorized((T)1.0); } Vectorized C10_ALWAYS_INLINE le(const Vectorized& other) const { return (*this <= other) & Vectorized((T)1.0); } template , int> = 0> Vectorized C10_ALWAYS_INLINE abs() const { return {vec_abs(_vec0), vec_abs(_vec1)}; } template , int> = 0> Vectorized C10_ALWAYS_INLINE abs() const { return {_vec0, _vec1}; } Vectorized C10_ALWAYS_INLINE neg() const { return {-_vec0, -_vec1}; } Vectorized isnan() const { auto x = *this; auto ret = (x == x); return ret._not(); } bool has_inf_nan() const { for (const auto i : c10::irange(size() / 2)) { if (_isnan(_vec0[i]) || _isinf(_vec0[i])) { return true; } } for (const auto i : c10::irange(size() / 2)) { if (_isnan(_vec1[i]) || _isinf(_vec1[i])) { return true; } } return false; } template < typename U = T, std::enable_if_t, int> = 0> Vectorized angle() const { auto tmp = blendv( Vectorized(0), Vectorized(c10::pi), *this < Vectorized(0)); return blendv(tmp, *this, isnan()); } template < typename U = T, std::enable_if_t, int> = 0> Vectorized angle() const { return blendv( Vectorized(0), Vectorized(c10::pi), *this < Vectorized(0)); } Vectorized real() const { return *this; } Vectorized imag() const { return Vectorized{0}; } Vectorized conj() const { return *this; } template < typename U = T, std::enable_if_t, int> = 0> int zero_mask() const { auto cmp = (*this == Vectorized(0)); constexpr auto mask_zero_bits = GetBpermZeroMask(); ZSimdVectBinary result0 = vec_bperm_u128((ZSimdVectBinary)cmp.vecb0(), mask_zero_bits); ZSimdVectBinary result1 = vec_bperm_u128((ZSimdVectBinary)cmp.vecb1(), mask_zero_bits); return (result0[0] | (result1[0] << (size() / 2))); } Vectorized C10_ALWAYS_INLINE floor() const { return {vec_floor(_vec0), vec_floor(_vec1)}; } Vectorized C10_ALWAYS_INLINE ceil() const { return {vec_ceil(_vec0), vec_ceil(_vec1)}; } Vectorized C10_ALWAYS_INLINE round() const { return {vec_round(_vec0), vec_round(_vec1)}; } Vectorized C10_ALWAYS_INLINE rint() const { return {vec_rint(_vec0), vec_rint(_vec1)}; } Vectorized C10_ALWAYS_INLINE trunc() const { return {vec_trunc(_vec0), vec_trunc(_vec1)}; } Vectorized C10_ALWAYS_INLINE frac() const { return *this - trunc(); } Vectorized C10_ALWAYS_INLINE sqrt() const { return {vec_sqrt(_vec0), vec_sqrt(_vec1)}; } Vectorized C10_ALWAYS_INLINE reciprocal() const { return Vectorized((T)1) / (*this); } Vectorized C10_ALWAYS_INLINE rsqrt() const { return sqrt().reciprocal(); } template , int> = 0> inline Vectorized mapOrdinary(float (*const f)(float)) const { float a00 = f(_vec0[0]); float a01 = f(_vec0[1]); float a02 = f(_vec0[2]); float a03 = f(_vec0[3]); float a10 = f(_vec1[0]); float a11 = f(_vec1[1]); float a12 = f(_vec1[2]); float a13 = f(_vec1[3]); return Vectorized{a00, a01, a02, a03, a10, a11, a12, a13}; } template < typename U = T, std::enable_if_t, int> = 0> inline Vectorized mapOrdinary(double (*const f)(double)) const { return Vectorized(f(_vec0[0]), f(_vec0[1]), f(_vec1[0]), f(_vec1[1])); } template , int> = 0> inline Vectorized mapOrdinary( float (*const f)(float, float), const Vectorized& b) const { float a00 = f(_vec0[0], b._vec0[0]); float a01 = f(_vec0[1], b._vec0[1]); float a02 = f(_vec0[2], b._vec0[2]); float a03 = f(_vec0[3], b._vec0[3]); float a10 = f(_vec1[0], b._vec1[0]); float a11 = f(_vec1[1], b._vec1[1]); float a12 = f(_vec1[2], b._vec1[2]); float a13 = f(_vec1[3], b._vec1[3]); return Vectorized{a00, a01, a02, a03, a10, a11, a12, a13}; } template < typename U = T, std::enable_if_t, int> = 0> inline Vectorized mapOrdinary( double (*const f)(double, double), const Vectorized& b) const { return Vectorized( f(_vec0[0], b._vec0[0]), f(_vec0[1], b._vec0[1]), f(_vec1[0], b._vec1[0]), f(_vec1[1], b._vec1[1])); } template < typename FloatOp, typename DoubleOp, typename U = T, std::enable_if_t, int> = 0> inline Vectorized mapSleef(FloatOp f, DoubleOp d) const { vtype a0 = f(_vec0); vtype a1 = f(_vec1); return Vectorized{a0, a1}; } template < typename FloatOp, typename DoubleOp, typename U = T, std::enable_if_t, int> = 0> inline Vectorized mapSleef(FloatOp f, DoubleOp d) const { return Vectorized(d(_vec0), d(_vec1)); } template < typename FloatOp, typename DoubleOp, typename U = T, std::enable_if_t, int> = 0> inline Vectorized mapSleef(FloatOp f, DoubleOp d, const Vectorized& b) const { vtype a0 = f(_vec0, b._vec0); vtype a1 = f(_vec1, b._vec1); return Vectorized{a0, a1}; } template < typename FloatOp, typename DoubleOp, typename U = T, std::enable_if_t, int> = 0> inline Vectorized mapSleef(FloatOp f, DoubleOp d, const Vectorized& b) const { return Vectorized(d(_vec0, b._vec0), d(_vec1, b._vec1)); } Vectorized acos() const { return mapSleef(Sleef_acosf4_u10, Sleef_acosd2_u10); } Vectorized asin() const { return mapSleef(Sleef_asinf4_u10, Sleef_asind2_u10); } Vectorized atan() const { return mapSleef(Sleef_atanf4_u10, Sleef_atand2_u10); } Vectorized atanh() const { return mapSleef(Sleef_atanhf4_u10, Sleef_atanhd2_u10); } Vectorized erf() const { return mapSleef(Sleef_erff4_u10, Sleef_erfd2_u10); } Vectorized erfc() const { return mapSleef(Sleef_erfcf4_u15, Sleef_erfcd2_u15); } Vectorized exp() const { return mapSleef(Sleef_expf4_u10, Sleef_expd2_u10); } Vectorized exp2() const { return mapSleef(Sleef_exp2f4_u10, Sleef_exp2d2_u10); } Vectorized expm1() const { return mapSleef(Sleef_expm1f4_u10, Sleef_expm1d2_u10); } Vectorized exp_u20() const { return exp(); } Vectorized log() const { return mapSleef(Sleef_logf4_u10, Sleef_logd2_u10); } Vectorized log2() const { return mapSleef(Sleef_log2f4_u10, Sleef_log2d2_u10); } Vectorized log10() const { return mapSleef(Sleef_log10f4_u10, Sleef_log10d2_u10); } Vectorized log1p() const { return mapSleef(Sleef_log1pf4_u10, Sleef_log1pd2_u10); } Vectorized sin() const { return mapSleef(Sleef_sinf4_u10, Sleef_sind2_u10); } Vectorized sinh() const { return mapSleef(Sleef_sinhf4_u10, Sleef_sinhd2_u10); } Vectorized cos() const { return mapSleef(Sleef_cosf4_u10, Sleef_cosd2_u10); } Vectorized cosh() const { return mapSleef(Sleef_coshf4_u10, Sleef_coshd2_u10); } Vectorized tan() const { return mapSleef(Sleef_tanf4_u10, Sleef_tand2_u10); } Vectorized tanh() const { return mapSleef(Sleef_tanhf4_u10, Sleef_tanhd2_u10); } Vectorized lgamma() const { return mapSleef(Sleef_lgammaf4_u10, Sleef_lgammad2_u10); } Vectorized atan2(const Vectorized& b) const { return mapSleef(Sleef_atan2f4_u10, Sleef_atan2d2_u10, b); } Vectorized copysign(const Vectorized& sign) const { return mapSleef(Sleef_copysignf4, Sleef_copysignd2, sign); } Vectorized fmod(const Vectorized& q) const { return mapSleef(Sleef_fmodf4, Sleef_fmodd2, q); } Vectorized hypot(const Vectorized& b) const { return mapSleef(Sleef_hypotf4_u05, Sleef_hypotd2_u05, b); } Vectorized pow(const Vectorized& b) const { return mapSleef(Sleef_powf4_u10, Sleef_powd2_u10, b); } Vectorized nextafter(const Vectorized& b) const { return mapSleef(Sleef_nextafterf4, Sleef_nextafterd2, b); } Vectorized erfinv() const { return mapOrdinary(calc_erfinv); } Vectorized digamma() const { return mapOrdinary(calc_digamma); } Vectorized igamma(const Vectorized& x) const { return mapOrdinary(calc_igamma, x); } Vectorized igammac(const Vectorized& x) const { return mapOrdinary(calc_igammac, x); } Vectorized i0() const { return mapOrdinary(calc_i0); } Vectorized i0e() const { return mapOrdinary(calc_i0e); } template < typename U = T, std::enable_if_t, int> = 0> Vectorized minimum(const Vectorized& other) const { return {vec_min(_vec0, other._vec0), vec_min(_vec1, other._vec1)}; } /* Propagates NaN if either input is a NaN. */ template < typename U = T, std::enable_if_t, int> = 0> Vectorized minimum(const Vectorized& other) const { Vectorized tmp = { vec_min(_vec0, other._vec0), vec_min(_vec1, other._vec1)}; tmp = blendv(tmp, *this, isnan()); return blendv(tmp, other, other.isnan()); } template < typename U = T, std::enable_if_t, int> = 0> Vectorized maximum(const Vectorized& other) const { return {vec_max(_vec0, other._vec0), vec_max(_vec1, other._vec1)}; } /* Propagates NaN if either input is a NaN. */ template < typename U = T, std::enable_if_t, int> = 0> Vectorized maximum(const Vectorized& other) const { Vectorized tmp = { vec_max(_vec0, other._vec0), vec_max(_vec1, other._vec1)}; tmp = blendv(tmp, *this, isnan()); return blendv(tmp, other, other.isnan()); } template < typename U = T, std::enable_if_t, int> = 0> Vectorized clamp_min(const Vectorized& min) const { return {vec_max(_vec0, min._vec0), vec_max(_vec1, min._vec1)}; } /* Keeps NaN if actual value is NaN */ template < typename U = T, std::enable_if_t, int> = 0> Vectorized clamp_min(const Vectorized& min) const { Vectorized tmp = {vec_max(_vec0, min._vec0), vec_max(_vec1, min._vec1)}; return blendv(tmp, *this, isnan()); } template < typename U = T, std::enable_if_t, int> = 0> Vectorized clamp_max(const Vectorized& max) const { return {vec_min(_vec0, max._vec0), vec_min(_vec1, max._vec1)}; } /* Keeps NaN if actual value is NaN */ template < typename U = T, std::enable_if_t, int> = 0> Vectorized clamp_max(const Vectorized& max) const { Vectorized tmp = {vec_min(_vec0, max._vec0), vec_min(_vec1, max._vec1)}; return blendv(tmp, *this, isnan()); } template , int> = 0> Vectorized swapped() const { auto swap_mask = GetSwapMaskFloat(); vtype v0 = vec_perm(_vec0, _vec0, swap_mask); vtype v1 = vec_perm(_vec1, _vec1, swap_mask); return {v0, v1}; } template < typename U = T, std::enable_if_t, int> = 0> Vectorized swapped() const { vtype v0 = {_vec0[1], _vec0[0]}; vtype v1 = {_vec1[1], _vec1[0]}; return {v0, v1}; } template < typename U = T, std::enable_if_t, int> = 0> static Vectorized mergee(Vectorized& first, Vectorized& second) { return { vec_mergee(first._vec0, second._vec0), vec_mergee(first._vec1, second._vec1)}; } template < typename U = T, std::enable_if_t, int> = 0> static Vectorized mergeo(Vectorized& first, Vectorized& second) { return { vec_mergeo(first._vec0, second._vec0), vec_mergeo(first._vec1, second._vec1)}; } static Vectorized horizontal_add_perm( Vectorized& first, Vectorized& second) { // we will simulate it differently with 6 instructions total // lets permute second so that we can add it getting horizontal sums auto first_perm = first.swapped(); // 2perm auto second_perm = second.swapped(); // 2perm // summ auto first_ret = first + first_perm; // 2add auto second_ret = second + second_perm; // 2 add // now lets choose evens return mergee(first_ret, second_ret); // 2 mergee's } static Vectorized horizontal_sub_perm( Vectorized& first, Vectorized& second) { // we will simulate it differently with 6 instructions total // lets permute second so that we can add it getting horizontal sums auto first_perm = first.swapped(); // 2perm auto second_perm = second.swapped(); // 2perm // summ auto first_ret = first - first_perm; // 2sub auto second_ret = second - second_perm; // 2 sub // now lets choose evens return mergee(first_ret, second_ret); // 2 mergee's } template < typename U = T, std::enable_if_t, int> = 0> Vectorized mergee() const { return {vec_mergee(_vec0, _vec0), vec_mergee(_vec1, _vec1)}; } template < typename U = T, std::enable_if_t, int> = 0> Vectorized mergeo() const { return {vec_mergeo(_vec0, _vec0), vec_mergeo(_vec1, _vec1)}; } template < typename U = T, std::enable_if_t, int> = 0> Vectorized to_vec_float_helper() const { int32_t values[8] = { _vec0[0], _vec0[1], _vec0[2], _vec0[3], _vec0[4], _vec0[5], _vec0[6], _vec0[7], }; return Vectorized{ values[0], values[1], values[2], values[3], values[4], values[5], values[6], values[7]}; } template < typename U = T, std::enable_if_t, int> = 0> Vectorized to_vec_uint8_helper() const { // helper function for float to uint8_t conversion uint8_t values[8] = { static_cast(_vec0[0]), static_cast(_vec0[1]), static_cast(_vec0[2]), static_cast(_vec0[3]), static_cast(_vec1[0]), static_cast(_vec1[1]), static_cast(_vec1[2]), static_cast(_vec1[3]), }; return Vectorized{ values[0], values[1], values[2], values[3], values[4], values[5], values[6], values[7], 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, }; } }; #define ZVECTOR_OPERATORS(typex) \ template <> \ Vectorized C10_ALWAYS_INLINE operator+( \ const Vectorized& a, const Vectorized& b) { \ return Vectorized{a.vec0() + b.vec0(), a.vec1() + b.vec1()}; \ } \ \ template <> \ Vectorized C10_ALWAYS_INLINE operator-( \ const Vectorized& a, const Vectorized& b) { \ return Vectorized{a.vec0() - b.vec0(), a.vec1() - b.vec1()}; \ } \ \ template <> \ Vectorized C10_ALWAYS_INLINE operator*( \ const Vectorized& a, const Vectorized& b) { \ return Vectorized{a.vec0() * b.vec0(), a.vec1() * b.vec1()}; \ } \ \ template <> \ Vectorized C10_ALWAYS_INLINE operator/( \ const Vectorized& a, const Vectorized& b) { \ return Vectorized{a.vec0() / b.vec0(), a.vec1() / b.vec1()}; \ } \ \ template <> \ Vectorized C10_ALWAYS_INLINE operator&( \ const Vectorized& a, const Vectorized& b) { \ return Vectorized{ \ (Vectorized::vtype)(a.vecb0() & b.vecb0()), \ (Vectorized::vtype)(a.vecb1() & b.vecb1())}; \ } \ \ template <> \ Vectorized C10_ALWAYS_INLINE operator|( \ const Vectorized& a, const Vectorized& b) { \ return Vectorized{ \ (Vectorized::vtype)(a.vecb0() | b.vecb0()), \ (Vectorized::vtype)(a.vecb1() | b.vecb1())}; \ } \ \ template <> \ Vectorized C10_ALWAYS_INLINE operator^( \ const Vectorized& a, const Vectorized& b) { \ return Vectorized{ \ (Vectorized::vtype)(a.vecb0() ^ b.vecb0()), \ (Vectorized::vtype)(a.vecb1() ^ b.vecb1())}; \ } \ \ Vectorized C10_ALWAYS_INLINE operator==( \ const Vectorized