MSVC intrinsics for bits and cpuid
authorElizabeth Smith <elizabeths@fb.com>
Thu, 10 Jul 2014 22:15:26 +0000 (15:15 -0700)
committerTudor Bosman <tudorb@fb.com>
Mon, 14 Jul 2014 19:13:55 +0000 (12:13 -0700)
Summary: Use msvc intrinsics for cpuid, popcount, byteswap, and bit scan functionality

Test Plan: fbconfig -r folly && fbmake runtests

Reviewed By: delong.j@fb.com

FB internal diff: D1413254

folly/Bits.cpp
folly/Bits.h
folly/CpuId.h
folly/detail/BitsDetail.h

index 2c6694f2e568c54a9f0bbbb4068405ca2a86f7c6..a2715a0b3f6b43914e9d5bad8c15ef6e426a6095 100644 (file)
@@ -20,9 +20,8 @@
 #include <folly/Portability.h>
 
 // None of this is necessary if we're compiling for a target that supports
-// popcnt
-#ifndef __POPCNT__
-
+// popcnt, which includes MSVC
+#if !defined(__POPCNT__) && !defined(_MSC_VER)
 namespace {
 
 int popcount_builtin(unsigned int x) {
index ade126d0803b6920c7fdd8dd1c30fd0009308811..c915111e1dc3949b367081d8c6a844a540c104b8 100644 (file)
 
 #include <folly/Portability.h>
 
-#ifndef __GNUC__
-#error GCC required
-#endif
-
-#ifndef __clang__
+#if !defined(__clang__) && !defined(_MSC_VER)
 #define FOLLY_INTRINSIC_CONSTEXPR constexpr
 #else
-// Unlike GCC, in Clang (as of 3.2) intrinsics aren't constexpr.
+// GCC is the only compiler with intrinsics constexpr.
 #define FOLLY_INTRINSIC_CONSTEXPR const
 #endif
 
 # include <byteswap.h>
 #endif
 
+#ifdef _MSC_VER
+# include <intrin.h>
+# pragma intrinsic(_BitScanForward)
+# pragma intrinsic(_BitScanForward64)
+# pragma intrinsic(_BitScanReverse)
+# pragma intrinsic(_BitScanReverse64)
+#endif
+
 #include <cassert>
 #include <cinttypes>
 #include <iterator>
@@ -98,7 +102,12 @@ typename std::enable_if<
    sizeof(T) <= sizeof(unsigned int)),
   unsigned int>::type
   findFirstSet(T x) {
+#ifdef _MSC_VER
+  unsigned long index;
+  return _BitScanForward(&index, x) ? index : 0;
+#else
   return __builtin_ffs(x);
+#endif
 }
 
 template <class T>
@@ -110,7 +119,12 @@ typename std::enable_if<
    sizeof(T) <= sizeof(unsigned long)),
   unsigned int>::type
   findFirstSet(T x) {
+#ifdef _MSC_VER
+  unsigned long index;
+  return _BitScanForward(&index, x) ? index : 0;
+#else
   return __builtin_ffsl(x);
+#endif
 }
 
 template <class T>
@@ -122,7 +136,12 @@ typename std::enable_if<
    sizeof(T) <= sizeof(unsigned long long)),
   unsigned int>::type
   findFirstSet(T x) {
+#ifdef _MSC_VER
+  unsigned long index;
+  return _BitScanForward64(&index, x) ? index : 0;
+#else
   return __builtin_ffsll(x);
+#endif
 }
 
 template <class T>
@@ -147,7 +166,18 @@ typename std::enable_if<
    sizeof(T) <= sizeof(unsigned int)),
   unsigned int>::type
   findLastSet(T x) {
+#ifdef _MSC_VER
+  unsigned long index;
+  int clz;
+  if (_BitScanReverse(&index, x)) {
+    clz = static_cast<int>(31 - index);
+  } else {
+    clz = 32;
+  }
+  return x ? 8 * sizeof(unsigned int) - clz : 0;
+#else
   return x ? 8 * sizeof(unsigned int) - __builtin_clz(x) : 0;
+#endif
 }
 
 template <class T>
@@ -159,7 +189,18 @@ typename std::enable_if<
    sizeof(T) <= sizeof(unsigned long)),
   unsigned int>::type
   findLastSet(T x) {
+#ifdef _MSC_VER
+  unsigned long index;
+  int clz;
+  if (_BitScanReverse(&index, x)) {
+    clz = static_cast<int>(31 - index);
+  } else {
+    clz = 32;
+  }
+  return x ? 8 * sizeof(unsigned int) - clz : 0;
+#else
   return x ? 8 * sizeof(unsigned long) - __builtin_clzl(x) : 0;
+#endif
 }
 
 template <class T>
@@ -171,7 +212,18 @@ typename std::enable_if<
    sizeof(T) <= sizeof(unsigned long long)),
   unsigned int>::type
   findLastSet(T x) {
+#ifdef _MSC_VER
+  unsigned long index;
+  unsigned long long clz;
+  if (_BitScanReverse(&index, x)) {
+    clz = static_cast<unsigned long long>(63 - index);
+  } else {
+    clz = 64;
+  }
+  return x ? 8 * sizeof(unsigned long long) - clz : 0;
+#else
   return x ? 8 * sizeof(unsigned long long) - __builtin_clzll(x) : 0;
+#endif
 }
 
 template <class T>
@@ -237,6 +289,8 @@ struct EndianIntBase {
   static T swap(T x);
 };
 
+#ifndef _MSC_VER
+
 /**
  * If we have the bswap_16 macro from byteswap.h, use it; otherwise, provide our
  * own definition.
@@ -254,6 +308,8 @@ our_bswap16(Int16 x) {
 }
 #endif
 
+#endif
+
 #define FB_GEN(t, fn) \
 template<> inline t EndianIntBase<t>::swap(t x) { return fn(x); }
 
@@ -262,12 +318,21 @@ template<> inline t EndianIntBase<t>::swap(t x) { return fn(x); }
 // __builtin_bswap16 for some reason, so we have to provide our own.
 FB_GEN( int8_t,)
 FB_GEN(uint8_t,)
+#ifdef _MSC_VER
+FB_GEN( int64_t, _byteswap_uint64)
+FB_GEN(uint64_t, _byteswap_uint64)
+FB_GEN( int32_t, _byteswap_ulong)
+FB_GEN(uint32_t, _byteswap_ulong)
+FB_GEN( int16_t, _byteswap_ushort)
+FB_GEN(uint16_t, _byteswap_ushort)
+#else
 FB_GEN( int64_t, __builtin_bswap64)
 FB_GEN(uint64_t, __builtin_bswap64)
 FB_GEN( int32_t, __builtin_bswap32)
 FB_GEN(uint32_t, __builtin_bswap32)
 FB_GEN( int16_t, our_bswap16)
 FB_GEN(uint16_t, our_bswap16)
+#endif
 
 #undef FB_GEN
 
index 966bfc1f2f316b840215513b0dd9d4916f3b8a4f..4a70e1464dca70a664992d421aefeeb26e257d96 100644 (file)
@@ -30,7 +30,14 @@ namespace folly {
 class CpuId {
  public:
   CpuId() {
-#if FOLLY_X64 || defined(__i386__)
+#ifdef _MSC_VER
+    int reg[4];
+
+    __cpuid((int *)reg, 1);
+    c_ = reg[2];
+    d_ = reg[3];
+
+#elif FOLLY_X64 || defined(__i386__)
     __asm__("cpuid" : "=c"(c_), "=d"(d_) : "a"(1) : "ebx");
 #else
     // On non-Intel, none of these features exist; at least not in the same form
index df3acd77eeb7f985685d36f7d79aad3d26639513..96887081cb704f6e5c98a9086724a343756eac9f 100644 (file)
@@ -24,7 +24,14 @@ namespace detail {
 // __builtin_popcount directly, as it's presumably inlined.
 // If not, use runtime detection using __attribute__((ifunc))
 // (see Bits.cpp)
-#ifdef __POPCNT__
+#ifdef _MSC_VER
+inline int popcount(unsigned int x) {
+  return __popcnt(x);
+}
+inline int popcountll(unsigned long long x) {
+  return __popcnt64(x);
+}
+#elif defined(__POPCNT__)
 
 inline int popcount(unsigned int x) {
   return __builtin_popcount(x);