test: add dtype_dispatch tests

kilinchange · kilinchange · commit de1e14b85bd0 · 2026-04-10T12:46:41.000Z
diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -204,3 +204,38 @@ link_infini_train_exe(test_precision_check)
 add_executable(test_lora test/lora/test_lora.cc)
 link_infini_train_exe(test_lora)
 
+add_executable(test_scalar test/scalar/test_scalar.cc)
+link_infini_train_exe(test_scalar)
+
+add_executable(test_dtype_dispatch test/dispatch/test_dtype_dispatch.cc)
+link_infini_train_exe(test_dtype_dispatch)
+
+# Negative compile test: missing dtype registration must fail at compile time.
+set(DTYPE_DISPATCH_COMPILE_FAIL_SOURCE
+  ${PROJECT_SOURCE_DIR}/test/dispatch/test_dtype_dispatch_compile_fail.cc)
+
+try_compile(DTYPE_DISPATCH_COMPILE_UNEXPECTEDLY_SUCCEEDED
+  ${CMAKE_BINARY_DIR}/CMakeFiles/try_compile_dtype_dispatch_missing_map
+  SOURCES ${DTYPE_DISPATCH_COMPILE_FAIL_SOURCE}
+  CMAKE_FLAGS
+    "-DCMAKE_CXX_STANDARD=${CMAKE_CXX_STANDARD}"
+    "-DCMAKE_CXX_STANDARD_REQUIRED=ON"
+    "-DCMAKE_CXX_EXTENSIONS=OFF"
+    "-DCMAKE_CXX_FLAGS=-I${PROJECT_SOURCE_DIR}"
+  OUTPUT_VARIABLE DTYPE_DISPATCH_TRY_COMPILE_OUTPUT
+)
+
+if(DTYPE_DISPATCH_COMPILE_UNEXPECTEDLY_SUCCEEDED)
+  message(FATAL_ERROR
+    "dtype dispatch compile-fail test unexpectedly succeeded.\n"
+    "Source: ${DTYPE_DISPATCH_COMPILE_FAIL_SOURCE}\n"
+    "Output:\n${DTYPE_DISPATCH_TRY_COMPILE_OUTPUT}")
+endif()
+
+add_custom_target(test_dtype_dispatch_compile_fail
+  COMMAND ${CMAKE_COMMAND} -E echo
+    "dtype dispatch compile-fail check passed (missing dtype registration correctly fails to compile)."
+  VERBATIM
+)
+
+add_dependencies(test_dtype_dispatch test_dtype_dispatch_compile_fail)
diff --git a/docs/dtype_registry_design.md b/docs/dtype_registry_design.md
@@ -1,31 +1,23 @@
 # Low-Precision DType Abstraction & Backend Registration Design
 统一低精度类型抽象与后端显式注册 pr：https://github.com/InfiniTensor/InfiniTrain/pull/114
 
-## 1. 背景与动机
+## 1. 背景与目标
 
-InfiniTrain 在引入 BF16 / FP16 之前，框架层并没有低精度类型的统一抽象，所有关于 16-bit 浮点的语义都直接绑定在 CUDA 原生类型 `__half` / `__nv_bfloat16` 上。这
-导致几个问题：
+InfiniTrain 在引入 BF16 / FP16 之前，框架层并没有低精度类型的统一抽象，所有 16-bit 浮点语义都直接绑定到后端原生类型：CUDA 侧使用 __half / __nv_bfloat16，CPU 侧则直接使用 uint16_t。这种设计带来了几个问题：
 
 1. **框架代码被 `#ifdef USE_CUDA` 污染。**
-   `infini_train/include/datatype.h`、`infini_train/src/nn/init.cc` 等通用模块都需要
-   写出 `#ifdef USE_CUDA … #else …` 来在「有 CUDA」和「没有 CUDA」两个版本之间
-   切换 16-bit 类型映射；非 CUDA 路径只能退化成 `uint16_t`，而 `uint16_t` 又会与
+   `infini_train/include/datatype.h`、`infini_train/src/nn/init.cc` 等通用模块都需要写出 `#ifdef USE_CUDA … #else …` 来在「有 CUDA」和「没有 CUDA」两个版本之间切换 16-bit 类型映射；非 CUDA 路径只能退化成 `uint16_t`，而 `uint16_t` 又会与
    `kUINT16` 的反向映射产生歧义。
 2. **`TypeMap<DType>` 是「全后端共享」的单点表。**
-   旧 `TypeMap` 把所有标量类型直接映射到 C++ 类型。CPU 与 CUDA 共享同一个表，
-   意味着不可能在不同后端把 `kFLOAT16` 映射到不同的本地标量；要扩展新硬件必须改框架头文件。
+   旧 `TypeMap` 把所有标量类型直接映射到 C++ 类型。CPU 与 CUDA 共享同一个表，意味着不可能在不同后端把 `kFLOAT16` 映射到不同的本地标量；要扩展新硬件必须改框架头文件。
 3. **类型提升耦合具体后端类型。**
-   旧的 `WidestType_t<T1, T2>` 在 C++ 模板层面做提升，需要每个调用点先 dispatch 出
-   一对具体的标量类型（例如 `nv_bfloat16` + `float`），再交给元函数做选择。这把
-   「类型提升」这一纯 dtype 级别的逻辑跟「后端具体标量」捆死了。
+   旧的 `WidestType_t<T1, T2>` 在 C++ 模板层面做提升，需要每个调用点先 dispatch 出一对具体的标量类型（例如 `nv_bfloat16` + `float`），再交给元函数做选择。这把「类型提升」这一纯 dtype 级别的逻辑跟「后端具体标量」捆死了。
 4. **静默 fallback 容易掩盖错误。**
-   一旦某个后端忘记注册 BF16/FP16，旧实现会沉默地走到 `uint16_t` 路径，得到一个
-   语义错误的内核，而不是显式报错。
+   一旦某个后端忘记定义低精度类型，旧实现默认映射到 `uint16_t`，会得到一个语义错误的内核，而不是显式报错。
 
 本工作的目标是：
 
-> **把 FP16/BF16 抽象成框架级类型**，让框架代码不再直接接触任何后端原生
-> 16-bit 类型；同时把后端 dtype → 本地标量的映射改成**显式注册**机制，未注册的类型在编译期就被拦截。
+> **抽象出框架级通用低精度类型 FP16/BF16**，让框架代码不再直接依赖任何后端原生 16-bit 类型；同时把框架 [DataType -> 后端 C++ 类型] 的映射改为**显式注册**机制，未注册的类型如果被实例化，会在编译期被拦截报错。
 
 ## 2. Design In One Diagram
 
@@ -46,8 +38,8 @@ kernel code    ──► DispatchCpuFunc / DispatchCudaFunc / DispatchXxxFunc
 
 要点：
 
-- 框架层不提供任何「DataType → C++ 类型」映射路径；所有具体类型绑定均在后端通过 `BackendTypeMap<Dev, DType>` 完成。
-- `BackendTypeMap<Dev, DType>` 主模板**只声明不定义**，只有后端显式特化并完成注册的 dtype 组合才允许参与 kernel dispatch；未注册组合会在模板实例化阶段被 `static_assert` 于编译期拦截。
+- 框架层不提供任何「DataType → 后端 C++ 类型」映射路径；所有具体类型绑定均在后端通过 `BackendTypeMap<Dev, DType>` 完成。
+- `BackendTypeMap<Dev, DType>` 主模板**只声明不定义**，只有后端显式特化并完成注册的组合才允许参与 kernel dispatch；未注册组合会在模板实例化阶段被 `static_assert` 于编译期拦截。
 
 ## 3. Core API
 
@@ -59,51 +51,13 @@ kernel code    ──► DispatchCpuFunc / DispatchCudaFunc / DispatchXxxFunc
 | `INFINI_REGISTER_STANDARD_BACKEND_TYPES(DEV)` | [core/backend_type_map.h](../infini_train/include/core/backend_type_map.h) | 一次性注册 10 个非低精度 dtype（`kUINT8…kFLOAT64`）到对应 C++ 标量。 |
 | `DispatchCpuFunc / DispatchCudaFunc<AllowedDTypes...>` | `src/core/runtime/{cpu,cuda}/{cpu,cuda}_dispatch.h` | 后端 dispatch 入口，底层转发到 `DispatchByTypeMap<TypeMap, AllowedDTypes...>`。 |
 
-## 4. Scalar：框架层标量载体
-
-`BackendTypeMap` 解决「DataType → 后端 C++ 类型」，但框架 API 还需要一种
-**DataType 无关** 的方式接收标量参数：目标 tensor 的 DataType 运行期才确定，API 不可能
-为每种数值类型都写重载，更不能把后端原生类型暴露给调用方。
-
-为此引入 `Scalar`（[scalar.h](../infini_train/include/scalar.h)）：
-
-- 固定存储：`double / int64_t / uint64_t` + `Kind` tag（`kBool / kDouble / kInt64 / kUInt64`）。
-- 隐式构造覆盖所有框架标量：整数按符号分入 `kInt64 / kUInt64`，全部浮点（含 `FP16 / BF16`）归一到 `kDouble`，`bool` 独立。
-- 唯一出口 `Scalar::to<T>()`，通过 `common::cpu::Cast<T>` 把存储值转换到 dispatch 选出的后端标量类型。
-
-与其它抽象的边界：`BackendTypeMap` 管「DataType → 后端 C++ 类型」，`PromoteDataTypes` 管
-「DataType → DataType」，`Scalar` 管「数值 → 后端 C++ 类型」，三者正交；`Scalar` 本身不参与类型提升决策。
-
-### 4.1 使用模式
-
-`Tensor::Fill(Scalar)` 是这套抽象的第一个落地点。kernel 侧使用模式如下：
-
-```cpp
-// kernels/cpu/fill.cc
-void Fill(std::shared_ptr<Tensor> tensor, Scalar scalar) {
-    core::cpu::DispatchCpuFunc<INFINI_ALL_TYPES>(
-        tensor->Dtype(),
-        [=]<typename T>() {
-            auto data = reinterpret_cast<T *>(tensor->DataPtr());
-            const T v = scalar.to<T>();   // Scalar 在此完成「数值 → 后端 C++ 类型」映射
-            std::fill(data, data + tensor->NumElements(), v);
-        },
-        "CPU Fill");
-}
-```
-
-`DispatchCpuFunc` 经 `BackendTypeMap` 把 `DataType` 解析为 `T`；`Scalar::to<T>()`
-把用户传入值转换到该 `T`。
-
-## 5. How To Add A New Backend
+## 4. How To Add A New Backend
 
 按以下清单操作，**不需要**修改 `infini_train/include/` 下的任何框架头文件，也不需要 `#ifdef`：
 
 1. 在后端的 `*_dispatch.h` 里 include `core/backend_type_map.h` 与 `dtype_dispatch.h`。
 2. 调用 `INFINI_REGISTER_STANDARD_BACKEND_TYPES(Device::DeviceType::kXxx)` 注册 10 个标准 dtype。
-3. 若硬件支持低精度，显式特化 `BackendTypeMap<kXxx, kFLOAT16>` / `BackendTypeMap<kXxx, kBFLOAT16>`
-   指向后端本地 16-bit 标量类型；不支持则直接跳过，调用方一旦 dispatch 到未注册的 dtype 会在
-   编译期触发 `static_assert`。
+3. 若硬件支持低精度，显式特化 `BackendTypeMap<kXxx, kFLOAT16>` / `BackendTypeMap<kXxx, kBFLOAT16>` 指向后端本地 16-bit 标量类型；不支持则直接跳过，调用方一旦 dispatch 到未注册的 dtype 会在编译期触发 `static_assert`。
 4. 定义 `XxxTypeMap<DType>` 转发/继承到 `BackendTypeMap<kXxx, DType>`。
 5. 提供 `DispatchXxxFunc` 入口，转发到 `DispatchByTypeMap<XxxTypeMap, AllowedDTypes...>`。
 
@@ -134,7 +88,7 @@ auto DispatchXxxFunc(DataType dtype, Functor &&f, std::string_view ctx = "", Arg
 } // namespace infini_train::core::xxx
 ```
 
-## 6. Failure Modes
+## 5. Failure Modes
 
 | 情形 | 表现 |
 | --- | --- |
diff --git a/infini_train/include/scalar.h b/infini_train/include/scalar.h
@@ -31,6 +31,31 @@ struct Scalar {
     Scalar(FP16 v) : kind(Kind::kDouble), d(static_cast<float>(v)) {}
     Scalar(BF16 v) : kind(Kind::kDouble), d(static_cast<float>(v)) {}
 
+    // TODO(dcj): Scalar::to<T>() should remain a framework-level conversion API
+    // and should not directly target backend-native types such as __nv_bfloat16
+    // or __half.
+    //
+    // Today to<T>() delegates to common::cpu::Cast, which only has explicit
+    // semantics for framework scalar types (e.g. FP16/BF16). When T is a
+    // backend-native half type, it falls back to raw static_cast, which happens
+    // to compile on CUDA (via implicit constructors) but is backend-dependent
+    // and may fail on other platforms (e.g. MACA).
+    //
+    // More importantly, this creates inconsistent rounding paths:
+    //   - to<BF16>():           double -> float -> bf16
+    //   - to<__nv_bfloat16>():  double -> bf16
+    // The two paths may yield different results due to double rounding.
+    // See `test/dtype/test_scalar.cc` (`TestToHalfPrecisionConversions`) for
+    // a similar example.
+    //
+    // Planned fix:
+    //   1) keep Scalar::to<T>() restricted to framework/common scalar types
+    //   2) introduce a standalone convert<To, From> utility for common
+    //      conversion semantics
+    //   3) let kernel/backend code use a backend-specific scalar_cast<T>
+    //      helper for native types, routing half-precision conversions
+    //      through float to guarantee consistent two-step rounding on all
+    //      backends.
     template <typename T> T to() const {
         switch (kind) {
         case Kind::kBool:
diff --git a/test/dtype/test_dtype_dispatch.cc b/test/dtype/test_dtype_dispatch.cc
@@ -0,0 +1,120 @@
+#include <cstdlib>
+#include <iostream>
+#include <string>
+#include <type_traits>
+
+#include "glog/logging.h"
+
+#include "infini_train/include/datatype.h"
+#include "infini_train/include/dtype_dispatch.h"
+
+#include "infini_train/src/core/runtime/cpu/cpu_dispatch.h"
+
+using namespace infini_train;
+
+// ============================================================================
+// Test 1: HasMappedType_v intercepts backends missing FP16 / BF16
+// ============================================================================
+
+// A backend TypeMap that only registers kFLOAT32 — FP16 / BF16 are absent.
+template <DataType DType> struct LowPrecisionAbsentTypeMap;
+
+template <> struct LowPrecisionAbsentTypeMap<DataType::kFLOAT32> {
+    using type = float;
+};
+
+static_assert(HasMappedType_v<LowPrecisionAbsentTypeMap, DataType::kFLOAT32>,
+              "sanity: registered dtype must be detected as present");
+static_assert(!HasMappedType_v<LowPrecisionAbsentTypeMap, DataType::kFLOAT16>,
+              "unregistered kFLOAT16 must be intercepted by HasMappedType_v");
+static_assert(!HasMappedType_v<LowPrecisionAbsentTypeMap, DataType::kBFLOAT16>,
+              "unregistered kBFLOAT16 must be intercepted by HasMappedType_v");
+
+// ============================================================================
+// Test 2: CpuTypeMap resolves FP16 / BF16 to framework scalar types
+// ============================================================================
+
+static_assert(std::is_same_v<MappedType_t<core::cpu::CpuTypeMap, DataType::kFLOAT16>, FP16>,
+              "CpuTypeMap<kFLOAT16> must resolve to framework FP16");
+static_assert(std::is_same_v<MappedType_t<core::cpu::CpuTypeMap, DataType::kBFLOAT16>, BF16>,
+              "CpuTypeMap<kBFLOAT16> must resolve to framework BF16");
+
+// ============================================================================
+// Test 3: Runtime dispatch of kFLOAT16 / kBFLOAT16
+// ============================================================================
+
+void TestRuntimeDispatchLowPrecision() {
+    std::cout << "\n=== Test 3: Runtime dispatch of kFLOAT16 / kBFLOAT16 ===" << std::endl;
+
+    // kFLOAT16 must dispatch to framework FP16
+    bool called_fp16 = false;
+    core::cpu::DispatchCpuFunc<DataType::kFLOAT16, DataType::kBFLOAT16>(
+        DataType::kFLOAT16,
+        [&called_fp16]<typename T>() {
+            if constexpr (std::is_same_v<T, FP16>) {
+                called_fp16 = true;
+            }
+        },
+        "dispatch kFLOAT16");
+    CHECK(called_fp16) << "DispatchCpuFunc did not invoke functor for kFLOAT16";
+
+    // kBFLOAT16 must dispatch to framework BF16
+    bool called_bf16 = false;
+    core::cpu::DispatchCpuFunc<DataType::kFLOAT16, DataType::kBFLOAT16>(
+        DataType::kBFLOAT16,
+        [&called_bf16]<typename T>() {
+            if constexpr (std::is_same_v<T, BF16>) {
+                called_bf16 = true;
+            }
+        },
+        "dispatch kBFLOAT16");
+    CHECK(called_bf16) << "DispatchCpuFunc did not invoke functor for kBFLOAT16";
+
+    std::cout << "Low-precision dispatch OK." << std::endl;
+}
+
+// ============================================================================
+// Test 4: Runtime dispatch of a low-precision dtype outside AllowedDTypes
+//         must fatal
+// ============================================================================
+
+// Sub-process entry: tries to dispatch kFLOAT16 with only kFLOAT32 allowed.
+void TriggerRuntimeUnsupportedLowPrecisionFatal() {
+    core::cpu::DispatchCpuFunc<DataType::kFLOAT32>(
+        DataType::kFLOAT16,
+        []<typename T>() { (void)sizeof(T); },
+        "intercept kFLOAT16 when only kFLOAT32 is allowed");
+}
+
+void TestRuntimeInterceptLowPrecision(const char *argv0) {
+    std::cout << "\n=== Test 4: Runtime intercept of kFLOAT16 outside AllowedDTypes ===" << std::endl;
+    const std::string cmd = std::string(argv0) + " --expect-runtime-fatal > /dev/null 2>&1";
+    const int status = std::system(cmd.c_str());
+    CHECK_NE(status, 0) << "Expected non-zero exit when dispatching an unallowed low-precision dtype";
+    std::cout << "Low-precision runtime intercept OK." << std::endl;
+}
+
+// ============================================================================
+// Main
+// ============================================================================
+
+int main(int argc, char *argv[]) {
+    google::InitGoogleLogging(argv[0]);
+
+    if (argc > 1 && std::string(argv[1]) == "--expect-runtime-fatal") {
+        TriggerRuntimeUnsupportedLowPrecisionFatal();
+        return 0;
+    }
+
+    std::cout << "========================================" << std::endl;
+    std::cout << "  Low-precision Dtype Dispatch Test Suite" << std::endl;
+    std::cout << "========================================" << std::endl;
+
+    std::cout << "Compile-time checks: PASSED" << std::endl;
+
+    TestRuntimeDispatchLowPrecision();
+    TestRuntimeInterceptLowPrecision(argv[0]);
+
+    std::cout << "\nAll low-precision dtype dispatch tests passed." << std::endl;
+    return 0;
+}
diff --git a/test/dtype/test_dtype_dispatch_compile_fail.cc b/test/dtype/test_dtype_dispatch_compile_fail.cc
@@ -0,0 +1,28 @@
+#include "infini_train/include/datatype.h"
+#include "infini_train/include/dtype_dispatch.h"
+
+using namespace infini_train;
+
+// ============================================================================
+// Compile-fail: dispatching an unregistered low-precision dtype must be
+//               intercepted at compile time
+// ============================================================================
+
+// Models a backend that has registered standard floating types but has NOT
+// yet provided a mapping for the low-precision dtypes FP16 / BF16.
+template <DataType DType> struct LowPrecisionMissingTypeMap;
+
+template <> struct LowPrecisionMissingTypeMap<DataType::kFLOAT32> {
+    using type = float;
+};
+
+int main() {
+    // Dispatching kFLOAT16 through LowPrecisionMissingTypeMap must trigger the
+    // static_assert inside DispatchByTypeMap, failing this translation unit
+    // before MappedType_t<TypeMap, kFLOAT16> is ever instantiated.
+    DispatchByTypeMap<LowPrecisionMissingTypeMap, DataType::kFLOAT16>(
+        DataType::kFLOAT16,
+        []<typename T>() { (void)sizeof(T); },
+        "compile-fail: unregistered low-precision dtype");
+    return 0;
+}
diff --git a/test/dtype/test_scalar.cc b/test/dtype/test_scalar.cc