[bugfix] batch trans on cuda with SM return 700 error (#434)

mag1c-h · web-flow · commit 77f5090fd0e4 · 2025-11-29T11:38:10.000+08:00
cuda trans batch api bug fix
diff --git a/ucm/shared/test/case/trans/trans_test.cc b/ucm/shared/test/case/trans/trans_test.cc
@@ -92,3 +92,50 @@ TEST_F(UCTransUnitTest, CopyDataWithSM)
         ASSERT_EQ(*(size_t*)(((char*)hPtr2.get()) + size * i), i);
     }
 }
+
+TEST_F(UCTransUnitTest, CopyDataBatchWithSM)
+{
+    const auto ok = UC::Status::OK();
+    constexpr int32_t deviceId = 0;
+    constexpr size_t size = 36 * 1024;
+    constexpr size_t number = 64 * 61;
+    UC::Trans::Device device;
+    ASSERT_EQ(device.Setup(deviceId), ok);
+    auto stream = device.MakeSMStream();
+    if (!stream) { return; }
+    auto bDev = device.MakeBuffer();
+    auto bHost1 = device.MakeBuffer();
+    auto bHost2 = device.MakeBuffer();
+    ASSERT_EQ(bDev->MakeDeviceBuffers(size, number), ok);
+    ASSERT_EQ(bHost1->MakeHostBuffers(size, number), ok);
+    ASSERT_EQ(bHost2->MakeHostBuffers(size, number), ok);
+    std::vector<std::shared_ptr<void>> devPtrHolder, host1PtrHolder, host2PtrHolder;
+    void *dPtrArr[number], *h1PtrArr[number], *h2PtrArr[number];
+    for (size_t i = 0; i < number; i++) {
+        auto d = bDev->GetDeviceBuffer(size);
+        auto h1 = bHost1->GetHostBuffer(size);
+        auto h2 = bHost2->GetHostBuffer(size);
+        dPtrArr[i] = d.get();
+        h1PtrArr[i] = h1.get();
+        *(size_t*)h1PtrArr[i] = i;
+        h2PtrArr[i] = h2.get();
+        devPtrHolder.emplace_back(d);
+        host1PtrHolder.emplace_back(h1);
+        host2PtrHolder.emplace_back(h2);
+    }
+    constexpr const auto arrSize = sizeof(void*) * number;
+    auto dPtrArrOnDev = bDev->MakeDeviceBuffer(arrSize);
+    auto h1PtrArrOnDev = bHost1->MakeDeviceBuffer(arrSize);
+    auto h2PtrArrOnDev = bHost2->MakeDeviceBuffer(arrSize);
+    ASSERT_EQ(stream->HostToDeviceAsync((void*)dPtrArr, dPtrArrOnDev.get(), arrSize), ok);
+    ASSERT_EQ(stream->HostToDeviceAsync((void*)h1PtrArr, h1PtrArrOnDev.get(), arrSize), ok);
+    ASSERT_EQ(stream->HostToDeviceAsync((void*)h2PtrArr, h2PtrArrOnDev.get(), arrSize), ok);
+    auto src = (void**)h1PtrArrOnDev.get();
+    auto dst = (void**)dPtrArrOnDev.get();
+    ASSERT_EQ(stream->HostToDeviceAsync(src, dst, size, number), ok);
+    src = (void**)dPtrArrOnDev.get();
+    dst = (void**)h2PtrArrOnDev.get();
+    ASSERT_EQ(stream->DeviceToHostAsync(src, dst, size, number), ok);
+    ASSERT_EQ(stream->Synchronized().Underlying(), ok.Underlying());
+    for (size_t i = 0; i < number; i++) { ASSERT_EQ(*(size_t*)h2PtrArr[i], i); }
+}
diff --git a/ucm/shared/test/example/trans/trans_on_cuda_example.py b/ucm/shared/test/example/trans/trans_on_cuda_example.py
@@ -43,20 +43,42 @@ def wrapper(*args, **kwargs):
 
 
 def make_host_memory(size, number, dtype, fill=False):
+    element_size = np.dtype(dtype).itemsize
+    num_elements = size // element_size
     host = cupy.cuda.alloc_pinned_memory(size * number)
-    host_np = np.frombuffer(host, dtype=dtype)
+    host_np = np.frombuffer(host, dtype=dtype, count=num_elements)
     if fill:
         fixed_len = min(1024, number)
         host_np[:fixed_len] = np.arange(fixed_len, dtype=dtype)
     print("make:", host_np.shape, host_np.itemsize, host_np)
     return host
 
 
-def compare(host1, host2, dtype):
-    host1_np = np.frombuffer(host1, dtype=dtype)
-    host2_np = np.frombuffer(host2, dtype=dtype)
-    print("compare[1]:", host1_np.shape, host1_np.itemsize, host1_np)
-    print("compare[2]:", host2_np.shape, host2_np.itemsize, host2_np)
+def make_batch_host_memory(size, number, dtype, fill=False):
+    element_size = np.dtype(dtype).itemsize
+    num_elements = size // element_size
+    host = []
+    for i in range(number):
+        pinned_mem = cupy.cuda.alloc_pinned_memory(size)
+        np_array = np.frombuffer(pinned_mem, dtype=dtype, count=num_elements)
+        if fill:
+            value = np.uint64(1023 + i)
+            np_array[0] = value
+            np_array[-1] = value
+        host.append(pinned_mem)
+        if i == 0:
+            print("make:", np_array.shape, np_array.itemsize, np_array)
+    return host
+
+
+def compare(host1, host2, size, dtype, show_detail=True):
+    element_size = np.dtype(dtype).itemsize
+    num_elements = size // element_size
+    host1_np = np.frombuffer(host1, dtype=dtype, count=num_elements)
+    host2_np = np.frombuffer(host2, dtype=dtype, count=num_elements)
+    if show_detail:
+        print("compare[1]:", host1_np.shape, host1_np.itemsize, host1_np)
+        print("compare[2]:", host2_np.shape, host2_np.itemsize, host2_np)
     return np.array_equal(host1_np, host2_np)
 
 
@@ -73,7 +95,7 @@ def trans_with_ce(d, size, number, dtype):
     cost = time.perf_counter() - tp
     print(f"cost: {cost}s")
     print(f"bandwidth: {size * number / cost / 1e9}GB/s")
-    assert compare(host1, host2, dtype)
+    assert compare(host1, host2, size, dtype)
 
 
 @test_wrap
@@ -91,7 +113,7 @@ def trans_with_sm(d, size, number, dtype):
     cost = time.perf_counter() - tp
     print(f"cost: {cost}s")
     print(f"bandwidth: {size * number / cost / 1e9}GB/s")
-    assert compare(host1, host2, dtype)
+    assert compare(host1, host2, size, dtype)
 
 
 @test_wrap
@@ -108,7 +130,7 @@ def trans_with_ce_async(d, size, number, dtype):
     cost = time.perf_counter() - tp
     print(f"cost: {cost}s")
     print(f"bandwidth: {size * number / cost / 1e9}GB/s")
-    assert compare(host1, host2, dtype)
+    assert compare(host1, host2, size, dtype)
 
 
 @test_wrap
@@ -127,7 +149,97 @@ def trans_with_sm_async(d, size, number, dtype):
     cost = time.perf_counter() - tp
     print(f"cost: {cost}s")
     print(f"bandwidth: {size * number / cost / 1e9}GB/s")
-    assert compare(host1, host2, dtype)
+    assert compare(host1, host2, size, dtype)
+
+
+@test_wrap
+def trans_batch_with_ce(d, size, number, dtype):
+    s = d.MakeStream()
+    host1 = make_batch_host_memory(size, number, dtype, True)
+    host1_ptr = np.array([h.ptr for h in host1], dtype=np.uint64)
+    device = [cupy.empty(size, dtype=np.uint8) for _ in range(number)]
+    device_ptr = np.array([d.data.ptr for d in device], dtype=np.uint64)
+    host2 = make_batch_host_memory(size, number, dtype)
+    host2_ptr = np.array([h.ptr for h in host2], dtype=np.uint64)
+    tp = time.perf_counter()
+    s.HostToDeviceBatch(host1_ptr, device_ptr, size, number)
+    s.DeviceToHostBatch(device_ptr, host2_ptr, size, number)
+    cost = time.perf_counter() - tp
+    print(f"cost: {cost}s")
+    print(f"bandwidth: {size * number / cost / 1e9}GB/s")
+    for h1, h2 in zip(host1, host2):
+        assert compare(h1, h2, size, dtype, False)
+
+
+@test_wrap
+def trans_batch_with_sm(dev, size, number, dtype):
+    s = dev.MakeSMStream()
+    h1 = make_batch_host_memory(size, number, dtype, True)
+    h1_ptr = np.array([h.ptr for h in h1], dtype=np.uint64)
+    h1_ptr_cupy = cupy.empty(number, dtype=np.uint64)
+    h1_ptr_cupy.set(h1_ptr)
+    d = [cupy.empty(size, dtype=np.uint8) for _ in range(number)]
+    d_ptr = np.array([d.data.ptr for d in d], dtype=np.uint64)
+    d_ptr_cupy = cupy.empty(number, dtype=np.uint64)
+    d_ptr_cupy.set(d_ptr)
+    h2 = make_batch_host_memory(size, number, dtype)
+    h2_ptr = np.array([h.ptr for h in h2], dtype=np.uint64)
+    h2_ptr_cupy = cupy.empty(number, dtype=np.uint64)
+    h2_ptr_cupy.set(h2_ptr)
+    tp = time.perf_counter()
+    s.HostToDeviceBatch(h1_ptr_cupy.data.ptr, d_ptr_cupy.data.ptr, size, number)
+    s.DeviceToHostBatch(d_ptr_cupy.data.ptr, h2_ptr_cupy.data.ptr, size, number)
+    cost = time.perf_counter() - tp
+    print(f"cost: {cost}s")
+    print(f"bandwidth: {size * number / cost / 1e9}GB/s")
+    for x, y in zip(h1, h2):
+        assert compare(x, y, size, dtype, False)
+
+
+@test_wrap
+def trans_batch_with_ce_async(d, size, number, dtype):
+    s = d.MakeStream()
+    host1 = make_batch_host_memory(size, number, dtype, True)
+    host1_ptr = np.array([h.ptr for h in host1], dtype=np.uint64)
+    device = [cupy.empty(size, dtype=np.uint8) for _ in range(number)]
+    device_ptr = np.array([d.data.ptr for d in device], dtype=np.uint64)
+    host2 = make_batch_host_memory(size, number, dtype)
+    host2_ptr = np.array([h.ptr for h in host2], dtype=np.uint64)
+    tp = time.perf_counter()
+    s.HostToDeviceBatchAsync(host1_ptr, device_ptr, size, number)
+    s.DeviceToHostBatchAsync(device_ptr, host2_ptr, size, number)
+    s.Synchronized()
+    cost = time.perf_counter() - tp
+    print(f"cost: {cost}s")
+    print(f"bandwidth: {size * number / cost / 1e9}GB/s")
+    for h1, h2 in zip(host1, host2):
+        assert compare(h1, h2, size, dtype, False)
+
+
+@test_wrap
+def trans_batch_with_sm_async(dev, size, number, dtype):
+    s = dev.MakeSMStream()
+    h1 = make_batch_host_memory(size, number, dtype, True)
+    h1_ptr = np.array([h.ptr for h in h1], dtype=np.uint64)
+    h1_ptr_cupy = cupy.empty(number, dtype=np.uint64)
+    h1_ptr_cupy.set(h1_ptr)
+    d = [cupy.empty(size, dtype=np.uint8) for _ in range(number)]
+    d_ptr = np.array([d.data.ptr for d in d], dtype=np.uint64)
+    d_ptr_cupy = cupy.empty(number, dtype=np.uint64)
+    d_ptr_cupy.set(d_ptr)
+    h2 = make_batch_host_memory(size, number, dtype)
+    h2_ptr = np.array([h.ptr for h in h2], dtype=np.uint64)
+    h2_ptr_cupy = cupy.empty(number, dtype=np.uint64)
+    h2_ptr_cupy.set(h2_ptr)
+    tp = time.perf_counter()
+    s.HostToDeviceBatchAsync(h1_ptr_cupy.data.ptr, d_ptr_cupy.data.ptr, size, number)
+    s.DeviceToHostBatchAsync(d_ptr_cupy.data.ptr, h2_ptr_cupy.data.ptr, size, number)
+    s.Synchronized()
+    cost = time.perf_counter() - tp
+    print(f"cost: {cost}s")
+    print(f"bandwidth: {size * number / cost / 1e9}GB/s")
+    for x, y in zip(h1, h2):
+        assert compare(x, y, size, dtype, False)
 
 
 def main():
@@ -143,6 +255,10 @@ def main():
     trans_with_sm(d, size, number, dtype)
     trans_with_ce_async(d, size, number, dtype)
     trans_with_sm_async(d, size, number, dtype)
+    trans_batch_with_ce(d, size, number, dtype)
+    trans_batch_with_sm(d, size, number, dtype)
+    trans_batch_with_ce_async(d, size, number, dtype)
+    trans_batch_with_sm_async(d, size, number, dtype)
 
 
 if __name__ == "__main__":
diff --git a/ucm/shared/trans/cuda/cuda_sm_kernel.cu b/ucm/shared/trans/cuda/cuda_sm_kernel.cu
@@ -94,8 +94,8 @@ __global__ void CudaCopyKernel(const void* src, void** dst, size_t size, size_t
 cudaError_t CudaSMCopyAsync(void* src[], void* dst[], size_t size, size_t number,
                             cudaStream_t stream)
 {
-    CudaCopyKernel<<<CUDA_TRANS_BLOCK_NUMBER, CUDA_TRANS_BLOCK_SIZE, 0, stream>>>(src, dst, size,
-                                                                                  number);
+    CudaCopyKernel<<<CUDA_TRANS_BLOCK_NUMBER, CUDA_TRANS_BLOCK_SIZE, 0, stream>>>(
+        (const void**)src, dst, size, number);
     return cudaGetLastError();
 }
 
@@ -108,8 +108,8 @@ cudaError_t CudaSMCopyAsync(void* src[], void* dst, size_t size, size_t number,
 
 cudaError_t CudaSMCopyAsync(void* src, void* dst[], size_t size, size_t number, cudaStream_t stream)
 {
-    CudaCopyKernel<<<CUDA_TRANS_BLOCK_NUMBER, CUDA_TRANS_BLOCK_SIZE, 0, stream>>>(src, dst, size,
-                                                                                  number);
+    CudaCopyKernel<<<CUDA_TRANS_BLOCK_NUMBER, CUDA_TRANS_BLOCK_SIZE, 0, stream>>>(
+        (const void*)src, dst, size, number);
     return cudaGetLastError();
 }
 

Original file line number	Diff line number	Diff line change
`@@ -94,8 +94,8 @@ __global__ void CudaCopyKernel(const void* src, void** dst, size_t size, size_t`
`94`	`94`	`cudaError_t CudaSMCopyAsync(void* src[], void* dst[], size_t size, size_t number,`
`95`	`95`	`cudaStream_t stream)`
`96`	`96`	`{`
`97`		`- CudaCopyKernel<<<CUDA_TRANS_BLOCK_NUMBER, CUDA_TRANS_BLOCK_SIZE, 0, stream>>>(src, dst, size,`
`98`		`- number);`
	`97`	`+ CudaCopyKernel<<<CUDA_TRANS_BLOCK_NUMBER, CUDA_TRANS_BLOCK_SIZE, 0, stream>>>(`
	`98`	`+ (const void**)src, dst, size, number);`
`99`	`99`	`return cudaGetLastError();`
`100`	`100`	`}`
`101`	`101`
`@@ -108,8 +108,8 @@ cudaError_t CudaSMCopyAsync(void* src[], void* dst, size_t size, size_t number,`
`108`	`108`
`109`	`109`	`cudaError_t CudaSMCopyAsync(void* src, void* dst[], size_t size, size_t number, cudaStream_t stream)`
`110`	`110`	`{`
`111`		`- CudaCopyKernel<<<CUDA_TRANS_BLOCK_NUMBER, CUDA_TRANS_BLOCK_SIZE, 0, stream>>>(src, dst, size,`
`112`		`- number);`
	`111`	`+ CudaCopyKernel<<<CUDA_TRANS_BLOCK_NUMBER, CUDA_TRANS_BLOCK_SIZE, 0, stream>>>(`
	`112`	`+ (const void*)src, dst, size, number);`
`113`	`113`	`return cudaGetLastError();`
`114`	`114`	`}`
`115`	`115`