在 GKE 中为 ArangoDB 和 NATS JetStream 构建可隔离的事务性集成测试环境

后端架构

文章字数: 4.2k

阅读时长: 19 分

我们面临一个典型的事件驱动架构难题。一个部署在 GKE 上的微服务需要消费 NATS JetStream 的消息，然后对 ArangoDB 中的图数据执行一个复杂的多文档事务操作。业务逻辑本身并不晦涩：当一个USER_CONNECTED事件到达时，我们需要在一个事务中创建用户节点、设备节点，并建立它们之间的HAS_DEVICE边。如果任何一步失败，整个操作必须回滚，且 NATS 消息不能被确认（ack），以便后续重试。

最初的实现很简单，但测试却成了一场灾难。单元测试里充斥着对 NATS 和 ArangoDB 客户端的复杂 Mock。这些 Mock 代码不仅难以维护，而且根本无法真实反映事务行为。比如，我们无法在 Mock 中有效模拟 ArangoDB 事务因并发写入而失败的场景，也无法验证 NATS 消息在处理失败后是否真的被Nak()了。这导致我们的 CI 流水线充满了脆弱的、信任度低的测试，真正的 Bug 只有在集成环境甚至准生产环境才暴露出来。

我们需要一种更高保真度的测试方案。它必须满足几个关键要求：

高保真 (High-Fidelity): 测试环境必须使用真实的 ArangoDB 和 NATS JetStream 实例，而不是 Mock。
隔离性 (Isolation): 每个测试套件的运行都应该拥有一个干净、独立的数据库和消息队列实例，避免测试用例间的数据污染。
CI友好 (CI-Friendly): 整个测试环境的启停必须是自动化的，能够无缝集成到基于 GKE 的 CI/CD 流水线中，无需手动配置。
性能可接受 (Performant): 虽然比纯单元测试慢，但启动和销毁测试环境的开销必须控制在合理范围内。

在真实项目中，我们放弃了基于 docker-compose 的方案，因为它不够灵活，难以通过代码进行精细化的生命周期管理。最终，我们选择了 Testcontainers-Go 这个库。它允许我们在 Go 测试代码中以编程方式启动和管理任何 Docker 容器，为我们实现上述目标提供了完美的工具。

第一步：服务骨架与不可测试的代码

我们先来看一下服务最初的结构。这是一个典型的 Go 服务，分为 handler 层和 repository 层。

项目结构如下：

.
├── go.mod
├── go.sum
├── main.go
├── handler
│   └── event_handler.go
└── repository
    └── graph_repository.go

repository/graph_repository.go 负责与 ArangoDB 交互。注意，这里的 CreateUserAndDeviceTransaction 使用了 ArangoDB 的 Stream Transaction API，这是保证原子性的关键。

// repository/graph_repository.go
package repository

import (
	"context"
	"crypto/tls"
	"fmt"
	"time"

	driver "github.com/arangodb/go-driver"
	"github.com/arangodb/go-driver/http"
)

// GraphRepository defines the interface for graph database operations.
type GraphRepository struct {
	db driver.Database
}

// NewGraphRepository creates a new repository instance.
// 在真实项目中，配置应该来自环境变量或配置文件。
func NewGraphRepository(ctx context.Context, endpoint, user, password string) (*GraphRepository, error) {
	conn, err := http.NewConnection(http.ConnectionConfig{
		Endpoints: []string{endpoint},
		TLSConfig: &tls.Config{InsecureSkipVerify: true},
	})
	if err != nil {
		return nil, fmt.Errorf("failed to create HTTP connection: %w", err)
	}

	client, err := driver.NewClient(driver.ClientConfig{
		Connection:     conn,
		Authentication: driver.BasicAuthentication(user, password),
	})
	if err != nil {
		return nil, fmt.Errorf("failed to create ArangoDB client: %w", err)
	}

	db, err := client.Database(ctx, "_system")
	if err != nil {
		return nil, fmt.Errorf("failed to get database: %w", err)
	}

	return &GraphRepository{db: db}, nil
}

type UserDeviceData struct {
	UserID   string `json:"userId"`
	DeviceID string `json:"deviceId"`
}

// CreateUserAndDeviceTransaction creates a user, a device, and connects them in a single transaction.
func (r *GraphRepository) CreateUserAndDeviceTransaction(ctx context.Context, data UserDeviceData) error {
	// 这里的 JavaScript 事务代码是 ArangoDB 的核心功能之一。
	// 它能保证多个文档操作的原子性。
	jsTransaction := `
    function (params) {
        const db = require('@arangodb').db;
        const users = db._collection('users');
        const devices = db._collection('devices');
        const has_device = db._collection('has_device');

        // AQL 查询在事务中不是必须的，但这里展示了其可能性。
        // let userExists = db._query("FOR u IN users FILTER u._key == @userId RETURN 1", { userId: params.userId }).toArray().length > 0;
        // if (userExists) {
        //   return "user already exists"; // 可自定义错误信息
        // }

        const user = users.insert({ _key: params.userId, created_at: Date.now() }, { returnNew: true });
        const device = devices.insert({ _key: params.deviceId, type: 'mobile' }, { returnNew: true });
        has_device.insert({ _from: user.new._id, _to: device.new._id, connected_at: Date.now() });

        return "ok";
    }`

	// 事务定义
	action := driver.TransactionAction{
		Action: jsTransaction,
		Params: map[string]interface{}{
			"userId":   data.UserID,
			"deviceId": data.DeviceID,
		},
		// 关键：声明事务需要写入的集合
		Write: []string{"users", "devices", "has_device"},
	}

	// 执行事务
	_, err := r.db.Transaction(ctx, action, nil)
	if err != nil {
		return fmt.Errorf("transaction failed: %w", err)
	}
	return nil
}

接着是 handler/event_handler.go，它负责消费 NATS 消息并调用 repository。

// handler/event_handler.go
package handler

import (
	"context"
	"encoding/json"
	"log"
	"time"

	"github.com/nats-io/nats.go"
	"github.com/your-org/graph-svc/repository"
)

type EventHandler struct {
	repo *repository.GraphRepository
	js   nats.JetStreamContext
}

func NewEventHandler(repo *repository.GraphRepository, natsURL string) (*EventHandler, error) {
	nc, err := nats.Connect(natsURL, nats.Timeout(10*time.Second), nats.RetryOnFailedConnect(true))
	if err != nil {
		return nil, err
	}

	js, err := nc.JetStream()
	if err != nil {
		return nil, err
	}
	
	// 在真实项目中，Stream和Consumer的创建应该是幂等的，并且配置更复杂
	_, err = js.AddStream(&nats.StreamConfig{
		Name:     "EVENTS",
		Subjects: []string{"EVENTS.user.connected"},
	})
	if err != nil {
		return nil, err
	}

	return &EventHandler{repo: repo, js: js}, nil
}

func (h *EventHandler) SubscribeAndProcess(ctx context.Context) error {
	// Pull-based 订阅提供了更好的流量控制
	sub, err := h.js.PullSubscribe(
		"EVENTS.user.connected",
		"graph-processor", // Durable consumer name
		nats.PullMaxWaiting(128),
	)
	if err != nil {
		return err
	}

	go func() {
		for {
			select {
			case <-ctx.Done():
				log.Println("Context cancelled, stopping subscription.")
				return
			default:
				// Fetch 1 message, wait up to 10 seconds
				msgs, err := sub.Fetch(1, nats.MaxWait(10*time.Second))
				if err != nil {
					if err == nats.ErrTimeout {
						continue
					}
					log.Printf("Error fetching message: %v", err)
					continue
				}

				for _, msg := range msgs {
					h.processMessage(ctx, msg)
				}
			}
		}
	}()

	return nil
}

func (h *EventHandler) processMessage(ctx context.Context, msg *nats.Msg) {
	var data repository.UserDeviceData
	if err := json.Unmarshal(msg.Data, &data); err != nil {
		log.Printf("Failed to unmarshal message data: %v. Acknowledging to avoid retry.", err)
		msg.Ack() // 消息格式错误，直接确认，避免无限重试
		return
	}

	// 核心业务逻辑
	err := h.repo.CreateUserAndDeviceTransaction(ctx, data)
	if err != nil {
		log.Printf("Failed to process event for user %s: %v. Not acknowledging.", data.UserID, err)
		// 这里的 Nak 很重要，它告诉 JetStream 消息处理失败，需要重传
		msg.NakWithDelay(30 * time.Second)
		return
	}

	log.Printf("Successfully processed event for user %s", data.UserID)
	msg.Ack()
}

这段代码直接连接真实的 NATS 和 ArangoDB，没有任何测试支持。为它编写单元测试，你就必须 Mock driver.Database 和 nats.JetStreamContext 这两个复杂的接口，这正是我们想避免的。

第二步：引入 Testcontainers 搭建隔离测试环境

现在，我们来改造它，使其可测试。我们将创建一个 main_test.go 文件，利用 Testcontainers 来搭建一个完整的、临时的测试环境。

首先，确保你的 go.mod 包含了必要的依赖：

go get github.com/testcontainers/testcontainers-go
go get github.com/testcontainers/testcontainers-go/modules/arangodb
go get github.com/nats-io/nats.go
go get github.com/arangodb/go-driver

main_test.go 的核心是 setup 和 teardown 逻辑。我们使用 TestMain 函数来统一管理容器的生命周期，这样所有测试用例可以共享同一套容器实例，从而节省启动时间。

// main_test.go
package main

import (
	"context"
	"encoding/json"
	"fmt"
	"log"
	"os"
	"testing"
	"time"

	driver "github.com/arangodb/go-driver"
	"github.com/nats-io/nats.go"
	"github.com/stretchr/testify/require"
	"github.com/testcontainers/testcontainers-go"
	"github.com/testcontainers/testcontainers-go/modules/arangodb"
	tc "github.com/testcontainers/testcontainers-go/modules/compose"
	"github.com/your-org/graph-svc/handler"
	"github.com/your-org/graph-svc/repository"
)

var (
	arangoRepo *repository.GraphRepository
	natsJS     nats.JetStreamContext
	natsConn   *nats.Conn
	arangoDB   driver.Database
)

// TestMain 是测试的入口，负责启动和销毁所有依赖的容器
func TestMain(m *testing.M) {
	ctx := context.Background()

	// 1. 启动 ArangoDB 容器
	// 使用 Testcontainers 提供的 ArangoDB 模块，简化了配置
	arangoContainer, err := arangodb.RunContainer(ctx,
		testcontainers.WithImage("arangodb:3.11"),
		arangodb.WithPassword("testpassword"),
	)
	if err != nil {
		log.Fatalf("could not start arango container: %s", err)
	}
	defer func() {
		if err := arangoContainer.Terminate(ctx); err != nil {
			log.Fatalf("failed to terminate arango container: %s", err)
		}
	}()

	arangoEndpoint, err := arangoContainer.Endpoint(ctx, "")
	if err != nil {
		log.Fatalf("failed to get arango endpoint: %s", err)
	}

	// 2. 启动 NATS 容器
	// 使用通用的容器模块，并通过命令行参数启动 JetStream
	natsReq := testcontainers.ContainerRequest{
		Image:        "nats:2.9-alpine",
		ExposedPorts: []string{"4222/tcp", "8222/tcp"},
		Cmd:          []string{"-js"}, // 关键：启动 JetStream
	}
	natsContainer, err := testcontainers.GenericContainer(ctx, testcontainers.GenericContainerRequest{
		ContainerRequest: natsReq,
		Started:          true,
	})
	if err != nil {
		log.Fatalf("could not start nats container: %s", err)
	}
	defer func() {
		if err := natsContainer.Terminate(ctx); err != nil {
			log.Fatalf("failed to terminate nats container: %s", err)
		}
	}()

	natsEndpoint, err := natsContainer.Endpoint(ctx, "")
	if err != nil {
		log.Fatalf("failed to get nats endpoint: %s", err)
	}

	// 3. 初始化客户端连接
	// 连接到刚刚启动的临时容器实例
	arangoRepo, err = repository.NewGraphRepository(ctx, arangoEndpoint, "root", "testpassword")
	if err != nil {
		log.Fatalf("failed to create repo for testing: %s", err)
	}
	
	// 在测试中，我们需要直接访问 arangoDB client 以便进行数据清理和验证
	arangoClient, _ := arangoContainer.Client(ctx)
	arangoDB, _ = arangoClient.Database(ctx, "_system")


	natsConn, err = nats.Connect(natsEndpoint)
	if err != nil {
		log.Fatalf("failed to connect to nats: %s", err)
	}
	natsJS, err = natsConn.JetStream()
	if err != nil {
		log.Fatalf("failed to get jetstream context: %s", err)
	}

	// 4. 执行测试
	exitCode := m.Run()

	// 5. 退出
	os.Exit(exitCode)
}

// setupTestInfra 是每个测试用例执行前都需要调用的辅助函数
// 它负责清理和创建 ArangoDB 的集合以及 NATS 的 Stream
func setupTestInfra(t *testing.T) {
	ctx := context.Background()
	collections := []string{"users", "devices", "has_device"}

	// 清理 ArangoDB 集合，确保测试隔离
	for _, collName := range collections {
		coll, err := arangoDB.Collection(ctx, collName)
		if err == nil {
			err = coll.Remove(ctx)
			require.NoError(t, err)
		}
	}
	
	// 创建 ArangoDB 集合
	for _, collName := range collections {
		opts := &driver.CreateCollectionOptions{}
		if collName == "has_device" {
			opts.Type = driver.CollectionTypeEdge
		}
		_, err := arangoDB.CreateCollection(ctx, collName, opts)
		require.NoError(t, err)
	}

	// 清理并创建 NATS Stream
	streamName := "EVENTS"
	err := natsJS.DeleteStream(streamName)
	if err != nil && err != nats.ErrStreamNotFound {
		require.NoError(t, err)
	}

	_, err = natsJS.AddStream(&nats.StreamConfig{
		Name:     streamName,
		Subjects: []string{"EVENTS.user.connected"},
		Storage:  nats.MemoryStorage, // 测试中使用内存存储更快
	})
	require.NoError(t, err)
}

这里的 TestMain 函数是核心。它按顺序启动了 ArangoDB 和 NATS 容器，然后初始化了连接。defer 语句确保了测试结束后容器会被清理掉。setupTestInfra 函数则保证了每个测试用例开始前，都有一个干净的数据环境。这是一个常见的错误点：仅仅启动容器是不够的，必须在每个测试之间重置数据状态。

第三步：编写高保真度的集成测试用例

有了测试环境，我们现在可以编写真正的集成测试了。我们将测试两个核心场景：

成功场景： 消息被正确处理，数据被成功写入 ArangoDB，消息被 ack。
失败场景： ArangoDB 事务失败（例如，由于重复键），数据不被写入，消息被 nak，以便重试。

sequenceDiagram
    participant Test as Test Code
    participant NATS as NATS JetStream (Container)
    participant Handler as Event Handler (SUT)
    participant ArangoDB as ArangoDB (Container)

    Test->>NATS: Publish "user_connected" event
    NATS->>Handler: Delivers message
    Handler->>ArangoDB: Execute Transaction
    alt Success Case
        ArangoDB-->>Handler: Transaction OK
        Handler->>NATS: Ack Message
        Test->>ArangoDB: Verify data exists
        Test->>NATS: Verify message is gone
    else Failure Case (e.g., duplicate key)
        ArangoDB-->>Handler: Transaction Failed
        Handler->>NATS: Nak Message
        Test->>ArangoDB: Verify data does NOT exist
        Test->>NATS: Verify message is available for redelivery
    end

上面的 Mermaid 图清晰地展示了测试流程。下面是具体的测试代码。

// main_test.go (continued)

// TestEventHandler_SuccessPath 测试了消息成功处理的完整流程
func TestEventHandler_SuccessPath(t *testing.T) {
	setupTestInfra(t)
	ctx, cancel := context.WithCancel(context.Background())
	defer cancel()

	// 1. 初始化被测系统 (SUT - System Under Test)
	// 注意，我们没有直接调用 NewEventHandler，因为它会尝试连接并创建 Stream。
	// 在测试中，我们手动注入已经连接好的客户端。
	evtHandler := &handler.EventHandler{} 
    // 使用反射或修改构造函数来注入依赖，这里为了简单直接设置
	setUnexportedField(t, evtHandler, "repo", arangoRepo)
	setUnexportedField(t, evtHandler, "js", natsJS)

	// 启动消息处理器
	err := evtHandler.SubscribeAndProcess(ctx)
	require.NoError(t, err)

	// 2. 准备测试数据并发布消息
	testData := repository.UserDeviceData{
		UserID:   "user-123",
		DeviceID: "device-abc",
	}
	payload, _ := json.Marshal(testData)
	_, err = natsJS.Publish("EVENTS.user.connected", payload)
	require.NoError(t, err)

	// 3. 验证结果
	// 这里的难点在于事件处理是异步的。我们需要轮询来验证结果。
	// 在真实项目中，这是一个需要仔细设计的地方，避免测试不稳定。
	require.Eventually(t, func() bool {
		// 验证 ArangoDB 中数据是否正确创建
		var userDoc struct{ _key string }
		users, _ := arangoDB.Collection(ctx, "users")
		_, err := users.ReadDocument(ctx, "user-123", &userDoc)
		return err == nil
	}, 5*time.Second, 100*time.Millisecond, "user document should be created in ArangoDB")

	// 也可以验证边是否存在
	query := "FOR v, e IN 1..1 OUTBOUND 'users/user-123' has_device RETURN e"
	cursor, err := arangoDB.Query(ctx, query, nil)
	require.NoError(t, err)
	defer cursor.Close()
	
	count := 0
	for cursor.HasMore() {
		var edge map[string]interface{}
		_, err := cursor.ReadDocument(ctx, &edge)
		require.NoError(t, err)
		count++
	}
	require.Equal(t, 1, count, "should find one edge from user to device")
}


// TestEventHandler_TransactionFailurePath 测试了事务失败和消息Nack的场景
func TestEventHandler_TransactionFailurePath(t *testing.T) {
	setupTestInfra(t)
	ctx, cancel := context.WithCancel(context.Background())
	defer cancel()

	// 1. 预置冲突数据
	// 我们先手动插入一个同名用户，这将导致后续的事务因主键冲突而失败。
	users, err := arangoDB.Collection(ctx, "users")
	require.NoError(t, err)
	_, err = users.CreateDocument(ctx, map[string]string{"_key": "user-456"})
	require.NoError(t, err)

	// 2. 初始化并启动 SUT
	evtHandler := &handler.EventHandler{}
	setUnexportedField(t, evtHandler, "repo", arangoRepo)
	setUnexportedField(t, evtHandler, "js", natsJS)
	err = evtHandler.SubscribeAndProcess(ctx)
	require.NoError(t, err)

	// 3. 发布会导致失败的消息
	testData := repository.UserDeviceData{
		UserID:   "user-456", // 这个用户已存在
		DeviceID: "device-xyz",
	}
	payload, _ := json.Marshal(testData)
	_, err = natsJS.Publish("EVENTS.user.connected", payload)
	require.NoError(t, err)
	
	// 等待一小段时间让消息被处理
	time.Sleep(2 * time.Second) 

	// 4. 验证失败场景的副作用
	// 验证 device-xyz *没有* 被创建，证明事务回滚了
	devices, _ := arangoDB.Collection(ctx, "devices")
	_, err = devices.ReadDocument(ctx, "device-xyz", nil)
	require.Error(t, err)
	require.True(t, driver.IsNotFound(err), "device should not be created due to transaction rollback")
	
	// 验证 NATS 消息没有被 ack
	// 我们可以通过检查 consumer 的信息来确认
	consumerInfo, err := natsJS.ConsumerInfo("EVENTS", "graph-processor")
	require.NoError(t, err)
	// NumPending > 0 意味着有消息正在等待处理（或重试）
	// NumAckPending > 0 意味着有消息被投递但还未确认
	require.True(t, consumerInfo.NumPending > 0 || consumerInfo.NumAckPending > 0, "message should be pending or ack_pending after a NAK")
}

// 辅助函数，用于设置私有字段
func setUnexportedField(t *testing.T, obj interface{}, fieldName string, value interface{}) {
	// This is a simplified example. In a real project, consider refactoring
	// the SUT to allow dependency injection without reflection.
	// For brevity, we skip the reflection implementation here.
	// You can find standard ways to do this online if needed.
	// Or, better, refactor your NewEventHandler to accept an existing nats.JetStreamContext.
	// e.g., func NewEventHandler(repo, js)
}

注意: setUnexportedField 在这里是一个占位符。在实际项目中，最好的做法是重构 NewEventHandler，使其能够接受一个已经存在的 nats.JetStreamContext 实例，从而实现依赖注入，而不是使用反射这种 hacky 的方式。

部署到 GKE 的考量

这套测试方案在本地开发和 CI/CD 流程中非常有效。在 GitLab CI 或 GitHub Actions 中，你只需确保 runner 有 Docker 环境即可。

当服务本身部署到 GKE 时，配置会从测试中的临时地址变为生产地址。例如，服务的 Deployment YAML 可能如下所示，通过环境变量注入 NATS 和 ArangoDB 的地址：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: graph-processor
spec:
  replicas: 3
  selector:
    matchLabels:
      app: graph-processor
  template:
    metadata:
      labels:
        app: graph-processor
    spec:
      containers:
      - name: processor
        image: your-registry/graph-processor:v1.0.0
        env:
        - name: NATS_URL
          value: "nats://nats.default.svc.cluster.local:4222"
        - name: ARANGO_ENDPOINT
          value: "http://arango-cluster.default.svc.cluster.local:8529"
        - name: ARANGO_USER
          valueFrom:
            secretKeyRef:
              name: arango-credentials
              key: username
        - name: ARANGO_PASSWORD
          valueFrom:
            secretKeyRef:
              name: arango-credentials
              key: password

这种测试策略的美妙之处在于，业务代码 (handler 和 repository) 无需任何修改就能在生产环境和测试环境中运行。它不知道自己连接的是一个临时的 Docker 容器还是一个 GKE 上的生产集群，从而实现了环境无关性。

方案的局限性与未来迭代

尽管 Testcontainers 方案极大地提升了我们的测试信心和效率，但它并非银弹。
首先，容器的启动和初始化仍然存在时间开销。对于一个大型项目，拥有几十个这样的测试套件，完整的测试运行时间可能会累积到几分钟。这对于追求秒级反馈的 TDD 实践者来说可能还是太慢。一种优化策略是共享容器实例，并利用数据库的 schema 或 NATS 的 subject 命名空间来隔离不同测试套件，但这会增加测试代码的复杂性。

其次，此方案主要解决的是单个微服务的集成测试。它无法验证服务间的契约或端到端的业务流程。对于跨多个微服务的场景，我们还需要引入更高层次的测试策略，例如基于 Pact 的消费者驱动契约测试，或者在预发环境中进行端到端（E2E）测试。

最后，对于需要特定硬件（如 GPU）或复杂网络拓扑的服务，Testcontainers 的模拟能力有限。在这种情况下，可能需要一个由 Kubernetes Operator 管理的、更接近生产环境的动态测试集群。但这已经超出了单个服务测试的范畴，进入了平台工程的领域。

单元测试 ArangoDB NATS GCP GKE

构建基于CircleCI与Playwright的Saga模式自动化韧性测试管道

2023-10-27 分布式系统

Two-Phase Commit (2PC) CircleCI Playwright Azure Service Bus Saga 韧性工程

构建基于Git对象模型与Redis Streams的Turbopack实时分布式缓存

2023-10-27 平台工程

DevOps Turbopack Redis Streams Git CI/CD