构建基于OpenFaaS与Apollo的动态混沌工程注入函数

云原生

文章字数: 3.9k

阅读时长: 16 分

为Serverless架构下的服务编写韧性测试时，一个棘手的问题是如何模拟下游依赖的故障。硬编码的延迟或错误返回逻辑，不仅污染业务代码，而且每次调整实验参数都需要重新部署，流程极其僵化。在真实项目中，我们需要的是一种非侵入式、可动态配置、能精确控制“爆炸半径”的故障注入机制。

我们的目标是构建一个独立的、可复用的混沌工程函数，它像一个可编程的代理，横亘在服务调用链之间。这个函数的行为——例如是否注入延迟、注入多长的延迟、或者返回一个模拟的错误——完全由外部配置中心动态决定，无需任何代码变更或服务重启。

初步构想与技术选型

最初的方案是利用API网关（如Kong）的插件机制。这个方案足够强大，但对于没有统一网关或者服务调用关系复杂的场景，维护成本很高。另一个思路是Service Mesh，它能在网络层面实现透明的故障注入，但这对于许多团队来说技术栈过重。

我们决定采用更轻量级的方案：一个OpenFaaS函数。

执行层 - OpenFaaS: OpenFaaS提供了一个极简的Serverless运行时。我们可以创建一个函数，它接收外部请求，然后将请求转发给真正的目标服务。所有的混沌实验逻辑都在这个转发函数中执行。部署一个混沌函数实例，就相当于为目标服务创建了一个“混沌代理”。这种方式对现有服务零侵入。
控制层 - Apollo: 如何动态控制这个混沌函数的行为？环境变量或函数部署时的Annotation是静态的。我们需要一个能实时推送配置变更的系统。Apollo配置中心是理想选择。混沌函数内嵌Apollo客户端，监听特定命名空间下的配置。运维或测试人员只需在Apollo界面上修改几个键值对，就能实时开启、关闭或调整混沌实验的参数。
验证层 - 自动化测试: 混沌工程的核心是“在受控环境中进行实验”。因此，不仅混沌注入逻辑本身需要被测试，我们更需要一套集成测试来验证当混沌发生时，我们的主业务系统是否表现出预期的韧性。

步骤化实现：构建混沌注入函数

我们将创建一个名为 chaos-injector 的Python函数，它作为通用代理，其行为由Apollo配置驱动。

1. 函数基本结构与部署

首先，初始化一个标准的 python3-http 模板的OpenFaaS函数。

faas-cli new chaos-injector --lang python3-http

核心逻辑位于 chaos-injector/handler.py。它需要做三件事：获取Apollo配置、根据配置执行混沌逻辑、将请求转发到目标服务。目标服务的地址将通过环境变量传入，这让函数本身保持通用性。

chaos-injector/stack.yml 的配置如下：

version: 1.0
provider:
  name: openfaas
  gateway: http://127.0.0.1:8080

functions:
  chaos-injector:
    lang: python3-http
    handler: ./chaos-injector
    image: your-docker-hub/chaos-injector:0.1.0
    # 核心配置：通过环境变量指定目标服务
    # 在真实场景中，这是你要注入故障的服务的内部访问地址
    environment:
      TARGET_SERVICE_URL: "http://gateway.openfaas:8080/function/user-profile"
      # Apollo 配置
      APOLLO_APP_ID: "chaos-engineering-platform"
      APOLLO_CLUSTER: "default"
      APOLLO_CONFIG_SERVER_URL: "http://your-apollo-server:8080"
      # 用于区分不同混沌实验的命名空间
      APOLLO_NAMESPACE: "chaos.user-profile.v1"

这里的关键是 TARGET_SERVICE_URL 和 APOLLO_NAMESPACE。我们可以部署多个 chaos-injector 实例，每个实例通过不同的环境变量指向不同的目标服务和Apollo命名空间，从而实现对不同服务的独立混沌实验。

2. 集成Apollo客户端并实现动态配置逻辑

我们需要 apollo-client-python 库来与Apollo交互。

chaos-injector/requirements.txt:

requests
apollo-client-python

现在，我们来编写核心的 handler.py。在生产环境中，Apollo客户端的初始化和配置读取必须是健壮的。它不能因为配置中心的瞬时故障而导致整个函数崩溃。一个常见的错误是每次请求都初始化一次客户端，这会带来巨大的性能开销和连接数问题。正确的做法是使用一个全局的、延迟初始化的客户端实例。

# chaos-injector/handler.py

import os
import requests
import logging
import time
from http import HTTPStatus

from apolloclient import ApolloClient

# --- 配置与日志 ---
# 在生产环境中，应使用更结构化的日志
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

# --- Apollo 客户端全局实例 ---
# 避免在每次函数调用时都重新创建客户端
# 这是一个简化的实现，真实的生产代码可能需要考虑线程安全和更复杂的初始化逻辑
_apollo_client = None

def get_apollo_client():
    """
    获取Apollo客户端的单例。
    如果客户端未初始化，则根据环境变量进行初始化。
    这种模式在Serverless环境中尤其重要，可以复用“热”函数实例的连接。
    """
    global _apollo_client
    if _apollo_client is None:
        app_id = os.getenv("APOLLO_APP_ID", "chaos-engineering-platform")
        cluster = os.getenv("APOLLO_CLUSTER", "default")
        config_server_url = os.getenv("APOLLO_CONFIG_SERVER_URL")

        if not config_server_url:
            logger.error("APOLLO_CONFIG_SERVER_URL environment variable not set. Apollo client cannot be initialized.")
            return None

        try:
            # 这里的ip参数是为了在客户端向Apollo注册实例时使用，对于纯读取配置的场景，可以随意指定
            client = ApolloClient(app_id=app_id, cluster=cluster, config_server_url=config_server_url, ip='127.0.0.1')
            client.start() # 启动后台线程，用于拉取和更新配置
            _apollo_client = client
            logger.info(f"Apollo client initialized for AppId: {app_id}")
        except Exception as e:
            # 这里的错误处理至关重要。如果Apollo无法连接，函数不应该崩溃，
            # 而应该进入“安全模式”（即不执行任何混沌实验）。
            logger.error(f"Failed to initialize Apollo client: {e}", exc_info=True)
            _apollo_client = None # 确保在失败时实例仍然是None

    return _apollo_client

def get_config(key: str, default_value: any, data_type=str):
    """
    从Apollo获取配置，并提供健壮的默认值和类型转换。
    这是与Apollo交互的核心封装，隔离了直接的客户端调用。
    """
    client = get_apollo_client()
    namespace = os.getenv("APOLLO_NAMESPACE", "application")

    if not client:
        # Apollo客户端初始化失败，直接返回默认值，确保业务流程不中断
        return default_value

    try:
        # get_value会首先从本地缓存读取，性能很高
        value = client.get_value(key, default_val=default_value, namespace=namespace)
        
        # 类型转换，因为Apollo返回的都是字符串
        if data_type is bool:
            return str(value).lower() in ['true', '1', 't', 'y', 'yes']
        if data_type is int:
            return int(value)
        if data_type is float:
            return float(value)
        
        return value
    except Exception as e:
        logger.warning(f"Failed to get config for key '{key}' from Apollo. Using default value '{default_value}'. Error: {e}")
        return default_value

def handle(req):
    """
    OpenFaaS函数入口点.
    """
    # 1. 从Apollo读取混沌实验配置
    # 所有的配置项都应有明确的、安全的默认值（通常是“关闭”状态）
    latency_enabled = get_config('chaos.latency.enabled', False, bool)
    error_enabled = get_config('chaos.error.enabled', False, bool)
    target_percentage = get_config('chaos.target.percentage', 0, int)
    
    # 简单的随机数判断，决定当前请求是否被选中为实验对象
    import random
    if not (random.randint(1, 100) <= target_percentage):
        # 未命中百分比，直接转发请求
        return forward_request(req)

    # 2. 执行混沌逻辑
    # 这里的逻辑可以无限扩展，比如CPU、内存压力等
    
    # 优先级：错误注入高于延迟注入
    if error_enabled:
        status_code = get_config('chaos.error.status_code', 503, int)
        response_body = get_config('chaos.error.response_body', '{"error": "Chaos experiment: service unavailable"}')
        logger.info(f"Injecting error: HTTP {status_code}")
        return {
            "statusCode": status_code,
            "body": response_body,
            "headers": {"Content-Type": "application/json"}
        }

    if latency_enabled:
        delay_ms = get_config('chaos.latency.milliseconds', 100, int)
        logger.info(f"Injecting latency: {delay_ms}ms")
        time.sleep(delay_ms / 1000.0)

    # 3. 转发请求到实际的目标服务
    return forward_request(req)

def forward_request(req):
    """
    将原始请求转发到`TARGET_SERVICE_URL`指定的服务。
    """
    target_url = os.getenv("TARGET_SERVICE_URL")
    if not target_url:
        logger.error("TARGET_SERVICE_URL is not set. Cannot forward request.")
        return {"statusCode": 500, "body": "Configuration error: Target service not specified."}

    try:
        # 复制请求方法、头、和体
        method = os.getenv("Http_Method", "GET").lower()
        headers = {k: v for k, v in os.environ.items() if k.startswith('Http_Header_')}
        # OpenFaaS会将请求头转换为Http_Header_xxx格式的环境变量
        clean_headers = {k.replace('Http_Header_', '').replace('_', '-'): v for k, v in headers.items()}

        response = requests.request(
            method=method,
            url=target_url,
            headers=clean_headers,
            data=req,
            timeout=10 # 设置一个合理的超时很重要
        )
        
        # 将下游服务的响应原样返回
        return {
            "statusCode": response.status_code,
            "body": response.text,
            "headers": dict(response.headers)
        }
    except requests.exceptions.RequestException as e:
        logger.error(f"Failed to forward request to {target_url}: {e}", exc_info=True)
        return {"statusCode": 502, "body": f"Bad Gateway: Upstream service call failed."}

这段代码体现了生产级考量：

全局客户端：_apollo_client 避免了重复初始化。
启动安全：如果Apollo无法连接，get_apollo_client 会返回 None，后续的 get_config 会优雅地回退到默认值，保证函数核心转发功能不受影响。这是一种“快速失败”和“安全降级”的模式。
配置封装：get_config 函数统一处理了配置读取、默认值和类型转换，使 handle 函数的逻辑更清晰。
请求转发：forward_request 忠实地复制了原始请求的各项参数，确保对调用方和目标服务透明。

3. 混沌实验的测试与验证

仅仅部署了混沌函数是远远不够的，核心在于验证其有效性以及对系统的影响。这分为两个层面：单元测试和集成测试。

单元测试 (`test_handler.py`)

我们需要测试 chaos-injector 函数本身在不同配置下的行为是否符合预期。这里必须使用 mock 来模拟Apollo和外部HTTP请求。

# chaos-injector/test_handler.py

import unittest
from unittest.mock import patch, MagicMock
import os
import time

# 将handler.py所在目录加入sys.path以便导入
# import sys
# sys.path.insert(0, os.path.abspath(os.path.join(os.path.dirname(__file__), '.')))

import handler

class TestChaosInjector(unittest.TestCase):

    def setUp(self):
        # 在每个测试用例开始前，重置全局客户端，确保测试隔离
        handler._apollo_client = None
        # 设置必要的环境变量
        os.environ['TARGET_SERVICE_URL'] = 'http://mock-target.com/api'
        os.environ['APOLLO_NAMESPACE'] = 'test.namespace'

    @patch('handler.get_apollo_client')
    @patch('handler.forward_request')
    def test_no_chaos_when_disabled(self, mock_forward, mock_get_client):
        """测试：当所有混沌开关关闭时，应直接转发请求"""
        mock_apollo = MagicMock()
        # 模拟Apollo返回的配置
        mock_apollo.get_value.side_effect = lambda key, **kwargs: {
            'chaos.latency.enabled': 'false',
            'chaos.error.enabled': 'false',
            'chaos.target.percentage': '100' # 100%命中，但开关关闭
        }.get(key, kwargs.get('default_val'))
        mock_get_client.return_value = mock_apollo
        
        mock_forward.return_value = {"statusCode": 200, "body": "ok"}

        req_body = '{"data": "test"}'
        handler.handle(req_body)

        # 断言：forward_request被调用了一次
        mock_forward.assert_called_once_with(req_body)

    @patch('handler.get_apollo_client')
    @patch('handler.forward_request')
    def test_latency_injection(self, mock_forward, mock_get_client):
        """测试：延迟注入开关开启时，执行时间应增加"""
        mock_apollo = MagicMock()
        mock_apollo.get_value.side_effect = lambda key, **kwargs: {
            'chaos.latency.enabled': 'true',
            'chaos.latency.milliseconds': '200',
            'chaos.error.enabled': 'false',
            'chaos.target.percentage': '100'
        }.get(key, kwargs.get('default_val'))
        mock_get_client.return_value = mock_apollo

        start_time = time.time()
        handler.handle('{}')
        end_time = time.time()

        duration = (end_time - start_time) * 1000
        
        # 断言：执行时间约等于注入的延迟
        self.assertGreaterEqual(duration, 200)
        self.assertLess(duration, 250) # 允许一些误差
        mock_forward.assert_called_once()
        
    @patch('handler.get_apollo_client')
    def test_error_injection(self, mock_get_client):
        """测试：错误注入开关开启时，应直接返回模拟的错误响应"""
        mock_apollo = MagicMock()
        mock_apollo.get_value.side_effect = lambda key, **kwargs: {
            'chaos.latency.enabled': 'false',
            'chaos.error.enabled': 'true',
            'chaos.error.status_code': '503',
            'chaos.error.response_body': '{"error": "injected"}',
            'chaos.target.percentage': '100'
        }.get(key, kwargs.get('default_val'))
        mock_get_client.return_value = mock_apollo
        
        response = handler.handle('{}')
        
        self.assertEqual(response['statusCode'], 503)
        self.assertIn('injected', response['body'])

    @patch('handler.forward_request')
    def test_apollo_client_failure_failsafe(self, mock_forward):
        """测试：当Apollo客户端初始化失败时，函数应降级为直接转发模式"""
        with patch('handler.ApolloClient') as mock_apollo_class:
            mock_apollo_class.side_effect = Exception("Connection timed out")
            
            req_body = '{"data": "test"}'
            handler.handle(req_body)

            # 断言：即使Apollo出问题，依然会调用转发逻辑
            mock_forward.assert_called_once_with(req_body)

这些单元测试确保了混沌函数内部逻辑的正确性、配置解析的准确性以及在依赖（Apollo）故障时的容错能力。

集成测试

集成测试才是混沌工程的真正价值所在。它回答的问题是：“当依赖X出现Y秒延迟时，我的主服务Z是否会超时并正确降级？”

一个典型的集成测试流程如下：

环境准备: 使用docker-compose或脚本，在CI环境中部署OpenFaaS、一个目标服务（如 user-profile）、以及 chaos-injector 函数（配置其 TARGET_SERVICE_URL 指向 user-profile）。同时，Apollo服务也需要启动。
测试脚本: 编写一个独立的测试脚本（如Python pytest或Go testing），该脚本作为客户端。
测试场景:
- 基线测试: 脚本首先调用 chaos-injector 的端点。在Apollo中，所有混沌实验配置都是关闭的。记录下此时的平均响应时间（P99延迟）和成功率。这是系统的健康基线。
- 注入延迟: 测试脚本通过Apollo的开放API，修改 chaos.latency.enabled 为 true，chaos.latency.milliseconds 为 300。
- 验证影响: 脚本再次向 chaos-injector 发起请求。此时，它应该能观察到响应时间显著增加（约300ms）。测试断言响应时间是否在预期范围内。更重要的是，如果主服务有超时设置（例如200ms），我们应该断言此时主服务返回了超时错误，而不是无限等待。
- 注入错误: 脚本通过API修改Apollo配置，开启错误注入 chaos.error.enabled=true。
- 验证降级: 再次请求，断言收到了预期的错误码（如503），并验证主服务的调用方是否正确处理了这个错误（例如，触发了熔断器、返回了缓存数据或默认值）。
- 恢复: 测试结束时，脚本必须通过API将Apollo中的所有混沌配置恢复到关闭状态，确保环境清洁。

下面是一个示意图，展示了集成测试的调用流程：

sequenceDiagram
    participant Tester as CI Test Script
    participant Apollo as Apollo API
    participant ChaosInjector as chaos-injector
    participant UserProfile as user-profile

    Tester->>Apollo: Set chaos.latency.enabled = false
    note over Tester: **Establish Baseline**
    loop 10 times
        Tester->>+ChaosInjector: GET /profile/1
        ChaosInjector->>+UserProfile: GET /profile/1
        UserProfile-->>-ChaosInjector: { "id": 1, "name": "test" }
        ChaosInjector-->>-Tester: 200 OK
    end
    note over Tester: Assert P99 latency < 50ms

    Tester->>Apollo: Set chaos.latency.enabled = true, milliseconds = 300
    note over Tester: **Inject Latency**
    loop 10 times
        Tester->>+ChaosInjector: GET /profile/1
        note right of ChaosInjector: config.enabled=true
time.sleep(0.3)
        ChaosInjector->>+UserProfile: GET /profile/1
        UserProfile-->>-ChaosInjector: { "id": 1, "name": "test" }
        ChaosInjector-->>-Tester: 200 OK (after 300ms)
    end
    note over Tester: Assert P99 latency is between 300ms and 350ms

当前方案的局限性与未来展望

这个基于OpenFaaS和Apollo的方案提供了一个轻量级、灵活且强大的混沌工程注入点。然而，它并非银弹。

首先，chaos-injector 作为一个代理，引入了额外的网络跳数和潜在的单点故障。尽管函数本身是无状态且可水平扩展的，但它的稳定性和性能直接影响到被代理的服务。必须对其进行充分的性能测试和资源监控。

其次，当前的实现只支持基于请求百分比的随机注入。在更复杂的场景中，我们可能需要更精细的控制，例如只针对特定用户、特定请求头或特定业务操作的请求进行注入。这需要扩展 handler.py 的逻辑，使其能够解析请求内容，并从Apollo获取更复杂的规则配置。

最后，这只是一个混沌注入的执行器。一个完整的混沌工程平台还需要实验编排、状态监控、自动化结果分析和报告系统。未来的迭代方向可以是开发一个“混沌编排器”服务，它通过调用Apollo API来定义和执行一系列复杂的混沌实验场景，并集成Prometheus等监控系统来自动验证实验结果（例如，SLO是否被违反）。

OpenFaaS Apollo Client 测试混沌工程