zezepath

问题的起点非常明确：我们需要为一个包含数百万文档的语料库构建语义相似性检索功能。每个文档通过一个高维稀疏向量表示，维度高达50万，由TF-IDF模型生成。在这样的维度下，一个常规的 NumPy 稠密矩阵是完全不可行的——仅100万个文档就需

2023-11-20 数据工程

接手一个项目，核心系统是跑在 SQL Server 上的老旧ERP。新的需求是在一个Web仪表盘上实时展示库存变更。最直接的想法是轮询，但每秒一次的轮询对数据库和网络都是巨大的浪费，而且无法真正做到“实时”。更麻烦的是，ERP是供应商的黑盒

2023-10-27 数据工程

要将 Apache Flink 作业中经过复杂计算得出的状态，实时、可靠且类型安全地同步到一个远在浏览器中的 React 前端，这是一个典型的现代数据应用难题。问题核心在于，后端是基于 JVM 的、面向状态与流的世界，而前端是基于 Type

2023-10-27 分布式架构

Apache Flink AWS 核心库 Valtio

一个棘手的技术挑战摆在了面前：我们需要在一个复杂的金融交易网络中实时识别可疑的聚集性交易行为。传统的数据库模型，无论是关系型还是文档型，在处理深度、多跳的关联查询时都显得力不从心，性能会随着查询深度的增加呈指数级下降。这几乎是图数据库的专属

2023-10-27 分布式系统

一个棘手的问题摆在面前：我们需要为一组复杂的物理模拟数据提供一个Web可视化界面。这些模拟结果的计算非常耗时，Python端的SciPy和NumPy脚本运行一次需要10到30秒才能生成一份完整的数据集。如果采用传统的服务器端渲染（SSR），

2023-10-27 后端架构

ISR Rocket SciPy Python Rust

我们团队的内部事件总线每秒处理数十万条高度结构化的业务事件。传统的做法是将其中的关键指标导出到 Prometheus，再由 Grafana 进行可视化。这个方案在大多数场景下工作良好，但当我们需要对事件的原始高基数维度进行实时、动态的切片和

2023-10-27 可观测性