构建处理 SciPy 稀疏向量并应对 Pinecone BASE 特性的生产级索引工具 构建处理 SciPy 稀疏向量并应对 Pinecone BASE 特性的生产级索引工具
问题的起点非常明确:我们需要为一个包含数百万文档的语料库构建语义相似性检索功能。每个文档通过一个高维稀疏向量表示,维度高达50万,由TF-IDF模型生成。在这样的维度下,一个常规的 NumPy 稠密矩阵是完全不可行的——仅100万个文档就需
2023-11-20
利用 Debezium CDC 将 SQL Server 数据变更实时同步至 NestJS 与 Zustand 前端 利用 Debezium CDC 将 SQL Server 数据变更实时同步至 NestJS 与 Zustand 前端
接手一个项目,核心系统是跑在 SQL Server 上的老旧ERP。新的需求是在一个Web仪表盘上实时展示库存变更。最直接的想法是轮询,但每秒一次的轮询对数据库和网络都是巨大的浪费,而且无法真正做到“实时”。更麻烦的是,ERP是供应商的黑盒
2023-10-27
构建从 Apache Flink 到 Valtio 的端到端类型安全实时状态同步核心库 构建从 Apache Flink 到 Valtio 的端到端类型安全实时状态同步核心库
要将 Apache Flink 作业中经过复杂计算得出的状态,实时、可靠且类型安全地同步到一个远在浏览器中的 React 前端,这是一个典型的现代数据应用难题。问题核心在于,后端是基于 JVM 的、面向状态与流的世界,而前端是基于 Type
构建基于 Dgraph 与 SciPy 的分布式图分析服务并集成 OpenTelemetry 全链路追踪 构建基于 Dgraph 与 SciPy 的分布式图分析服务并集成 OpenTelemetry 全链路追踪
一个棘手的技术挑战摆在了面前:我们需要在一个复杂的金融交易网络中实时识别可疑的聚集性交易行为。传统的数据库模型,无论是关系型还是文档型,在处理深度、多跳的关联查询时都显得力不从心,性能会随着查询深度的增加呈指数级下降。这几乎是图数据库的专属
使用 Rocket 和 Python SciPy 构建处理密集计算的 ISR 架构实践 使用 Rocket 和 Python SciPy 构建处理密集计算的 ISR 架构实践
一个棘手的问题摆在面前:我们需要为一组复杂的物理模拟数据提供一个Web可视化界面。这些模拟结果的计算非常耗时,Python端的SciPy和NumPy脚本运行一次需要10到30秒才能生成一份完整的数据集。如果采用传统的服务器端渲染(SSR),
2023-10-27
构建企业级SQL静态分析与可搜索知识库的技术实践 构建企业级SQL静态分析与可搜索知识库的技术实践
团队规模扩大后,数据库成了最频繁的瓶颈。每周的线上告警复盘,十有八九最终都指向了某条失控的SQL。手动Code Review能发现明显的逻辑错误,但对于“未使用索引”、“隐式类型转换”或“大表全连接”这类性能杀手,往往心有余而力不足。更棘手
2023-10-27
1 / 5