novelso
本站致力于IT相关技术的分享
在 EKS 上利用 RabbitMQ 作为通信层的 Paxos 分布式锁实现 在 EKS 上利用 RabbitMQ 作为通信层的 Paxos 分布式锁实现
团队在 AWS EKS 上运行的微服务集群规模扩大后,一个老问题再次浮出水面:分布式锁。之前依赖 Redis 的 SETNX 做一些简单的锁,但在一些对一致性要求更高的场景,比如关键任务调度、资源竞态分配,这种方案的可靠性不足以让我们安心。
实现 MongoDB 驱动的 Trino 集群声明式 GitOps 部署自动化 实现 MongoDB 驱动的 Trino 集群声明式 GitOps 部署自动化
管理多个 Trino 集群是一项繁琐且易错的工作。不同业务团队对计算资源、数据源连接器、JVM 参数的需求各不相同,导致配置文件急剧膨胀。传统的手动修改 Helm values.yaml 并执行 helm upgrade 的方式,不仅效率低
2023-10-27
构建基于Haskell的MLOps推理网关并集成OpenTelemetry与死信队列容错机制 构建基于Haskell的MLOps推理网关并集成OpenTelemetry与死信队列容错机制
一个生产环境的机器学习模型推理服务,其真正的挑战并非模型本身,而是围绕它构建的一整套可观测、高可用的基础设施。当请求量从每秒几十次上升到数千甚至数万次时,零星的网络抖动、下游模型服务的瞬时过载、或者一次失败的模型更新,都可能导致数据丢失和服
基于 Nginx 结构化日志与 Nomad API 的动态服务拓扑发现实践 基于 Nginx 结构化日志与 Nomad API 的动态服务拓扑发现实践
当 Nomad 集群中的微服务数量从 10 个增长到 50 个以上时,依赖关系图就成了一张无人能理清的蛛网。一次下游服务的变更,没人能准确说出到底会影响多少上游调用方,发布评审会变成了基于猜测的风险评估。传统的做法是靠人力维护文档,但这在敏
2023-10-27
使用C#与设计模式构建支持GitOps的声明式金丝雀发布控制器 使用C#与设计模式构建支持GitOps的声明式金丝雀发布控制器
管理微服务的部署升级是一项高风险任务。传统的CI脚本,无论是内嵌在Jenkinsfile还是GitHub Actions的YAML中,本质上都是过程式的。它们描述了“如何做”,但缺乏对“最终应是什么状态”的声明式表达。当部署流程变得复杂,比
2023-10-27
构建基于containerd与死信队列的TensorFlow异步任务执行器 构建基于containerd与死信队列的TensorFlow异步任务执行器
我们的机器学习团队面临一个典型但棘手的工程问题:模型训练脚本的执行环境混乱,失败后的追踪与重试机制基本为零。一个复杂的tf.data预处理任务在凌晨三点因为一个临时的网络抖动或是一个脏数据样本导致OOM而崩溃,第二天早上才被发现,这不仅浪费
2023-10-27
3 / 5