量化私募急招分布式机器学习平台专家 全职
岗位职责:
1.负责规划设计高性能分布式机器学习训练平台的整体架构,支撑大规模数据处 理和模型训练;
2.主导分布式训练相关的技术选型,比如适配业务的并行策略、存储方案等;
3.持续分析大规模集群的训练性能,解决数据读取、显存、通信等核心瓶颈,同 时跟踪前沿分布式训练技术,推动平台架构持续演进;
4.对接算法团队,配合算法团队适配不同的机器学习任务,并做针对性的优化。
5.监控系统运行状态,识别潜在风险,建立预防机制以减少故障发生。
职位要求
1.计算机科学、电子工程、软件工程或相关理工科本科及以上学历,5 年以上工 作经验
2.熟悉Python/Golang/C++中至少一种语言,掌握主流深度学习框架(如 PyTorch)
3.熟悉在分布式环境中快速定位故障根源,如网络延迟、节点失效或数据同步问 题,具备日志分析、性能剖析和调试工具使用经验(如 Prometheus、Grafana)
4.熟悉机器学习训练全链路工具(如 Kubernetes+Slurm 混合调度、机器学习平 台)、熟悉分布式训练框架(如 DeepSpeed、Megatron)、掌握 CUDA 性能调优或者 GPU 架构等。
5.有大规模 AI 训练集群(1000+节点)项目的设计、实施管理经验
6.具备金融行业或大型互联网公司 HPC 运维经验
7.具备较强的责任心和团队合作意识、具有良好的学习能力和分析解决问题能力
8.精通分布式队列系统实现原理,有 Slurm/YARN、RAY 等资源管理系统经验者优先
量化私募急招分布式机器学习平台专家 全职岗位职责: 1.负责规划设计高性能分布式机器学习训练平台的整体架构,支撑大规模数据处 理和模型训练; 2.主导分布式训练相关的技术选型,比如适配业务的并行
张小明
前端开发工程师
B站视频下载完全指南:新手必备的简单三步教程
B站视频下载完全指南:新手必备的简单三步教程 【免费下载链接】BiliDownloader BiliDownloader是一款界面精简,操作简单且高速下载的b站下载器 项目地址: https://gitcode.com/gh_mirrors/bi/BiliDownloader 还在为无法保存B站视频而烦恼吗&#…
KISS FFT:重新定义轻量级信号处理的工程艺术
KISS FFT:重新定义轻量级信号处理的工程艺术 【免费下载链接】old-kissfft [DEPRECATED MIRROR] You want https://github.com/mborgerding/kissfft! 项目地址: https://gitcode.com/gh_mirrors/ol/old-kissfft 设计哲学与技术理念 在当今信号处理领域&…
6、常见WRT54G第三方固件全解析
常见WRT54G第三方固件全解析 在当今的网络环境中,为了满足不同的需求,许多用户会选择为WRT54G路由器安装第三方固件。这些固件各具特色,能为用户带来不同的功能和体验。下面,我们就来详细了解一些常见的第三方固件。 1. Ewrt固件 Ewrt固件专为那些希望将无线互联网服务作…
3步构建企业级3D抽奖系统:从策划到落地的完整解决方案
3步构建企业级3D抽奖系统:从策划到落地的完整解决方案 【免费下载链接】lottery 🎉🌟✨🎈年会抽奖程序,基于 Express Three.js的 3D 球体抽奖程序,奖品🧧🎁,文字&#x…
LDDC:3大平台歌词获取,打造专属音乐体验
你是否曾经为心爱的歌曲找不到合适的歌词而烦恼?当你想跟着音乐一起唱,却发现歌词要么不全,要么格式不对?现在,LDDC 为你提供了便捷解决方案,支持QQ音乐、酷狗音乐、网易云三大平台,完全免费使用…
EmotiVoice是否内置语音质量检测模块?MOS预估功能上线
EmotiVoice是否内置语音质量检测模块?MOS预估功能上线 在语音合成技术飞速发展的今天,用户早已不再满足于“能听清”的机械朗读——他们期待的是有温度、有情绪、像真人一样的声音。尤其是在虚拟偶像、智能客服、有声书创作等场景中,语音的自…