国产端侧芯片初创公司招AI Infra/编译器/runtime开发/嵌入式相关方向实习生
base合肥,基础日薪300 ,表现优异另有额外绩效激励。
应届生表现优异可转正,mentor人很好,公司氛围轻松。
联系邮箱 :[email protected]
【实习】runtime开发工程师
要求:熟悉 C++ /嵌入式开发,熟练使用AI工具辅助开发
岗位使命:主要负责面向内部以及外部算法团队,提供以 C++/Python 为主的模型编译与性能优化等部署任务,保障 AI 网络在不同场景下的高效部署与持续迭代。
核心职责:
- 基于自研 AI 工具链(编译器、量化器、Runtime、Profiler)完成客户模型的端到端部署;
- 编写或修改 C++/Python 插件、示例代码与自动化脚本,满足客户定制化需求;
- 主导现场/远程调试,定位功能、性能及精度问题,输出根因分析与解决方案;
- 为客户项目评估提供技术风险与可行性报告,输出技术白皮书、FAQ、最佳实践与培训材料,降低客户二次开发门槛;
- 将客户痛点转化为工具链需求,推动后端研发团队形成迭代计划。
地点:合肥
日薪:300元一天
【实习】大模型部署实习生
职位描述
我们正在构建面向大模型推理的自研 AI SoC 芯片平台。如果你对“让千亿参数模型在芯片上高效跑起来”这件事感兴趣,欢迎加入!
你将参与的工作
- 将主流 LLM / 多模态模型适配并部署到自研 AI SoC 芯片
- 深入理解 Transformer 推理流程(Prefill / Decode / KV Cache)
- 参与算子级优化:
- Matmul / Attention / RMSNorm / RoPE 等核心算子优化
- Kernel 融合与调度优化
- 内存访问与带宽优化
- 参与模型量化(FP16 / BF16 / INT8)与数值一致性验证
- 定位并解决:
- 精度异常(如 NaN / 溢出 / 数值漂移)
- 性能瓶颈(算力利用率、访存瓶颈、调度不均衡)
- 编写性能 profiling 与自动化验证工具
职位要求
我们希望你具备
- 熟悉 Transformer / LLM 结构与推理流程
- 理解计算机体系结构基础:
- Cache / Memory hierarchy
- 并行计算模型
- 访存与算力平衡
- 熟练使用 C++ 或 Python
- 熟悉 Linux 开发环境
强力加分项(具备任意一项即可)
- 有大模型推理部署经验(如 vLLM / TensorRT / ONNX Runtime 等)
- 有 GPU / NPU / 异构计算开发经验
- 参与过算子开发或 AI 编译器相关项目
- 有性能调优经验(Roofline 分析、带宽建模等)
- 做过模型精度对齐与数值 Debug
你将获得
- 深度参与“大模型 × 自研芯片”的完整工程闭环
- 接触真实 AI SoC 架构与底层优化
- 直接面对工程级问题,而不是玩具级 Demo
- 表现优秀可转正
地点:合肥
日薪:300元一天
NPU编译器实习工程师
职位描述
- 参与自研 NPU/RPU 编译器开发,完善前端、IR、优化 Pass、代码生成、运行时对接等模块。
- 参与面向 NPU 的易编程 DSL 设计与实现,提升算子开发效率、表达能力和可维护性。
- 对接 Triton、PyTorch、MLIR、TVM 等开源编程框架或编译生态,探索主流模型和算子在自研芯片上的落地路径。
- 编写和优化 RPU 算子、DSL 算子、Triton 算子,包括矩阵计算、归约、Attention、激活函数、数据搬运等核心算子。
- 参与算子性能分析与调优,包括内存访问、并行划分、数据布局、流水调度、指令生成等方向。
- 建设编译器和算子相关测试,包括功能正确性测试、性能回归测试、端到端模型验证等。
- 阅读和分析开源编译器、AI 框架、GPU/NPU 编程模型相关代码,为内部编译器和 DSL 设计提供参考。
职位要求
- 计算机、电子、自动化、软件工程、数学等相关专业,硕士或博士在读。
- 熟悉 C/C++ 或 Python,具备较好的工程实现能力和代码阅读能力。
- 理解基本编译原理,包括词法/语法分析、IR、优化 Pass、代码生成中的至少一部分。
- 对 AI 编译器、深度学习算子、GPU/NPU 编程、异构计算中的至少一个方向有兴趣或实践经验。
- 熟悉 Linux 开发环境,能够使用 Git、CMake、脚本工具进行日常开发和调试。
- 有较强的自驱力,愿意深入底层系统,能面对复杂工程问题持续定位、验证和改进。
加分项
- 有 LLVM、MLIR、Triton、TVM、XLA、Halide、IREE 等编译器或 AI 编译框架经验。
- 写过 CUDA、OpenCL、Triton、SIMD、DSP、NPU 或其他异构计算算子。
- 熟悉 Transformer、Attention、GEMM、卷积、归约、LayerNorm、Softmax 等常见 AI 算子的实现与优化。
- 有 PyTorch 自定义算子、模型部署、推理框架或端到端性能优化经验。
- 了解计算机体系结构、缓存/片上存储、DMA、流水线、并行计算模型。
- 有开源项目贡献、编译器课程项目、ACM/竞赛、系统方向科研经历者优先。
- 有大模型辅助编程实践经验优先,包括使用 Cursor、Claude Code、Codex、GitHub Copilot 等工具进行代码阅读、功能开发、调试定位、测试生成或文档编写,并能对模型输出进行判断、验证和修正。
你将获得
- 深入参与真实 NPU 芯片软件栈建设,而不是只做外围工具或 demo。
- 接触编译器、DSL、算子库、运行时、AI 框架对接等完整技术链路。
- 和有芯片、编译器、系统软件经验的工程师一起工作,获得高密度代码 Review 和技术指导。
- 有机会把自己写的算子、Pass 或 DSL 功能用于真实模型和真实硬件场景。
- 表现优秀者可转正。
地点:合肥
日薪:300元一天