轻松游牧-远程工作聚集地

关于我们:
我们是一家专注代码智能（ Code Intelligence ）与大模型训练的 AI 创业公司。
公司由拥有 20 年强化学习与机器学习经验的技术专家创立，已完成 2 亿元融资。

我们正在构建面向软件工程场景的新一代代码模型与 Coding Agent

核心方向包括：
1.大模型训练（ Pre-training / Continued Training / SFT / Middle Training ）
2.强化学习与对齐（ RLHF / Preference Optimization ）
3.Code LLM 训练与优化
4.Coding Agent 系统与工具调用能力
5.软件工程任务评测体系（ SWE-bench 等）

我们的目标：
在真实软件工程任务中持续提升模型能力
推动 AI 从“代码辅助工具”走向“自主软件工程能力”

关于岗位:
大模型训练 / 强化学习算法工程师（ LLM Training / RL ）

工作内容：
1.大语言模型训练全流程设计与优化（ Pre-train / Middle-train / Post-train ）
2.Continued Pre-training / SFT / 对齐训练策略设计
3.Code 数据构造、清洗与训练策略优化
4.Reward Model 构建与 RLHF / RLAIF 训练流程设计
5.PPO / DPO / GRPO 等方法在实际训练中的应用
6.模型能力评测与训练闭环迭代

我们希望你：

对大模型训练体系（ pre-train / post-train / alignment ）有系统理解
对 Transformer 结构与训练机制有深入理解
参与或实际做过 LLM / Code LLM 训练或微调项目
参与过 RLHF / preference optimization / reward model 构建流程
能在 PPO / DPO / GRPO 等方法中解决实际模型优化问题

加分项：

深度参与过大规模 LLM 训练或优化（非 API 使用）
有模型稳定性优化 / 数据构造 / 训练策略优化经验
有 benchmark / evaluation system 构建经验
有论文 / 开源项目 / 技术报告成果

我们欢迎：

有国内头部 AI 大模型团队研发经验（如阿里、字节、腾讯等）
高校优秀研究者
应届博士（强化学习、机器学习、大模型方向）
有 NeurIPS / ICML / ICLR / ACL 等顶会论文或研究成果者

我们希望找到能够将前沿研究方法真正转化为模型能力提升的人。

我们提供:

有竞争力薪资 + 早期核心成员期权
充足 GPU 算力支持快速实验
小团队、高自由度技术环境
直接参与模型方向与技术路线设计
与资深 RL / LLM 研究者共同从 0 到 1 构建系统

办公地点：
北京 / 上海 / 深圳（任选）

投递邮箱：
joy_ss@foxmail.com

大模型训练 / 强化学习算法工程师

AI for code 创业团队