对话模型训练工程师

美国华人初创公司

我们是初创的美国华人公司,目前专属在 NSFW 领域的对话产品

希望在专属小参数模型方面能够找到牛人助力,工作方式为远程全职,或顾问参与皆可

欢迎各位大牛联系

岗位职责

负责专有小参数对话模型的部署、训练全流程:数据工程、SFT 、DPO 、LoRA 主导训练数据的清洗、构建、去重与配比(覆盖不同角色类型与内容强度分级) 基于平台用户偏好信号搭建 DPO 偏好飞轮,把行为数据转化为训练数据 设计并维护独立的评估体系:评估维度标准化、评测集与训练集严格隔离、内置多样性指标防止 DPO 同质化坍塌 在 RTX 5080 本地 / RunPod / Vast.ai 云端完成训练与调参

任职要求

1 年以上 ML / 模型训练经验,有完整跑通 SFT + DPO 的实战案例 精通 LoRA / QLoRA 、SFT 、DPO ,熟悉 HuggingFace TRL ( DPOTrainer ) 熟练至少一个训练框架:LLaMA-Factory / Axolotl / 阿里 Swift / Unsloth 具备扎实的数据工程能力(数据是训练 ~70% 的工作量,质量优先于数量) 熟悉 Qwen 系列等基座模型,理解 SFT-before-DPO 的训练序列 理解 DPO 谄媚坍塌、教师模型天花板、蒸馏数据分布缺口等风险并能规避 对 NSFW / 成人向数据无心理排斥 接受离岸结构与远程全职

加分项

有角色扮演 / NSFW 方向的模型微调实战 有从用户行为信号构建偏好数据集的经验 熟悉 Triton 、推理优化,能兼顾训练与部署

联系邮箱( Base64 ):cGVhY2hsYW5kYWlAZ21haWwuY29t

联系 VX ( Base64 ):QzU3OTY4MDA=

联系 TG ( Base64 ):QGN6YWs5