语音工程师
AI 电销方向 · 实时语音 Agent 全职 · 语音工程 · 急招
Kapibala AI · WE ARE HIRING · 2026
关于我们
Kapibala AI Limited 正组建全球化 AI 团队,聚焦 Sales AGI——覆盖获客、触达、谈判、成交、交付全链路的商业智能体,运行于主流
IM 平台和电销领域。产品已进入付费内测,被头部加密交易所、Web3 / RWA 、跨境广告等客户采用,Pre-Seed 轮 1000 万美元已完成
。
岗位定位
本岗位是 Sales AGI 语音能力的工程实施者——把 STT / LLM / TTS
三段式对话模型,通过实时语音框架拼接成一套低延迟、高并发、稳定可用的电话语音系统,让 AI Agent 真正能自动拨打电话、用本地语言与客户实时对话。
岗位职责
- 语音链路集成与延迟优化 集成并调优 STT / TTS / LLM 三层模型,持续打磨端到端延迟,实现 per-call 的 provider 路由、健康检查与熔断降级
- 实时语音通信系统开发 SIP 协议对接、电话网关集成、WebRTC 实时语音流处理与 RTP 媒体流调试
- 语音 Agent 框架开发 基于 LiveKit Agents 等框架开发与优化语音 Agent ,管理 worker 的资源占用与并发上限
- 语音质量与性能优化 VAD 、降噪、回声消除、打断( barge-in )处理,电话音频质量优化,并发通话的负载均衡与资源调度
任职要求
- 3-5 年实时系统 / 后端工程经验,精通 Python ( FastAPI 、异步编程)
- 实时语音框架实战经验:LiveKit Agents 或类似框架( Pipecat 等)深度使用
- 扎实的 SIP / WebRTC 能力,理解 SIP 协议栈与 RTP 媒体流,有电话语音链路落地经验
- 熟练集成云端语音 / LLM API:OpenAI 、Google Gemini 、Deepgram 、Cartesia 等
- 对端到端延迟敏感,能系统性拆解 mouth-to-ear 链路并优化
- 能快速定位 STT / TTS / LLM / 网络各层瓶颈,独立交付稳定的并发语音系统
加分项
- 流式 ASR / TTS 工程实践经验
- 有电销 / 呼叫中心( CPaaS )或实时系统(直播、游戏语音)经验
- 多语种 / 小语种(新兴市场语言)语音接入经验,能协同做 TTS 选型与质量评估
- 有开源语音模型自托管 / GPU 加速经验( Whisper 、XTTS 、F5-TTS ; NVIDIA CUDA 、Mac MPS 等)更佳
我们提供
- ¥ 50-80W · ANNUAL CASH — 底薪 + 绩效(按季度发放)+ 项目分红 + 期权
- ZERO TAX · DUBAI — 迪拜零个税 + 公司包住宿
- WORK VISA · RELOCATION — 公司提供工签
- OWNERSHIP · EQUITY — 完整 ownership · 代码直接影响产品走向
- FLAT TEAM · CULTURE — 小团队 · 扁平协作 · CTO 直接带
- SPIN-OFF · FUTURE — 核心成员可孵化独立项目线,可在合作的高校读博
投递方式