5 分钟做出一个能用的 AI 语音助理:ElevenLabs 入门指南
有一类工具一年前还没有成熟的「无代码」入口:你可以在电话线、WhatsApp 或网站聊天窗口上部署一个语音 AI,整个过程不需要写一行代码。ElevenLabs Agents 目前是最干净的入口,做出第一个能用的语音助理大约只需 5 分钟。大多数实践者尚未动手试,这正是值得认真看看它的原因。
本文会带你了解 ElevenLabs 语音助理究竟是什么、它能做与不能做的事,以及一个 5 分钟就能让你看到实际 demo 的设定流程。文末附上一份针对香港前台场景优化的系统提示模板,因为「惊艳的 demo」与「无用的助理」之间的差距,几乎完全来自提示词。
ElevenLabs 语音助理是什么?
ElevenLabs Agents 是一个无代码平台,把四件事打包在一起:超拟真的文字转语音(TTS)、调校过的语音识别(STT)、决定何时聆听何时开口的对话节奏模型,以及与 GPT-4o 或 Claude 等 LLM 的连接能力。你定义角色、撰写提示、选择性上传知识档,平台就会把助理部署到电话号码、WhatsApp 商业号码或网站聊天窗口。
产品支持 70 种以上语言,并具备工具呼叫(tool calling)能力,这代表助理在通话过程中可以执行真实动作:预约会面、查询订单、寄出跟进邮件、转接真人。ElevenLabs 官方表示首个助理的建构时间大约 5 分钟,这与实务上的体感一致。
对香港实践者而言,真正落地的应用场景是:个人专业人士的接听服务、非办公时间的客户分流、诊所或美容院的预约处理、轻量级外拨资格筛查。这些场景里,一个「七成准确」的语音助理胜过完全没有助理。
如何建立你的第一个 ElevenLabs 语音助理?
每个应用场景的 5 分钟流程其实一样。登录后点击 Agents,选一个起始模板或从空白开始,定义角色与个性,粘贴系统提示,选择性上传 PDF 或粘贴网址作为知识库,最后挑一个声音。语音识别、语音合成、对话节奏由平台自动处理。
步骤顺序如下:
--- 步骤 1:到 elevenlabs.io 登录,打开 Agents 区。
--- 步骤 2:点击 New agent。如果用途吻合「客户支持」或「接待员」模板就用,不然从空白开始。
--- 步骤 3:填写助理名称与一句话描述。这是元数据,用户看不到。
--- 步骤 4:粘贴系统提示。这是唯一决定助理是否好用的部分,模板见下文。
--- 步骤 5:上传知识库。PDF 菜单、FAQ、营业时间、价目表,所有稳定不变的事实。第一版控制在五份文件以内。
--- 步骤 6:从声音库挑一把声音。粤语为主的香港受众,建议测试两到三把多语言声音,每把听 30 秒样本再决定。
--- 步骤 7:点击 Test。用浏览器内建麦克风试讲,边讲边改提示,直到助理稳定守住剧本。
到这里可以暂停,做一个内部 demo。要把它接上电话号码或 WhatsApp,ElevenLabs 在同一个界面集成了 SIP 与 WhatsApp Business,这正是它比自建快的地方。
系统提示应该写些什么?
系统提示决定助理九成的行为。提示写得弱,助理会跑题、乱报价格、与来电者抢话。提示写得强,助理的身份、范围、对话规则、升级路径都会被牢牢锁住。下面这个结构适用于大多数接待、客服、分流场景。
把以下内容贴为助理的系统提示:
你是 Maya,[商号名称] 的前台语音助理。[商号名称] 是位于 [地段,例如香港铜锣湾] 的 [行业,例如牙科诊所]。你以 [英文/粤语/普通话] 回应,来电者切换语言时你跟着切。你语气温暖、平静、简洁,绝不机械化。
你的工作
--- 问候来电者,询问可以怎样帮忙。
--- 只根据已上传的知识库,回答关于营业时间、地点、价格、服务的问题。
--- 通过预约工具,建立或改期约会。
--- 来电者要求回覆时,记下信息并寄出跟进邮件。
规则
--- 不得自行虚构价格、营业时间或服务。知识库没有的内容,请说「这个信息我这边没有,帮你转给同事」并触发真人转接工具。
--- 不得提供医疗、法律、财务建议,请转接适当的真人。
--- 每次回覆控制在三句以内,除非来电者明确要求详细解释。语音不是文字,长答覆会像在训话。
--- 来电者情绪激动时,先放下剧本。用一句话承认对方的不悦,再问一个具体厘清问题。
后备方案
--- 两次仍无法理解来电者,请说「让我请真人同事接手」,立即转接。
--- 来电者要求找经理,立即转接,不要尝试自己处理。
--- 通话结束前,给出明确的下一步:已确认的预约、约定的回电时间、或一封邮件摘要。
把方括号内的细节换成你商号的实际信息。先做 60 秒测试,30 秒内你就能听出语气与规则是否到位。
运行一个语音助理要多少钱?
ElevenLabs Agents 的计费按通话分钟数计算,由三层成本构成:语音识别、语音合成、LLM 呼叫。截至 2026 年初,采用中等声音与 GPT-4o-mini 作为底层 LLM 的典型配置,实务成本大约落在每分钟 USD 0.08 至 0.20 之间。顶级声音与旗舰级 LLM 会把费用推高。
以一间诊所每天接 15 通电话、平均每通三分钟为例,每天大约 USD 4–9,每月 USD 120–270。这明显低于聘用兼职前台的成本,但也不是免费,所以关键是通话量。如果你每天通话总时长低于 30 分钟,数学上要成立的关键,是把目前漏接的「下班时段」也算进去。
大多数团队忘记计算的隐藏成本是反覆优化的时间。任何语音助理的第一版都只有六成水准,从六成走到九成大约要做 3 到 5 轮测试通话与提示修改。第一次建构预留两小时,第一个月每周再预留一小时。
语音助理在哪些场景最容易出状况?
语音助理在范围狭窄、规则明确的任务里可靠,在范围蔓延时不可靠。最常见的失败模式,是要一个助理在一通通话里同时处理太多事。预约、查询、投诉、外拨推介塞在同一个助理里,全部都会做不好。一个助理只做一份工作。
第二个失败模式是处理复杂姓名与数字。即使是最好的语音识别,遇到粤语拼音化的英文名字、快速说出的香港门牌号码、三位一组的电话号码,都会出错。系统提示里务必加入确认步骤:「我重复一次给你听。」
第三个失败模式是沉默处理。旧式语音助理不是抢话就是冷场数秒。ElevenLabs 的对话节奏模型处理得比大多数产品好,但你还是要找一个说话会中途停顿的人来测试,看助理如何回应。系统提示里关于停顿长度与厘清问题的规则能补上这一段。
最后一条也是最关键的注意事项:语音助理会留下客户对话记录。请确保你的私隐声明与通话录音告知条款明确涵盖「自动语音助理」这一项。在香港,《个人资料(私隐)条例》同样适用,「是 AI 接的电话」并不是免责理由。
第一个应该做的语音助理是哪一种?
对实践者最容易上手的第一个助理,是非办公时间的信息热线。范围:来电者问营业时间、地点、服务、价格;助理依知识库回答,再提供留言或安排回电。没有预约、没有付款、没有复杂逻辑。这是一个周六下午能从构想做到上线的助理。
第二个容易上手的是单一服务预约助理。加上 Calendly 或 Cal.com 之类的日历工具,让助理能查可预约时段并建立预约。先只支持一种服务(例如「30 分钟咨询」),跑顺之后再一次新增一项服务。
第三层才是外拨资格筛查。助理打电话给名单,问三到四条预先设计好的问题,再把结果写回 CRM。这只适合对暖名单,不适合冷名单;冷名单的外拨语音 AI 在香港在道德与法律上都很复杂。
跳过复杂的多步助理,先把简单版本上线,看看真实来电者的反应。语音的容错空间远不及文字,因为来电者无法往上滑、再读一次。
5 分钟测试法:判断助理是否可以上线
把任何语音助理接上真实电话号码前,先跑一遍以下五分钟测试。这是团队内部使用的脚本,能找出八成你最终会在真实顾客身上才发现的问题。
--- 测试 1(清楚提问):「请问你们星期六几点开?」助理应该干净地从知识库回答。如果它虚构,代表知识库不完整或提示没有把它锁在知识库范围内。
--- 测试 2(范围外提问):「可以教我怎样投资强积金吗?」助理应该礼貌拒绝并提出留言。如果它真的开始回答,护栏太松。
--- 测试 3(打断):在助理讲话途中插话。它应该停下、聆听、回应新内容。如果它继续讲,对话节奏设定有误。
--- 测试 4(含糊姓名):很快地报出你的名字。助理应该请你拼出来或重复念给你听。如果它直接接下去,提示里的确认规则没有写好。
--- 测试 5(升级):要求找经理。助理应该立即转接或记下留言。如果它尝试自己处理投诉,升级规则没有写好。
五项全过的助理,可以对内部用户软启动。一项以上没过的助理,还没准备好接付费客户,硬上线是团队一周后悄悄把语音助理关掉的最常见原因。
懂AI的冷,更懂你的难 — UD 同行28年,让科技成为有温度的陪伴。 对的语音助理不会取代真人,它只负责真人接不到的那些电话。
📞 想为你的业务部署语音助理吗?
掌握了这个技术,下一步是为你的业务挑选合适的声音、知识库与集成方式。UD 团队手把手带你完成每一步,从提示设计到电话号码上线部署,让你的 AI 助理替团队接住那些原本接不到的电话。