Linly-Talker在机场导航服务中的试点应用成果展示-育师

Linly-Talker在机场导航服务中的试点应用成果展示

在一座繁忙的国际机场里，一位外国旅客拖着行李站在大厅中央，环顾四周却找不到问询台。他试着用英语问了一句：“Where’s the nearest check-in counter for China Southern?” 几秒钟后，不远处一块高清屏幕上，一位面带微笑的数字导览员转过头来，口型精准地同步着回答：“Please proceed straight ahead about 80 meters. The China Southern counter is on your right.” 声音温和、表情自然，仿佛真人服务就在眼前。

这不是科幻电影的场景，而是Linly-Talker数字人系统在某大型机场为期三个月试点运行的真实片段。随着人工智能技术从“能听会说”迈向“有情感、懂交互”的新阶段，这类基于多模态AI的实时数字人正悄然改变公共服务的形态。

传统机场导引依赖人工客服和静态标识，面临人力成本高、响应延迟、语言覆盖有限等长期痛点。尤其在国际枢纽机场，面对日均数万客流、上百种语言组合与动态变化的航班信息，仅靠人力难以实现高效、一致的服务输出。与此同时，旅客对服务体验的要求却在不断提升——他们不仅需要准确的信息，更期待快速、亲切、无障碍的互动方式。

正是在这样的背景下，Linly-Talker应运而生。它不是一个简单的语音助手或动画形象，而是一套集成了大型语言模型（LLM）、自动语音识别（ASR）、语音合成（TTS）与面部动画驱动技术于一体的全栈式数字人对话系统。其核心目标是：让机器不仅能“理解问题”，还能“以人的样子说出来”。

这套系统最令人印象深刻的，是它的部署速度与定制灵活性。在一个实际案例中，机场方仅提供了一张工作人员的正面照片和30秒录音，24小时内就上线了一个音容俱佳的“虚拟地勤专员”。用户提问时，系统能在500毫秒内完成从语音输入到带表情视频输出的全流程响应，真正实现了“即问即答、形声同步”。

支撑这一流畅体验的背后，是多项前沿AI技术的深度协同。

以语义理解为例，Linly-Talker采用的是经过航空领域微调的轻量化大模型（如ChatGLM3-6B）。不同于通用聊天机器人，该模型在训练阶段融入了大量航站楼布局、登机流程、安检规则等专业知识，并通过提示工程（Prompt Engineering）将其角色明确定义为“专业、礼貌、简洁的机场导览员”。这意味着当用户问出“我带了婴儿车能走快捷通道吗？”这类复合型问题时，系统不会泛泛而谈，而是结合当前政策与空间位置给出具体建议。

from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "THUDM/chatglm3-6b" tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True) def generate_response(prompt: str) -> str: inputs = tokenizer(prompt, return_tensors="pt", padding=True) outputs = model.generate(**inputs, max_new_tokens=128, do_sample=True) response = tokenizer.decode(outputs[0], skip_special_tokens=True) return response.replace(prompt, "").strip() question = "我需要去T3航站楼的南方航空柜台，应该怎么走？" answer = generate_response(f"你是一个机场数字导览员，请回答用户问题：{question}") print(answer)

当然，模型的强大也伴随着风险控制的责任。我们观察到，在未加约束的情况下，LLM可能因知识幻觉生成错误指引，例如将已关闭的通道描述为可用路径。因此，实际部署中引入了三层防护机制：一是构建结构化知识图谱作为事实校验源；二是在推理链中嵌入“置信度判断”模块，低信心回答自动转接人工；三是设置敏感词过滤与安全策略引擎，确保输出内容合规可靠。

语音识别环节则直面机场特有的挑战——高噪声环境。广播声、脚步声、行李箱滚轮声交织在一起，传统ASR系统在这种环境下误识率可高达30%以上。为此，Linly-Talker选用了Whisper系列端到端模型，并针对机场典型声学特征进行了增强训练。更重要的是，系统采用了流式ASR架构，配合VAD（语音活动检测）模块实现“边说边识别”，大幅缩短首字响应时间。

import whisper model = whisper.load_model("small") def speech_to_text(audio_path: str) -> str: result = model.transcribe(audio_path, language="zh") return result["text"] transcribed_text = speech_to_text("user_question.wav") print("识别结果：", transcribed_text)

值得一提的是，系统具备语种自适应能力。当检测到用户混合使用中英文表达时（如“Where is 登机口A5?”），无需手动切换模式即可完整识别并保留原始语序特征，极大提升了跨语言用户的沟通效率。

如果说ASR是“耳朵”，TTS就是数字人的“声音器官”。在这里，技术的关键已不再仅仅是“把文字读出来”，而是“如何用合适的声音、合适的语气说出来”。Linly-Talker采用神经网络TTS方案（如VITS或FastSpeech2 + HiFi-GAN），并通过语音克隆技术复现预设角色的音色特质。

import torch from tortoise.api import TextToSpeech from tortoise.utils.audio import load_audio tts = TextToSpeech() def clone_and_speak(text: str, reference_wav: str, output_wav: str): reff_audio = load_audio(reference_wav, 22050) gen = tts.tts_with_preset( text, voice_samples=[reff_audio], conditioning_latents=None, preset="high_quality" ) torchaudio.save(output_wav, gen.squeeze(0).cpu(), 24000)

这种个性化声音设计并非炫技。试点数据显示，使用真实员工音色克隆的版本，用户平均停留时长比标准合成音提升47%，且重复提问率下降近三分之一。这说明“熟悉的声音”确实能增强信任感——哪怕对方是个屏幕里的虚拟形象。

而真正让整个系统“活起来”的，是面部动画驱动技术。Linly-Talker采用Wav2Lip类模型实现语音到唇形的精确映射，误差控制在±40ms以内，达到肉眼无法察觉不同步的水平。更进一步，系统还会根据语义内容添加微表情：陈述句配以平和眼神，疑问句伴随轻微皱眉，关键信息点出现时甚至会有点头动作强化记忆。

import subprocess def generate_talker_video(photo_path: str, audio_path: str, output_video: str): cmd = [ "python", "inference.py", "--checkpoint_path", "checkpoints/wav2lip.pth", "--face", photo_path, "--audio", audio_path, "--outfile", output_video, "--static", "--fps", "25" ] subprocess.run(cmd)

这项技术的意义在于打破了“一张嘴、其他不动”的机械感桎梏。当数字人不仅能说话，还能“看着你说话”、“带着情绪说话”，人机交互的心理距离就被显著拉近了。

整个系统的运行流程可以概括为一条高效的流水线：

[用户语音输入] ↓ [ASR模块] → 将语音转为文本 ↓ [LLM模块] → 理解语义并生成导航回复文本 ↓ [TTS模块] → 合成语音（含语音克隆） ↓ [面部动画驱动模块] → 生成口型同步视频流 ↓ [显示终端] ← 播放数字人视频 + 播放语音

硬件层面，系统部署于NVIDIA Jetson AGX Orin等边缘计算设备上，兼顾算力与功耗。所有数据处理均在本地完成，不上传云端，符合民航业严格的数据安全规范。即便在网络中断情况下，核心模块仍可降级运行轻量版模型，保障基础服务能力不中断。

试点期间收集的反馈揭示了一些意料之外但极具价值的现象。比如，老年旅客虽然初次接触数字人时略显迟疑，但在一次成功交互后，后续使用意愿明显增强；儿童则表现出极高的兴趣，常主动上前打招呼，甚至有人误以为那是“藏在屏幕后的真人姐姐”。这些细节表明，拟人化的表达形式本身就在降低技术使用门槛。

从运营角度看，这套系统带来的变革更为深远。过去更新一次导引话术需要层层审批、逐台设备手动操作，而现在通过后台管理系统，几分钟内就能完成全机场终端的知识库同步。某次临时关闭某个安检口的通知，从决策到各数字人统一播报，全程仅耗时9分钟，相较以往效率提升超过20倍。

实际痛点	Linly-Talker 解决方案
人工导引成本高、排班难	数字人7×24小时值守，无需休息
外语服务能力不足	内置多语言ASR/TTS，支持中英日韩等自动切换
信息传达枯燥乏味	拟人化表情+语音+动画增强信息吸收率
内容更新慢	后台一键更新话术与知识库，分钟级生效
形象不统一	统一数字人形象与声音，强化品牌形象

当然，技术落地从来不是一蹴而就的过程。初期也曾遇到诸如强逆光下摄像头失效、方言识别不准、多人同时提问干扰等问题。但每一次问题都推动了系统的迭代优化——加入光照补偿算法、构建方言适配层、设计优先级唤醒机制……正是在这种真实场景的锤炼中，Linly-Talker逐渐成长为一个真正“扛得住压力”的工业级产品。

展望未来，这类数字人系统的潜力远不止于导航问答。它可以延伸为值机前导、延误安抚、应急疏散指引等多种角色，在航班异常等高压情境下，提供稳定、冷静、不知疲倦的服务支持。更有意思的是，结合AR眼镜或移动App，数字人甚至可以“走出屏幕”，在旅客的视野中进行实景叠加指引。

更重要的是，这个案例所代表的方向——将复杂AI能力封装成普通人也能轻松使用的工具——正在加速人工智能的普惠化进程。也许不久的将来，任何一家医院、展馆或政务大厅，都能用一张照片、一段声音，为自己定制专属的“数字员工”。

技术终将回归服务的本质。Linly-Talker的价值，不在于它用了多少前沿模型，而在于它让一位迷路的母亲更快找到登机口，让一位听障旅客通过字幕获得平等的信息获取权，让一座城市窗口单位展现出更具温度的智慧形象。这才是AI真正应该奔赴的地方。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

Linly-Talker在机场导航服务中的试点应用成果展示

Linly-Talker在机场导航服务中的试点应用成果展示

Open-AutoGLM收费模式全解析：5种主流定制开发计费方式及企业选型建议

【大模型开发新范式】：Open-AutoGLM 如何让AI研发效率提升300%？

Open-AutoGLM调试实战（90%工程师忽略的隐藏问题）

Linly-Talker支持自定义服装与背景，数字人形象更丰富

Open-AutoGLM测试自动化落地全记录（从0到1的突破性实践）

Linly-Talker部署常见问题汇总及解决方案大全