电话:4008119163
关闭
您当前的位置:首页 > 职场资讯 > 职场攻略

苹果放鸽子的更新被国产AI率先实现,万物皆可交互互联啦

来源:网络整理 时间:2025-06-16 作者:佚名 浏览量:

白交 衡宇 发自 凹非寺

量子位 | 公众号 QbitAI

苹果放鸽子的更新,国产AI率先实现了。

宇树机器人背着一个看似普通、体积微不足道的背包,便生动形象地开始交谈。

社交人士佩戴AI眼镜后,能够轻松与外籍人士交流,仿佛自然而然地添加了微信好友;若用它参观展览,遇到不熟悉的展品,甚至可以装作懂得一二(当然不是真的)。

你对智能硬件的设想,是否依旧局限在“能够理解你的言语”这一层面?这种“你问一句、它回应一句”的交流方式,其本质仍旧是命令式的、静态的。一旦情境发生转变,或是语气变得含糊不清,用户体验便会瞬间崩塌。

如今,这一切都在发生转变。从具体事物到抽象概念,交互与互联的理念逐渐变得触手可及。

你甚至可以让巴斯光年、变形金刚在你面前唱歌跳舞。

手里的一支签字笔、一块贴牌,也可以化身会议神器。

在科大讯飞最新发布会上,我看到了智能硬件的新范式:

设备不再构成障碍,产品与服务正经历AI带来的革新,而交互方式的重构正彻底改变着整个硬件产业生态。

AIUI,一站式搞定人机交互开发

正如本次发布会所揭示,我们明显感受到,智能硬件正从基础的交互功能向深度的智能协作阶段过渡,并在各类应用场景中实现更深层次的赋能。

从技术层面来看,人机交互正逐渐演变为一个结构复杂的系统工程,它已不再仅仅是语音识别、模型构建以及语音合成等单一技术的简单叠加。

这现象背后,是由于AI技术广泛应用后,用户对其功能的要求日益提升。在此背景下,讯飞公司提出了一些观察到的现象:

传统的交互模式可能仅限于“你问一句、它回一句”的固定模式;然而,随着大模型的升级,各种事物都可以成为交互的媒介,智能交互所满足的需求相较于以往,不仅变得更加复杂,而且也更为多样化。

它融合了工具、娱乐和情感表达的功能,既具备卓越的智慧,又拥有理解与感知你的情感智慧,这就像是“我能让你做这,但你不能仅限于做那”。

当然,这无疑对技术领域提出了极高的要求,涵盖了诸如对自然多轮对话的理解与处理、情绪的识别及共鸣、长程记忆的存储以及快速响应等多方面的挑战。

讯飞经过十年的深耕,面对挑战将如何应对?语音技术成为了他们解决问题的关键,同时也是本次AIUI升级的核心所在。

讯飞公司开发的AIUI人机交互平台自2015年发布以来,至今已覆盖超过10亿台设备,并在车载系统、人工智能硬件以及机器人等多个领域实现了应用。

本次更新中,正如与会者在场所目睹的,每一台人工智能设备均能实现如同人类般的自然交流,并且无论何种情境,均能智能作出相应的反应——

背后是技术突破、场景深耕到生态开放都全面Level-Up。

在技术突破层面,讯飞公司认为,实现全双工交流以及准确捕捉和反馈情绪,是构建拟人化交互不可或缺的基本条件。

在全双工通信状态下,存在“能听到的和听不到的”之分。AIUI技术不仅擅长于识别干扰噪声以及无关的语音,而且在用户犹豫、等待或应和的时候,它还能主动地延长录音时间。

过去,语音助手可能在你话还没说完时就急于回应,或者在你话音刚落时反应迟缓。而现在,它能够更准确地识别你是在思考中的停顿、是在赞同还是在犹豫,既不会随意打断你的话,也不会让你长时间等待,使得对话的节奏变得更加顺畅。

不仅如此,它不仅能辨识你所说的词汇,还能通过你的语调和音色感知到你此刻是喜悦、失落还是焦虑。

依托于海量高品质高情商的对话资料进行训练,其背后的核心模型——星火交互大模型,其“共情力”得到了显著提升,现已成为能够感知并回应你情绪变化的智能伴侣。

基础要求一旦达标,岂能不懂其中奥秘?!此次发布的新亮点,便是那个引人瞩目的类人记忆系统。

依托长短时记忆融合的架构,模仿人类大脑的记忆模式,对对话内容进行多层次的精确提取,包括上下文对话、用户画像以及生活事件,逐渐塑造出独特的交流风格和知识体系,仿佛与您一同经历成长的过程。

此外,我们在交互响应方面也有所突破,实现了音频端到端的响应时间仅需1.6秒,这一成绩在行业内量产的语音交互系统中位居前列。

专门针对市场需求旺盛的儿童领域,讯飞公司推出了专为儿童设计的交互解决方案。正如之前所述,借助大型模型技术,儿童场景下的交互频率实现了显著提升,增幅高达733%。

孩子们在说话时往往想象丰富却表达模糊,譬如他们会说“我要那个会发光的星星”。为此,科大讯飞特别研发了儿童语言识别模型和儿童语言理解模型,旨在提高在对话环境中对儿童语言的识别准确度和理解正确率。

在内容构建、交流方式、心理状态维护等维度,讯飞进行了必要的改进。

孩子表示:“我想了解恐龙。”这时,设备不仅能够播放相关的科普视频,而且还能够指导孩子用英语来描述恐龙的形态特点。这样的做法,正是将AI技术融入早教场景,实现了富有乐趣的互动学习。

除此之外,在众多硬件应用场景中,借助AIUI技术的支持,我们正见证着从功能实现向用户体验重塑的转变。

智能眼镜的应用场景,例如,即便是在发布会等喧嚣场合,凭借三麦阵列降噪技术的支持,设备依然能够精确地区分佩戴者的声音与周围人的声音,从而实现“一对一”的私密对话功能。当然,这些功能的赋能仅仅是产业发展的起点,若要实现产业的全面赋能,还需构建一个完整的生态系统。

讯飞公司历来拥有丰富的开发者群体,理应充分利用这一优势。AIUI计划携手超过三十万开发者,共同打造AI硬件的解决方案,并致力于提升软硬件结合的交互体验。

董事长刘庆峰曾说过,语音将成为万物互联时代的主要交互方式。

AIUI为硬件带来了充沛的感知与表达功能,然而,为了实现从感知到理解再到行动的完整闭环,我们还需为其配备“大脑”,以赋予其思考的能力。

科大讯飞给出的答案是机器人超脑平台。

背上就说话!智能语音背包让“沉默”机器人开口

实际上,早在2022年,科大讯飞便推出了讯飞机器人超脑平台;随后,随着大模型技术的迅猛发展,讯飞公司迅速将星火大模型与超脑平台进行了深度整合。

当前机器人超脑平台依托于科大讯飞的超脑2030技术基础,采用讯飞星火所特有的两层1+N认知大模型体系,构筑了交互式大脑,显著增强了多轮对话、语义解析、知识运用、情感交流以及行业知识构建等方面的性能。

超脑平台规定机器人需具备听力与口语能力,同时还要懂得理解和执行指令,其中,多模态交互技术是确保机器人“能听会说”功能得以实现的关键组成部分。

一方面,平台在端侧提供了视听融合的感知交互解决方案。

借助融合视听感知技术(包括语音识别、唇形分析和人脸追踪)、多模态噪声抑制以及多人语音区分等先进手段,旨在打造一个完善的机器人感官系统。

在多模态降噪技术领域,讯飞机器人的超脑平台运用了麦克风阵列的窄波束算法,这一技术将拾音角度的限定范围从传统的60°缩小至30°,从而显著增强了机器人设备麦克风阵列在两侧对噪声的抑制能力。

即便是在喧嚣的场所,机器人的语音识别准确率已经从83%飞跃到了96%。

此外,该平台在云端搭建了一个以大型模型为基础的机器人智能中枢,并且在工程实施方面进行了多项改进。

云端的大型模型在输出内容上进行了简化,旨在防止传统机器人回答问题时出现冗长,其音频从端到端的响应时间仅需1.6秒。同时,它还实现了超越人类水平的语音合成技术,并将TTS的首响时间缩短至200毫秒以内。

目前,讯飞机器人的超脑平台技术已成功融入并应用于多款机器人产品之中。

在永达4S店担任迎宾工作的智元远征A2型人形机器人,具备平台的多模态交互功能,它不仅能主动感知顾客并热情迎接,还能运用丰富的汽车专业知识库,为顾客提供车型参数的详细咨询以及促销活动的详细讲解。

此外,这种功能强大的多模态语音交互技术,已被北京“天工”、上海“朱雀”、浙江“领航者2号”等众多人形机器人广泛采纳并应用于实践。

值得注意的是,针对机器人产业所遭遇的“零散需求”和“大规模应用”之间的冲突,讯飞机器人超脑平台采纳了模块化的设计理念。

具体来看,该平台构建了一套软硬件结合的完整解决方案,有效加快了交付效率。

在发布会现场,讯飞机器人超脑平台正式推出了一款全新产品,即智能语音背包。

它的存在是为了破解存量机器人缺乏语音交互能力的痛点。

无需对机器人进行硬件上的重新构建,只需将智能语音背包背上,便能使其具备开口交流的功能,实现即插即用。

合作伙伴宇树G1背着它的“小背包”就上台了:

背上智能语音背包,G1秒变段子手。

不仅与现场的产品经理们展开轻松愉快的对话,而且亲自演示了自己在深圳所学的太极拳,用程序员们喜闻乐见的方式进行了动作解析。

此法被誉为“无线网络信号满分绝技”!随之而来的是代码执行流畅无阻——最终,系统得以实现永久稳定运行!

(猜猜下图这招叫啥?)

截至目前,已有超过五百家企业客户选用讯飞机器人的超级大脑平台,涵盖人形、四足、轮式等多种机器人类型,助力机器人从科研实验室迈向商场、医院、4S店等实际应用场景。

讯飞深信,随着机器人服务现实世界的能力不断提升,在不久的将来,遥控器、屏幕等作为人机交互的媒介将逐渐被淘汰,而人机之间的直接交流将成为服务环节中的基本需求。

AI交互不是终点

在智能交互这一主题下,发布会现场披露了众多实质性内容,包括构建开发者生态、展示智能硬件(例如AI眼镜)、介绍数字人以及大模型Agent等,这些信息不时激发起观众热烈的掌声。

数字人一直是科大讯飞的拿手好戏,此次发布会上依旧格外出彩。

会议指出,相较于上一年度,2024年全年,科大讯飞在数字人制作方面的数量增长了16%,而用户与数字人之间的日交互频次亦实现了6.5倍的增幅。

根据数据统计,AI虚拟人交互平台已经成功打造了超过十万个数字形象,这些形象被广泛运用于媒体传播、教育普及、政企合作、文化旅游等多个领域。在金融、媒体和教育等关键领域,其市场份额均位居首位。

现场演示了科大讯飞针对个人用户推出的轻便定制服务——如今,仅需一句口令或一张图片,便能迅速打造出一个人的虚拟形象。

新产品移动数字人小雨也在发布会现场亮相。

该设备具备导航及路径规划功能,能够在展览馆、博物馆等场所内自由穿梭,为游客提供导览服务。

有趣的是,科大讯飞观察到,在大模型时代到来之前,电视和车载系统成为了人机交互最为频繁的应用领域;而随着大模型时代的到来,儿童领域的对话需求显著上升,交互速度更是增长了超过7倍,进而成为了交互频率最高的场景。

值得注意的是,在发布会现场,科大讯飞针对儿童这一高发应用场景,实现了体验的全面提升。

在发布会的外围,五位父亲运用科大讯飞专为儿童设计的低功耗开发套件,在短短的60分钟内,对开发板上的“童芯大脑”功能进行了挑战。

此处“技术-场景-生态”三者相互融合,这恰恰是科大讯飞长期坚持的技术创新理念。

此外,此次赛事亦纳入了科大讯飞年度开发者盛会的范畴——在发布会同期,讯飞iFYTEK人工智能开发者大赛亦同步拉开帷幕。

本届比赛涵盖了36场应用竞赛和72场算法竞赛,特别设立了智能座舱交互评估以及多模态虚拟人对话等前沿领域赛道,通过构建开放生态和提出前沿的竞赛题目,助力人工智能新生代的茁壮成长。

自2018年开始,科大讯飞每年均举办开发者大赛,该赛事现已成为一个国际化的AI竞赛平台;众多来自世界各地的AI产业专业人士纷纷加入,共同致力于推进AI前沿科学的研究,并实现创新成果的实际应用转化。

十五年前,我国科大讯飞推出了业界首个语音云服务,这一举措正式开启了语音交互领域的新篇章。

在2015年,即五年之后,科大讯飞推出了其首个AIUI人机交互界面,这一创新使得智能硬件领域迈入了语音交互的新纪元。

自2021年起,我国见证了虚拟数字人的诞生,紧接着在2022年,机器人超脑平台也应运而生,而到了2023年,讯飞星火大模型更是惊艳亮相。从2010年至今,科大讯飞在交互技术领域持续实现创新突破。

这场刚刚落幕的发布会尽管是针对智能交互产品的,然而它所讲述的故事,并不仅仅局限于功能上的增强和设备智能度的提升。

最直接的体验是,这让我们更清晰地洞察到,在科大讯飞,智能交互正逐步从单一指令的执行转变为深度协同的互动模式:

这并非仅仅是对科大讯飞某项功能或工具的简单产品更新,而是一个以人工智能交互为核心,涵盖了从硬件研发到实际应用场景落地的完整技术解决方案。

人机关系的重塑已不再局限于“命令-执行”的模式,而是逐渐演变为共同追求目标的过程。交互体验的提升也不再是单一模块的更新,而是标志着系统智能协作的崭新起点。

您可以将这一观点视为产品与服务正朝着更加便捷、高效以及智能化的趋势发展。

这种变革不仅致力于提升讯飞自身产品的用户体验,促使产品品质实现飞跃,而且还通过平台化手段为合作伙伴提供支持,精准解决广电、家庭、医疗、办公等多个具体领域的核心难题,确保产业升级真正落地生根。

总之,让技术真正转化为解决问题的生产力。

人机协作的未来阶段,已超越了单纯的“交流互动”,而是迈向了“共同作业”,甚至能够“主动为你出谋划策”。

一个更加智慧、协同、充满活力的智能时代,正随着科大讯飞的这场发布会,逐步迈向现实。

客服服务热线
4008119163
24小时服务
微信公众号
手机浏览

Copyright C 2018 All Rights Reserved 版权所有 聚贤人力 皖ICP备20008326号-40

地址:安徽省合肥市高新技术开发区人力资源产业园 EMAIL:qlwl@foxmail.com

Powered by PHPYun.

用微信扫一扫