我爱音频网 我爱音频网
  • 首页
  • 新闻
    • 新品
    • 专访
    • 事件
    • 创业
    • 数据
    • 探厂
    • 招聘
  • 评测
    • 耳机
    • 音箱
  • 拆解
    • TWS耳机
    • 蓝牙脖挂
    • 有线耳机
    • 智能音箱
    • 蓝牙音箱
  • 方案
    • TWS耳机
    • 语音
    • 其他
  • 活动
    • 报名
    • 回顾
    • PPT
  • 专题
  • 视频
  • 联系
    • 微博
    • 微信
    • 邮箱
  • 注册
  • 登录
首页 › 新闻 › AI颠覆音源变焦技术,革新音视频同步变焦体验

AI颠覆音源变焦技术,革新音视频同步变焦体验

小明
19 11 月, 2024新闻

不知道大家有没有用过手机上的音源变焦功能,在用手机拍摄视频时,当你把画面逐渐变焦放大时,拍摄目标的声音逐渐变得清晰,而且背景的噪音被明显降低,聚焦突显拍摄目标的声音。这样的视频拍摄效果,就是通过音源变焦技术实现的。

音源变焦技术早就已经应用在手机上,到了今天,音源变焦技术的应用场景变得越来越广阔,不仅可用于视频拍摄,在安防摄像头、会议系统等场景,也可以利用该技术来实现实时声音跟随画面聚焦,带来更沉浸的体验。

AI颠覆音源变焦技术,革新音视频同步变焦体验-我爱音频网

图片来源:豆包AI图像生成

想要把音源变焦效果做好,在硬件和算法部分仍旧存在很多挑战,但AI技术带来了新的捷径。

音源变焦都有哪些应用场景?

AI颠覆音源变焦技术,革新音视频同步变焦体验-我爱音频网

在手机上,音源变焦技术可用于视频拍摄场景。借助这项技术,可以把视频画面变焦与音频声音相关联。比如在街边看到有路人歌手在演唱,通过变焦放大画面拍摄歌手特写时,即使拍摄距离比较远,也能把歌手的声音清晰地录下来。

音源变焦技术还能用于VR/AR眼镜,未来可能眼睛看往哪,声音就会自动聚焦到哪,让你瞬间拥有“顺风耳”。

在安防场景,当画面中的目标人物距离有点远,又想要听清声音时,就可以用上音源变焦技术。我们把安防摄像头的画面拉近放大,音源变焦技术会把目标人物的声音同步清晰放大,不用担心声音太小或者被其他人声干扰。

在会议系统中,音源变焦技术可以根据画面实时聚焦人物,同步输出聚焦人物的声音。即使会议上有其他干扰声音,也能让远程参会人听清当前主讲人的讲话内容。

实现音源变焦,都有哪些难点?

音源变焦的主要技术包括波束成形。波束成形技术要基于麦克风阵列,通过该技术可实现指向性声音收录,能够呈现指定方向的声音,并减弱背景噪音的影响。除了要具备麦克风阵列这种硬件基础,实现音源变焦还需要有专门的声音算法来对音源信号进行处理。

在音源变焦方案中,声音处理算法是一大难点。声音算法不仅要能够放大目标声音,还需要抑制其他环境噪音干扰,最终才能呈现出清晰的目标声音,核心在于声音和噪音的分离。

AI颠覆音源变焦技术,革新音视频同步变焦体验-我爱音频网

图片来源:豆包AI图像生成

在传统的音源变焦方案中,对语音信号处理的算法主要依赖于对声音信号的统计特性理解,只能根据人工编写和预估的规则,来识别环境噪音。这种处理方式的适应性较差,面对噪音种类繁多的复杂场景,难以起到较好的降噪效果。

强大的AI技术恰好能够大幅改善算法适应性差的问题,给音源变焦技术带来颠覆性的影响。

音源变焦还能变得更好用吗?

在音源变焦方案中,麦克风决定着音源信号的质量,这也是进行后续算法处理的基础。用上更好的麦克风阵列硬件,可有效提升音源变焦效果。因为麦克风性能提升后,能够清晰捕捉到目标声音,减少失真。高性能麦克风极大增强了特定方向的声音拾取效果,在噪声环境下也能显著提升语音质量,让算法处理效果更好。

AI颠覆音源变焦技术,革新音视频同步变焦体验-我爱音频网

部分音源变焦方案引入了AI技术对音源数据进行处理。把语音信号处理与深度学习结合,AI能够从海量数据中学习噪声和语音的分离规则。在经过大量数据训练后,AI能够更加准确地实时分离人声和背景噪音,既能准确聚焦到目标声音,也能起到明显的降噪效果。

AI技术还能辅助优化传统音源信号处理中遇到的问题,突破传统方案的性能瓶颈,给语音增强处理带来革命性的进步。

训练AI语音处理模型也存在着较高的门槛,主要包括数据匹配和模型小型化。只有给AI提供庞大的高质量数据集,训练出来的AI模型才能更加准确、高效地处理不同环境下的数据。另外,AI模型还需要尽可能小型化,既要能够高效处理数据,又不能占用太多计算资源,需要找到性能和模型规模之间的平衡点。

可以看到,要让音源变焦变得更好用,在硬件和算法方面都要有突破性的提升。

Audio Zoom AI音源变焦解决方案

英飞凌携手大象声科推出了Audio Zoom AI音源变焦解决方案。该方案结合了大象声科的AI语音增强技术和英飞凌的硬件产品,可实现音视频同步变焦。

AI颠覆音源变焦技术,革新音视频同步变焦体验-我爱音频网

硬件方面,视频支持光学变焦功能,通过大象声科的算法,能够实现视频与音源变焦同步。在音源部分,采用了8颗英飞凌高性能的硅麦克风组成线性麦克风阵列,这个方案还可以与英飞凌的AI边缘处理器PSOCTM Edge搭配,在本地就能完成音源算法处理。

英飞凌推出的Audio Zoom音源变焦解决方案,可以分别处理视频和音源信息,然后把这些信息与变焦比例相结合,输入到神经网络中,最终实现同步的音视频变焦效果。

在实际功能上,英飞凌Audio Zoom方案,能让视频主角的声音随着画面放大而变得更加清晰,即使在嘈杂的环境下,出色的降噪效果让其同样能提供高品质的音质效果。观看视频时,观众能够体验到画面与音源同步聚焦所带来的沉浸感。

Audio Zoom音源变焦解决方案能够应用于广泛适用于智能手机及配件、安防摄像头和会议系统等设备。

与专家共探音源变焦未来

11月22日下午15:00,我爱音频网将携手英飞凌与大象声科,开启一场主题为《基于AI语音增强的音源变焦技术与应用》的线上直播活动。通过这次活动,你可以深入了解AI语音增强音源变焦技术,与英飞凌、大象声科的专家共同探讨音源变焦的未来。

本次活动将会在英飞凌官微视频号、我爱音频网视频号同步线上直播。

报名方式:

方式一:长按识别海报二维码,关注【英飞凌官微】公众号,提交相关信息即可成功报名,直播开始前我们将为您发送智能会议提醒。

方式二:或下拉至文末,点击【阅读原文】,提交相关信息即可成功报名。

AI颠覆音源变焦技术,革新音视频同步变焦体验-我爱音频网
赞(0) 收藏(0)
2025CES创新奖频现中国厂商身影 轻量全彩AR+AI眼镜受关注
上一篇
评测|SmallRig斯莫格气垫麦S60 颜值高,佩戴方式灵活
下一篇
楼氏动铁革新佩戴体验,微型化也有不妥协的高性能
5 12 月, 2025
0 0
充电宝新国标合规如何落地?模微半导体IPB-M1 模组让移动电源秒变智能安全款!
5 12 月, 2025
0 0
BUTTONS CLIP夹耳式真无线耳机通过QQ音乐臻品音质认证
5 12 月, 2025
0 0
理想AI眼镜 Livis发布:支持远程控车,全系标配蔡司镜片
4 12 月, 2025
0 0
  • 0
关于我们

我爱音频网是国内最早进行智能音频设备(蓝牙耳机、TWS无线耳机、有线耳机、智能音箱、蓝牙音箱、USB-C/Lightning耳机)分析、评测、拆解的专业机构。稿件投递、联系我们:info@52audio.com

媒体专栏
今日头条 bilibili 微博 搜狐 腾讯视频 一点资讯 互动吧 企鹅号 花瓣 简书 什么值得买 ZAKER
友情链接
快科技 cnBeta IT之家 充电头网 POWER-Z ZAEKE 亚洲智能穿戴展
Copyright © 2016-2025 我爱音频网. Designed by nicetheme. 地址:深圳市龙岗区坂田街道南坑社区雅园路5号创意园Y4栋4层407-410,联系电话:17722607323 粤ICP备16035666号-2
  • 首页
  • 新闻
    • 新品
    • 专访
    • 事件
    • 创业
    • 数据
    • 探厂
    • 招聘
  • 评测
    • 耳机
    • 音箱
  • 拆解
    • TWS耳机
    • 蓝牙脖挂
    • 有线耳机
    • 智能音箱
    • 蓝牙音箱
  • 方案
    • TWS耳机
    • 语音
    • 其他
  • 活动
    • 报名
    • 回顾
    • PPT
  • 专题
  • 视频
  • 联系
    • 微博
    • 微信
    • 邮箱
# 上市公司 # # 市值管理 # # 财报分析 # # xMEMS # # 高通新闻 #
小明