
如今的AI无处不在——自动驾驶汽车要实时识别路上的行人和车辆,医院里的CT影像要靠AI辅助诊断病变,短视频平台则需要AI快速理解视频内容进行推荐。这些任务有一个共同特点:它们处理的数据都是三维(3D)的。无论是激光雷达扫描到的立体点云、CT拍出的人体切片,还是一帧帧连续的视频画面,都天然地具有长、宽、深(或时间)三个维度。
要处理这类3D数据,深度学习中有一种专门的工具叫做3D卷积神经网络(3D CNN)。相比只能在平面上提取特征的2D网络,3D CNN能同时从三个方向挖掘数据之间的关联,效果更好。然而,3D带来的好处是有代价的——计算量会呈立方级增长。打个比方,如果2D处理需要算100次乘法,3D可能就要算100万次。这让现有的GPU等硬件承受着巨大压力。
近年来,光计算作为一种新兴方案引起了广泛关注。光信号天生具备高带宽、低延迟、低功耗的优势,处理速度可以达到数百GHz量级,远超传统电子芯片。然而,目前主流的光子计算加速器都是为二维矩阵运算设计的。要用它们处理3D数据,必须先在电子端把3D数据"拍扁"重新排列成2D格式,这一步不仅额外消耗内存和时间,还需要复杂的电子时钟来同步多个计算通道,大大增加了系统复杂度。
有没有办法让光子芯片直接处理3D数据,跳过这些繁琐的"格式转换"步骤?上海交通大学的研究团队给出了一个令人振奋的答案。
2026年3月,上海交通大学陆梁军、周林杰团队在国际顶级光学期刊《Light: Science & Applications》上发表了一项重要成果:他们提出并验证了一种集成光子3D张量处理引擎(3D-TPE),首次实现了在光域内直接完成3D卷积计算,无需将数据降维成2D再处理[1]。

如图[1]所示,传统的2D光子加速器(左侧)在处理3D卷积时,需要先将3D数据在电子端重新排列、依赖电子时钟进行通道同步、并在数字域进行多列结果的累加。而新提出的3D-TPE(右侧)将数据缓存、通道同步和计算全部放在光域完成,极大简化了系统架构。
这套系统的核心思路可以概括为三个关键词:时间、波长、空间的交织调制。具体来说:
最终,整个3D卷积运算可以在数据流过系统的过程中一气呵成,不需要拆分成小块分别计算再拼接。
3D-TPE系统的核心由两颗自主研制的光子芯片构成,各司其职。
如图[2]所示,OCU芯片是一块仅有2mm×3.17mm大小的4×4交叉阵列芯片,包含16个权重单元(WE)。每个权重单元采用了一种创新的双耦合微环谐振器(dual-coupled MRRs)结构,制造在多层氮化硅-绝缘体上硅(Si₃N₄-on-SOI)平台上。

为什么要用双耦合微环而不是传统的单微环?原因主要有三点:
| 特性 | 单微环(传统方案) | 双耦合微环(本方案) |
|---|---|---|
| 光学带宽 | 较窄,高速信号易失真 | 约50 GHz,信号失真小 |
| 频谱形状 | 尖锐的洛伦兹型 | 平坦的"箱型",权重误差更小 |
| 温度敏感性 | 对环境温度敏感 | 氮化硅材料温度敏感性低 |
| 相邻通道串扰 | 较高 | 低于-25 dB |
实验测量表明,在27种不同权重组合下进行1350次测量,权重误差的均值仅为0.001,标准差仅为0.0041,等效精度超过7比特。在初始校准条件下,精度甚至可达约9.7比特——而且无需复杂的反馈控制算法,只靠简单的查找表就能实现高精度权重设置[2]。
如图[3]所示,OMU芯片制造在SOI平台上,尺寸为3.76mm×10.9mm,集成了8条完全相同的可调光延迟线(OTDL)。每条延迟线由7个级联的马赫-曾德干涉仪(MZI)开关和延迟波导组成,通过切换不同光路,可以实现从0到310.59 ps的连续可调延迟,调谐精度达到4.93 ps。

OMU芯片的一个重要特点是时钟频率可调。传统光计算方案通常使用固定长度的光纤或延迟线,只能适应一种数据速率。而3D-TPE的OMU可以根据不同任务灵活调节延迟时间,支持最高约200 GHz的自适应时钟频率。这意味着同一套硬件既能处理"数据稀疏"的低速任务,也能应对"数据密集"的高速场景。
更关键的是,OMU完全在光域实现了通道同步,彻底去掉了传统方案中昂贵且复杂的电子时钟模块。整个3D-TPE系统只需要1个调制器、1个放大器、1个数模转换器、1个模数转换器和1个跨阻放大器,高速电子器件的数量相比传统方案减少了数个量级。
研究团队首先在10、15、20和30 GBaud四种符号速率下,使用12万个随机生成的数据点进行了四通道并行矩阵乘法运算测试。从图[3]的实验波形可以看到,不同速率下实测波形与数字计算结果高度吻合,计算精度(以标准差的等效比特数衡量)在4.1到4.8比特之间。随着速率升高,精度略有下降,这主要受限于信号发生器的带宽和高速传输中不可避免的信号失真,未来通过芯片级单片集成可以进一步改善。
为了验证3D-TPE在真实AI任务中的表现,研究团队选择了一个与自动驾驶密切相关的场景——3D激光雷达(LiDAR)点云图像识别,任务目标是区分行人和车辆。
如图[4]所示,研究团队设计了一个包含3D卷积层、最大池化层和两个全连接层的3D CNN网络,结构类似于自动驾驶领域知名的VoxNet。其中,最核心的3D卷积运算在3D-TPE上完成,其余计算仍由数字计算机执行。实验使用的是悉尼城市物体数据集,包含由商用激光雷达采集的真实场景数据。数据被转化为32×32×32的3D点云,以20 GBaud的速率输入系统,3D卷积核大小为2×2×2。

从图[4]中的对比结果可以看到,无论是行人还是车辆,3D-TPE提取的3D特征图在不同观察角度下都与数字计算结果高度一致,细微差异主要来自高速传输中的噪声。最终,在68个测试样本上,实验识别准确率达到了97.06%,与纯数字计算机的结果完全一致[4]。
目前,3D-TPE的峰值吞吐量已达到0.96 TOPS(每秒万亿次运算),能效为0.3 TOPS/W。虽然这些数字与大型GPU相比还有差距,但考虑到系统仅使用了4×4规模的芯片,未来通过扩大芯片规模(最高可扩展至121个权重单元)、提升处理速率(最高支持200 GHz),以及将所有核心器件单片集成到约39.2 mm²的芯片上,性能还有巨大的提升空间。
值得注意的是,这项工作的意义不仅在于"更快",更在于开创了一种全新的计算范式——让光子芯片原生地处理3D数据,而非被迫适应为2D计算设计的架构。随着自动驾驶、3D医学影像、实时视频分析、虚拟现实等领域对3D数据处理需求的持续爆发,这类光子3D计算引擎或许将成为下一代AI硬件的重要组成部分。
当然,从实验室原型到商业化产品还有不短的路要走——芯片间的耦合损耗需要通过单片集成来解决,温度管理、大规模制造的良率、与现有AI软件生态的兼容性等问题也有待攻克。但这扇窗户已经打开:当"光"学会了直接理解三维世界,AI的算力边界或许正在被重新定义。
本文由超能文献“资讯AI智能体”基于4000万篇Pubmed文献自主选题与撰写,并经AI核查及编辑团队二次人工审校。内容仅供学术交流参考,不代表任何医学建议。
分享

一项发表在《美国国家科学院院刊》上的研究揭示,“大不整合面”的形成并非“雪球地球”冰川刮削所致,而是更古老的哥伦比亚超大陆的演化。

MIT researchers use 'implosion fabrication' to 3D print 3D nanophotonic structures with 50nm precision and tunable optical properties by shrinking hydrogels.

本文探讨了为什么同样的减肥方法对不同人效果不一,指出现阶段缺乏个性化减肥方案的明确路线图。好消息是,在欧盟支持下,《肥胖评论》特刊将发布“抗胖路线图”,有望彻底改变未来体重管理方式,实现私人定制。

本文颠覆常识,指出衰老并非身体故障,而是进化为种群繁衍在有限资源下做出的“最优解”。通过解析适应度指标和三大衰老理论,结合自然界奇特现象,文章揭示优化理论完美解释衰老机制,强调长寿并非免费,并提出“老年科学假说”,指出调控衰老有望打包预防老年病,为人类健康和寿命带来新视角。