物理信息神经网络(PINNs)作为一种解决与偏微分方程(PDEs)相关的正向和反向问题的强大方法,已经引起了广泛关注。在本研究中,我们揭示了经验风险损失函数中持续存在的不平衡现象。基于这一观察结果,我们引入了一种损失驱动的动态权重PINN,并结合基于神经切线核的理论分析。为了评估我们提出的方法的有效性,我们采用不同的学习率衰减策略,对各种复杂的、与时间相关的物理现象进行了全面评估。进行了一系列实验,以研究动态权重更新频率和分配原则对准确性和计算效率的影响。此外,为了阐明PINN在解决反问题时失败的潜在原因,我们提供了一种理论解释,该解释涉及通过梯度下降对高维非线性PDEs进行多参数发现。利用极限等价的概念,我们提出了一种创新算法,称为残差变换PINN(ResTranPINN),它不仅加速了收敛,还减少了计算时间。这些研究为理解PINN优化和诊断可能的失败模式提供了新的见解和全面的框架。
判别相关滤波器(DCF)已成为目标跟踪中一种流行且有效的方法。基于DCF的跟踪器具有出色的性能和效率,在多个具有挑战性的场景中获得了令人瞩目的关注并取得了可靠的跟踪结果。尽管基于DCF的跟踪器提高了跟踪性能,但它们仍然受到诸如外观突变、滤波器退化和目标变形等意外因素的影响,这会导致跟踪器性能下降。为应对这些挑战,提出了一种新颖的多正则化突变感知相关滤波器(MRMACF)方法。为此,我们提出了一种具有自适应混合模型的突变感知策略,该模型采用突变威胁机制技术,在滤波器偏离目标位置时有效处理外观突变和滤波器退化问题。突变威胁机制可识别目标对象外观的突然和显著变化,这是通过将当前外观与最近的历史模型进行比较的自适应混合模型方法实现的。在此之后,我们引入了一种改进的稀疏空间特征选择方法,该方法将基于行和列的特征选择方法纳入稀疏空间技术,旨在识别目标区域内的关键特征并成功解决目标变形问题。此外,还提出了周围感知方法,该方法提取目标区域的周围样本以利用上下文信息,从而防止滤波器偏离目标并提高判别能力。具体而言,提出了自适应混合模型方法,通过合并来自先前帧的目标位置信息来减轻跟踪漂移和目标的突变威胁。此外,我们使用OTB - 2013、OTB - 2015、TempleColor - 128、UAV - 123、UAVDT、VOT - 2018、LaSOT和GOT - 10K基准数据集展示了所提出的MRMACF方法相对于现有现代跟踪器的效率。具体而言,我们提出的方法在OTB - 2015数据集上取得了最高性能,DP分数分别为93.2%,AUC分数为69.8%。
演绎、溯因和归纳是逻辑推理的三种主要形式。尽管它们相互补充,但通常是分开研究的。在本文中,我们研究它们在统一范式中的作用,并提出一个连续联合推理框架。根据认知理论,这三种推理方法可以在一个动态循环中结合起来。因此,我们设计了一个三级学习过程。首先,将演绎和溯因表述为生成任务,并通过对偶学习相互连接以相互验证,实现共同改进。其次,我们引入归纳作为事实检索器,以支持和指导上述对偶学习。最后,为了缓解数据稀缺问题,我们设计了一种策略梯度方法,允许基于推断的伪训练数据进行持续增强,而不是依赖昂贵的并行标注。特别是,我们设计了三种类型的奖励来评估推断的伪训练数据的质量,并避免模型崩溃问题。包括人工评估在内的大量实验揭示了它们的相互作用,并验证了三种逻辑推理形式的协同效应。值得注意的是,我们基于GPT-2的框架在人工评估中可以达到与GPT-3.5相当的性能。
通过使用反步法和多层或深度神经网络(DNN),引入了一种基于新型积分强化学习(IRL)的严格反馈形式非线性连续时间系统最优轨迹跟踪方案。所提出的方法在最优框架中采用基于动态表面控制的技术,以缓解在反步过程的每个步骤中反复计算虚拟控制器导数的需求。在反步过程的每个步骤中,采用基于激活函数梯度的演员-评论家DNN的在线奇异值分解(SVD)来最小化折扣值函数。分别使用控制输入误差和贝尔曼误差,推导出用于演员和评论家DNN的基于新型在线SVD的权重更新定律,该定律可减轻梯度消失问题。还尝试了一种使用贝尔曼残差和控制输入误差的新型在线终身学习(LL)技术,以克服评论家与演员DNN中的灾难性遗忘问题,并分析和证明了闭环稳定性。所提方法的有效性在移动机器人跟踪和船舶自动驾驶仪的仿真中得到了验证,与文献相比,总成本降低了76%。
每天都会发布大量视频,尤其是通过TikTok等专注于视频的社交媒体应用程序。这种趋势推动了视频检索系统的迅速出现,这些系统使用机器学习技术提供视频检索服务。对抗样本(AE)攻击已被证明对此类系统有效,通过巧妙地扰动未改变的视频来诱导错误的检索结果。这种AE攻击很容易被检测到,因为对抗性扰动遍布像素和帧。在本文中,我们提出了DUO,一种隐秘的有针对性的黑盒AE攻击,它使用帧像素双重搜索来生成稀疏扰动,并提高隐秘性和查询效率。DUO基于三个观察结果:只有“关键视频帧”决定模型预测,不同的像素和帧对AE的贡献差异很大,并且帧中的像素具有局部性。随后,我们提出了两种AE攻击:具有像素稀疏性的DUO和具有组稀疏性的DUO。我们的顺序攻击管道由两个组件组成,即SparseTransfer和SparseQuery。实际上,DUO利用SparseTransfer生成初始扰动,然后利用SparseQuery进一步修正它们。同时,DUO关注单个像素,而DUO针对像素组。对两个流行数据集的广泛评估证实了DUO相对于视频检索系统上现有AE攻击的隐秘性和有效性有所提高。特别是,DUO可以实现更高的精度,同时将对抗性扰动显著减少超过100倍,比现有技术水平少10倍以上的查询次数。
当前基于音频驱动的二元交互方法在捕捉说话者音频与对话者面部动作之间的不确定关系方面存在局限性。为了解决这个问题,我们提出了一种基于跨模态Transformer的视频生成管道。首先,Transformer解码器将面部特征划分为上部和下部区域,捕捉与音频紧密相关的下部特征以及与视觉线索无关的上部特征。其次,我们设计了一个跨模态注意力模块,该模块将对齐偏差与因果注意力机制相结合,以有效管理面部序列中相邻帧之间的细微运动变化。为了减轻长期上下文的不确定性,我们扩展了Transformer编码器的自注意力范围,并集成了自监督预训练的语音表示,以缓解数据稀缺问题。最后,通过优化音频到动作的映射并结合增强的神经渲染器,我们在生成高质量肖像图像的同时实现了对面部动作的精细控制。广泛的实验验证了我们的方法在交互式视频生成中的有效性和优越性。
近年来,网络事件的复杂性和频率不断升级,这就需要为网络安全领域的所有攻击者和防御者提供更先进、自动化的解决方案,而传统方法无法为攻击者和防御者提供及时有效的战术规划。在此情况下,本文从强化学习(RL)的角度探索大语言模型(LLMs)实现网络攻防自动化战术规划的能力。通过利用流行大语言模型的自然语言理解和生成能力,本文旨在为特定网络制定和开发更复杂的战术。本文构建了一个公开可用的网络攻防模拟环境,并提出了基于从强化学习角度使用的大语言模型的战术智能体。然后,本文在构建的环境上进行了近千次实验。实验结果验证了所提出的战术智能体能够显著提高网络攻防自动化战术规划的有效性和适应性,为网络安全的未来研究提供了一个有前景的方向。
在实际场景中,由于数据收集或传输过程中的技术限制和隐私问题等因素,多视图数据通常包含缺失或不完整的样本。为了缓解这个问题,不完全多视图聚类(IMVC)受到了越来越多的关注。大多数现有的IMVC方法仍然存在以下问题:(1)它们没有充分利用多视图数据的结构关系信息来处理缺失值;(2)在处理缺失数据时,它们面临着保持原始数据完整性并有效避免错误传播的挑战;(3)它们擅长在多个视图之间推导共享表示,但往往忽略了每个视图内聚类分配的不确定性,导致类别模糊性增加。为了解决这些问题,我们提出了一种新颖的方法,即不完全多视图聚类的关系补全。具体来说,我们设计了一个新颖的关系补全模块来解决缺失值问题,并通过直接补全缺失视图的关系来获得出色的关系图特征,确保原始数据的完整性并有效减轻补全过程中引入的误差。我们通过注意力层融合和高置信度自训练来利用多视图互补信息。引入语义对比学习和多视图标签分布学习以进一步利用多视图一致信息。在多个真实数据集上与现有方法进行的大量实验证明了所提出方法的有效性和优越性。
方面级情感分析(ALSA)是一项细粒度任务,它由句子中的方面词和情感极性组成。众多研究仅关注单词之间的句法依存关系,而忽略了否定词对情感极性的影响。一些预训练增强模型在解决这个问题中发挥了重要作用。然而,这些研究使用单词替换将单词替换为同义词,常常忽略句子中多个方面的语义表示。因此,我们提出一种基于均匀分布的隐式对比机制来增强ALSA的显式知识,即sEntIMeldCL-ALSA,以克服上述挑战。这项工作旨在提取方面词和句子极性之间的语义关联,这些关联在数据增强过程中直接建立联系。我们提出的模型包括三个模块,用于利用语义知识完成ALSA任务。特定方面分割适配器模块对句子进行分割,以提取特定词项的显式表示。随后,基于均匀分布的隐式增强模块创建与极性相关的增强句子,并增强显式数据的语义表示。一种名为ExImp对比模块的双重对比损失已被用于进一步提高模型性能。在获得显式和隐式表示后,我们将它们连接起来形成数据的统一语义表示。在四个基准数据集上的大量结果表明,所提出的sEntIMeldCL在三个数据集上达到了当前最优性能,准确率分别提高到87.37%、81.25%、77.62%、85.25%,而在餐厅、笔记本电脑、推特和MAMS数据集上,F1分数分别提高了81.87%、77.56%、76.74%、84.69%。
大语言模型(LLMs)的部署受到其巨大硬件需求和相关成本的限制。量化技术已成为应对这些挑战的一种有前景的解决方案。最近,BitNet[Wang等人,2023]提出使用权重量化的三值(+1、0、-1),在消除乘法运算方面显示出特别的前景,进一步显著降低延迟和能耗。然而,BitNet从零开始训练模型的要求限制了其扩展到参数超过30亿的模型的能力。本文介绍了PT-BitNet,一种新颖的训练后量化方法,它将BitNet三值量化的优势扩展到高达700亿参数的大规模语言模型。为了有效地将模型参数量化到±1、0,我们提出了一种两阶段算法。在第一阶段,我们将权重分布转换为便于量化的分布,在第二阶段,我们以分块方式优化权重元素。我们通过对各种模型大小和下游任务的全面实验证明了PT-BitNet的有效性。我们的结果表明,PT-BitNet在模型大小和推理时间上实现了大幅减少,对任务性能的影响最小。例如,PT-BitNet可以扩展到700亿参数的大语言模型,平均下游准确率为61%,显著优于平均准确率为51.2%的BitNet b.158。
为确保工业过程的安全稳定运行,根据最新研究成果,基于深度神经网络的运行性能评估方法已被广泛采用。然而,现有的工业过程性能评估模型往往未能考虑局部空间结构特征以及时间序列样本中的缓慢变化特征。这些局限性导致空间交互信息的利用不够优化,并阻碍模型对复杂系统状态转变的响应能力,从而妨碍对工业过程性能的精确评估。为此,提出了一种基于最大信息系数的图卷积网络(MIC-GCN)用于运行性能评估,旨在有效捕捉嵌入在时间过程数据中的潜在空间结构的复杂交互。首先,采用基于MIC的图构建方法将时间序列数据转换为具有节点和边的图结构数据,从而保留原始数据的局部几何结构并揭示数据样本之间的高维空间交互信息。其次,利用局部慢特征分析(SFA)从数据的空间结构中提取细粒度的动态相关信息。此外,设计了连体图卷积网络以同时处理两个连续时间步的图结构数据样本,这有助于捕捉嵌入在不断演变的拓扑结构中的缓慢变化特征表示。所提出的方法能够精确提取并深入挖掘时空交互特征信息,从而提高性能评估的准确性。在煤泥浮选和重介选煤平台上的实验验证证实了该方法的有效性和可靠性。
本研究探讨了对抗攻击下合作多智能体强化学习(c-MARL)的脆弱性,这是c-MARL在实际应用前最坏情况性能的关键决定因素。当前基于观测的攻击受白盒假设限制,忽略了c-MARL复杂的多智能体交互和合作目标,导致攻击能力不切实际且有限。为解决这些缺点,我们提出了对抗少数影响(AMI),这是一种针对c-MARL实用且强大的攻击方法。AMI是一种实用的黑盒攻击,无需了解受害者参数即可发动。通过考虑复杂的多智能体交互和智能体的合作目标,AMI也具有强大的攻击能力,能使单个对抗智能体单方面误导多数受害者形成有针对性的最坏情况合作。这反映了社会心理学中的少数影响现象。为在复杂的智能体间交互下使受害者策略产生最大偏差,我们的单边攻击旨在刻画并最大化对手对受害者的影响。这通过采用从互信息导出的单边智能体关系度量来实现,从而减轻受害者影响对对手的不利影响。为引导受害者进入共同有害的场景,我们的有针对性攻击通过引导每个受害者朝着一个特定目标,将受害者欺骗到一个长期的、合作有害的情况,该目标是通过强化学习智能体执行的试错过程确定的。通过AMI,我们首次成功攻击了现实世界中的机器人集群,并在模拟环境中有效地将智能体愚弄进集体最坏情况场景,包括《星际争霸II》和多智能体MuJoCo。源代码和演示可在以下网址找到:https://github.com/DIG-Beihang/AMI 。
疟疾可能会严重威胁个人的健康和福祉,早期筛查对于及时治疗和康复至关重要。在疟疾筛查中,厚血涂片被用于计数寄生虫并评估疾病的严重程度。寄生虫是微小的物体,可在高分辨率的血涂片图像中找到,这使得它们难以检测。除了使用基于目标检测的方法外,先前的工作也将图像分类技术应用于这个问题。他们首先从血涂片中提取图像块作为寄生虫候选物,然后利用卷积神经网络将这些块分类为寄生虫或非寄生虫。然而,这些方法忽略了血涂片图像可能包含噪声、误差和背景伪影这一事实,这引入了不确定性并使模型预测变得不稳定。在这项工作中,我们提出了一种基于不确定性引导注意力学习的网络,用于从厚血涂片中检测疟疾寄生虫,该网络结合了像素注意力机制来识别更细粒度和逐像素的信息特征,以提高我们模型的分类能力。我们进一步在特征图的通道上进行不确定性估计,以指导像素注意力学习,使得来自具有较高不确定性通道的特征被认为不可靠,因此在像素注意力学习中受到限制利用。为了估计通道级的不确定性,我们引入了贝叶斯通道注意力,它在贝叶斯框架下重新构建了传统的通道注意力。结果,它用估计的方差表示通道不确定性,以指导像素注意力学习。我们在两个公共数据集上使用寄生虫级和患者级评估与几个最先进的基线进行了比较。所提出的方法在两个数据集上的大多数指标方面都表现出卓越的性能,特别是在寄生虫和患者级场景中均取得了最高的平均精度(AP)分数。
混合整数线性规划(MILP)是一个基本的组合优化问题,在资源受限场景中有广泛应用。最近的研究集中在使用机器学习来模仿MILP求解中的决策过程,通常将MILP表示为二分图以学习分支策略。我们分析了这些研究,并确定了求解MILP需要解决的三个关键问题,即可扩展性、信息丰富性和分支准确性。在本研究中,我们提出了一种用于学习分支的超图树搜索框架(HTS-LB)来解决上述问题。在HTS-LB中,首先用超图表示MILP,使其适用于大规模场景。其次,构建一个用于分支策略编码的超图注意力网络(HAN),将超图表示映射到分支变量的概率分布。在HAN中,使用对偶多头注意力机制在节点更新其表示时获得更准确的信息。最后,我们设计了一种树搜索门控机制来捕获丰富的动态信息,用于变量表示的后续更新。对NP难MILP问题和实际场景的大量实验表明,我们的模型是有效的,在分支准确性、分支定界节点和对偶-原问题间隙方面优于流行的机器学习算法。此外,将HTS-LB集成到SCIP求解器中显示了其在大规模MILP中的强大泛化性能。
对于胜者全得(kWTA)操作,已经研究了几种抗噪声神经动力学方法来对抗各种类型的干扰和不确定性。然而,这些方法仍然无法有效解决源自外部环境干扰、传感器不准确或内部系统振荡的周期性噪声。为了解决这个问题,提出了一种用于kWTA操作的耐周期性噪声神经动力学(PNTND)方法,该方法具有学习和补偿由周期性噪声引起的误差的能力。此外,PNTND方法有效地消除了由周期性噪声叠加产生的非周期性噪声所引起的干扰。理论分析和数值模拟揭示了PNTND方法出色的收敛性能。此外,我们基于所提出的PNTND方法构建了一个包含周期性噪声干扰的社会舆论演化模型,从而证明了其实际适用性。
在反步法理论框架下,处理由传感器输出触发引起的虚拟控制信号不可微问题具有挑战性。同时,在非线性多智能体系统(MASs)中考虑输出触发、多重故障和拒绝服务(DoS)攻击问题具有重要的实际意义。本文研究了在多重故障和DoS攻击下,基于神经网络的非线性MASs事件触发自适应安全容错包容控制问题。在传感器输出触发下,仅使用间歇输出信号构建切换神经网络估计器,以确保估计状态一阶可导。同时,利用估计状态构建虚拟控制律以确保一阶可微,并采用动态滤波技术避免虚拟控制律的重复求导。结果表明,所设计的安全容错包容控制器能够补偿故障和DoS攻击,且每个跟随者能够收敛到由多个领导者所跨越的动态凸包。给出了实际仿真结果以验证所提控制方法的有效性。
图神经网络(GNN)和图变换器(GT)在基于图的任务中已取得显著成功,各自具有独特优势:GNN擅长捕捉局部细节,而GT则善于捕捉全局信息。然而,GNN和GT在应用于大规模图时都面临可扩展性问题。为应对这些挑战,本文提出了基于二分信息流融合的图变换器(BiFormer),这是一个旨在融合GT和GNN的优势来处理大规模图的框架。BiFormer由三个模块组成:一个全局特征提取模块,它利用变换器编码器从小规模池化图中高效捕捉全局信息;一个局部特征提取模块,它构建三个无参数的图卷积核来提取局部特征而无需训练;一个特征融合模块,它利用变换器编码器融合每个节点提取的局部和全局特征,无需节点到节点的消息传递。BiFormer的完整训练仅需将小规模池化图和小批量局部特征临时存储在内存中,从而允许使用灵活批量大小进行小批量训练。实验结果表明,BiFormer优于主流的GT和GNN。
个性化推荐系统致力于提供及时、准确的建议,以反映用户当前的兴趣,但它们在将评分与用户的真实想法对齐以及在稀疏的用户-项目交互下适应动态用户行为方面面临挑战。评分或隐式数据往往无法反映细微的意见,因为用户可能在评论中表达不满的情况下仍给出高分。此外,现有模型在处理现实世界数据固有的噪声和稀疏性时,难以适应用户行为的时间变化。在本文中,我们提出了一种基于动态多尺度评论对齐(DMRA)图的推荐模型来应对这些挑战。通过结合多尺度评论提取技术,DMRA将文本见解与用户-项目交互对齐,以揭示细微的用户意见并减轻评分偏差。一个情感感知图传播语义和情感信息,而一个记忆增强模块以微聚类的方式动态存储和更新用户偏好,平衡短期和长期兴趣。此外,DMRA采用对比学习机制来过滤评分和评论中的噪声和不一致性,确保稳健的推荐。在真实世界数据集上的大量实验表明,DMRA优于基线模型,并且有能力迅速捕捉细粒度的用户偏好和项目特征,并适应时间动态,提供准确可靠的个性化推荐。
最近的研究表明,图神经网络(GNNs)容易受到对抗性攻击。虽然已经提出了各种防御模型,但它们往往未能考虑数据和攻击中的变异性,限制了它们在动态环境中的有效性。因此,我们提出了DERG,一种用于健壮GNNs的动态集成学习模型,它利用多个图数据和动态变化的子模型进行防御。具体来说,我们首先提出图采样策略来净化受扰图,并生成多个子图以模拟图中可能出现的各种潜在变化。然后,我们提出基于互信息的多样性增强策略来增加子模型之间的变异性,确保每个子模型专注于不同的防御方向,并避免被相同的攻击欺骗。最后,我们提出基于博弈论的决策策略来动态地为子模型分配权重,目标是为不同场景选择最优子模型并适应不断变化的环境。在广泛使用的数据集上进行的实验表明,DERG对包括图修改攻击、后门中毒攻击和双重攻击在内的各种攻击都表现出显著的鲁棒性。
当用户手头没有示例但脑海中有图像时,通过手绘草图检索远程图像是高效的。因此,我们解决了基于零样本草图的遥感数据图像检索(ZS-SBIR)中固有的挑战,即基于零样本草图的遥感图像检索(ZS-SBRSIR)。该领域目前的进展缓慢。我们认为有两个原因:(1)遥感草图数据稀缺且难以获取,这与任务模拟的现实情况一致;(2)草图和遥感图像之间的领域差距使得难以找到有效的通用跨领域表示。为了弥补这一差距,我们的研究引入了一种新颖的用于遥感图像的零样本跨模态融合网络,利用额外易于获取的多模态信息来弥合差距并融合不同模态。一方面,我们从遥感图像中提取易于获取的边缘特征信息。边缘图像是一种更接近草图的模态,我们将其用作融合这两种模态的桥梁。边缘图像可以辅助稀缺的草图,并使模型具有更好的零样本泛化能力。另一方面,我们将现有的图像标签用作简单的语义信息,并与图像进行相同的对比训练。通过全面的实验,我们验证了所提出模型在ZS-SBRSIR上的有效性。
数据集蒸馏(DD)旨在构建一个比原始庞大数据集更小的数据集。预计在这两个数据集上训练的模型在测试集上能达到几乎相同的准确率。先前使用梯度匹配(GM)框架的工作取得了次优性能,因为它只匹配了正确标签的梯度信息,而忽略了模型对错误答案的意外情况。在本文中,我们旨在在匹配过程中产生更多信息丰富的梯度信息,并通过利用标签循环移位提出一种新颖的DD框架。具体来说,它涉及使用预训练的神经网络来处理不匹配的图像 - 标签对,从而在交叉熵损失的反向传播过程中生成多样且大量的梯度。此外,与传统的GM方法相比,具有更大梯度的GM往往收敛得更快,这促使我们提出一种早期退出机制。为了进一步提高性能,我们采用一种集成方法,对蒸馏后的数据集应用指数移动平均,并将分布匹配引入到总匹配函数中。我们证明模型隐含地考虑了过去轮次的梯度经验,并且我们深入研究了梯度匹配和分布匹配相互增强的机制。我们的设计能够在更少的训练迭代次数下优于大多数先前的DD方法。在基准数据集(CIFAR10、CIFAR100、TinyImageNet和ImageNet的一个子集)上的实验展示了我们方法的有效性。
可见-红外行人重识别(VIPR)由于可见光图像和红外图像之间的固有差异而面临重大挑战。这些差异导致同一身份的个体在不同模态之间的相似度较低,而同一模态内不同身份之间的相似度较高。现有方法往往难以有效解决这一问题,因为它们在有限的训练数据下难以捕捉全局相似度指标,这阻碍了模型学习判别特征的能力。为了应对这些挑战,我们引入了一种名为记忆增强洗牌元(MASM)学习的新方法。我们的方法有两个关键组成部分:洗牌元学习(SML)和记忆元学习(MML)。SML在每个训练周期中构建不同的查询集和支持集,使模型能够从广泛的数据输入中学习。同时,MML利用存储在内存库中的历史信息来捕捉长期依赖关系。SML和MML的这种策略性组合不仅提高了数据利用率,还使模型能够学习全面的全局元指标,显著提高其跨模态区分个体的能力。在RegDB和SYSU-MM01数据集上进行的大量实验验证了我们的MASM方法的有效性,证明了它优于几种现有最先进的方法。
多变量时空预测旨在预测跨空间和时间分布的多个相互依赖变量的未来演变。有效捕捉这些变量之间潜在的因果依赖关系对于增强复杂系统中的模型可解释性、稳健性和决策支持至关重要。然而,由于存在潜在混杂因素以及识别多维因果相互作用的挑战,现有方法在对完整和动态因果依赖关系进行建模时往往存在不足。为应对这些挑战,我们提出了MCST,这是一个新颖的框架,通过全面的因果建模系统地优化每个变量的因果生成过程。MCST首先应用变分推理来解开特定变量的外生因素,并在共享潜在空间中识别潜在混杂因素。为了捕捉动态因果依赖关系,我们设计了一个因果估计器,用于量化跨空间、时间和变量间维度的即时和滞后因果传递。然后,使用结构因果模型将这些估计的因果传递与外生和内生成分相结合,从而构建精细的、按变量的因果生成机制以进行准确预测。在三个真实世界数据集和一个合成数据集上进行的大量实验表明,MCST在预测性能方面始终优于现有方法,同时通过显式因果推理提供了增强的可解释性。
受柯尔莫哥洛夫 - 阿诺德表示定理和库尔科娃使用近似表示原理的启发,我们提出了库尔科娃 - 柯尔莫哥洛夫 - 阿诺德网络(KKAN),这是一种新的双块架构,它将基于健壮多层感知器(MLP)的内函数与作为外函数的基函数的灵活线性组合相结合。我们首先证明KKAN是一个通用逼近器,然后展示其在包括函数回归、物理信息机器学习(PIML)和算子学习框架在内的科学机器学习应用中的通用性。基准测试结果表明,在函数逼近和算子学习任务中,KKAN优于MLP和原始的柯尔莫哥洛夫 - 阿诺德网络(KAN),并且在PIML方面实现了与完全优化的MLP相当的性能。为了更好地理解新表示模型的行为,我们使用信息瓶颈理论分析它们的几何复杂性和学习动态,识别出所有类型架构中通用的三个学习阶段:拟合、过渡和扩散。我们发现几何复杂性与信噪比(SNR)之间存在很强的相关性,在扩散阶段实现了最优泛化。此外,我们提出基于自缩放残差的注意力权重以动态维持高SNR,确保均匀收敛和延长学习。
泛化仍然是视觉强化学习中的一个关键挑战,在有限视角下训练的智能体往往难以将所学技能很好地泛化到未见环境中。尽管自监督学习取得了显著进展,但将自监督学习简单地与视觉强化学习算法相结合可能会降低泛化性能,存在样本效率较低和训练不稳定的问题。本文提出了一种用于学习与动力学相关表示的新型自监督探索框架,该框架能更好地将表示学习集成到强化学习决策过程中。具体而言,我们的框架由两个核心模块组成:视觉差异推理模块(VDIM)和通过分布差异进行探索的模块(EDDM)。VDIM通过学习不同视角共享的特征并过滤掉无预测能力的信息,确保有足够的与任务相关的信息。设计EDDM通过积极探索环境来识别变化的特征,从而增强智能体对哪些像素有利于决策的自我意识,并快速适应新场景。大量实验表明,我们的方法显著优于先前的方法,并在泛化能力和样本效率方面取得了显著提升。
大型神经网络模型规模的不断扩大带来了重大挑战,促使人们努力减少内存使用并提高计算效率。这些措施对于确保这些复杂模型在广泛的用例中的实际实施和有效应用至关重要。本研究考察了与标准32位模型相比,参数位精度对模型性能的影响,重点是图像中的多类对象分类。所分析的模型包括具有全连接层、卷积层和Transformer块的模型,模型权重分辨率范围从1位到4.08位。研究结果表明,参数位精度较低的模型能够取得与32位模型相当的结果,显示出在内存受限设备中使用的潜力。虽然参数数量较少的低分辨率模型需要更多的训练轮次才能达到与32位模型相当的准确率,但参数数量较多的模型在相同的训练轮次内能够取得类似的性能。此外,数据增强可能会使低分辨率模型的训练不稳定,但在权重参数中包含零作为一个可能的值有助于保持稳定性并防止性能下降。总体而言,2.32位权重在内存减少、性能和效率之间提供了最佳平衡。然而,进一步的研究应探索其他数据集类型以及更复杂、更大的模型。这些发现预示着一个优化神经网络模型的新时代的潜在到来,其内存需求降低,计算效率提高,不过要充分实现这一潜力,专用硬件的进步是必要的。
运动处理是许多生物体生存的关键功能,最初在灵长类动物视觉皮层的初级视觉皮层(V1)和颞中区(V5/MT)中实现。机器学习方法的进展导致了运动处理神经网络的发展,这些网络阐明了这一过程的几个方面。然而,尚不清楚适应(一种感觉处理的典型功能)如何影响运动处理。在本研究中,我们开发了两个循环神经网络来研究运动处理:基线模型MotionNet-R和采用受生物系统启发的自适应机制的模型AdaptNet。两个网络都在自然图像序列上进行训练以估计运动向量。我们发现两个网络都发展出了类似于在V1和MT区域发现的神经元的反应特性,例如速度调谐,并且AdaptNet重现了运动后效现象(即瀑布错觉)。我们表明,在AdaptNet中实现该现象的新兴计算特性证实了先前的理论假设。此外,我们比较了两个网络的性能,发现AdaptNet处理运动的效率更高,以减少激活来衡量。虽然AdaptNet在响应长时间恒定输入时准确性降低,但在响应运动输入变化时既更准确又更敏感。这些结果与将适应作为一种支持代谢效率和提高对环境变化敏感性的神经特性的理论解释一致。我们的发现为运动适应背后的神经机制提供了新的见解,并突出了自适应神经网络在模拟生物过程中的潜在优势。
在线学习在将优质教育资源与全球受众相连接方面已展现出优势。为了通过可持续且适时的学习指导确保卓越的学习体验,在线学习系统必须基于学习者的学习互动来理解其不断变化的知识状态,这一任务被称为知识追踪(KT)。一般来说,学习者通过各种测验进行练习,每个测验包含若干涵盖相似知识概念的练习题。因此,他们在每个测验中的学习互动是连续的,但在不同测验之间是离散的。然而,现有方法忽略了测验结构,并假设所有学习互动是均匀分布的。我们认为,由于学习者在测验中进行练习,他们的知识状态也应在测验中进行评估。为实现这一目标,我们提出了一种新颖的基于测验的知识追踪(QKT)模型,该模型有效地整合了学习互动的测验结构。这是通过神经网络设计两个不同的模块来实现的:一个用于测验内建模,另一个用于测验间融合。在公开真实世界数据集上的大量实验结果表明,QKT取得了新的最优性能。本研究结果表明,纳入学习互动的测验结构可以用更少的测验有效地理解学习者的知识状态,并为设计练习题更少的有效测验提供有价值的见解。
少样本知识图谱补全(FKGC)旨在通过观察若干相关的参考实体对来预测未见关系的缺失三元组。当前方法通过从相应参考对的直接邻域中学习关系原型,然后计算关系原型与查询三元组之间的特征相似度来解决此任务。然而,仅利用实体的直接邻域可能会丢失一些具有代表性的实体特征,从而导致不可靠的关系原型。此外,现有方法通常假设实体的所有特征维度在计算特征相似度时具有同等贡献,而忽略了实体特征在处理不同任务关系中的不同作用。为了解决这些问题,我们提出了一种用于少样本知识图谱补全的新型分层特征引导原型网络(HPNet)。HPNet由两个主要组件组成:一个分层邻域编码器,通过同时纳入直接和远距离邻域信息来捕获更丰富的实体特征;一个特征引导原型学习器,通过考虑实体特征的不同重要性,沿着与任务相关的特征维度将查询三元组与关系原型进行比较。通过这种方式,我们的模型能够生成更可靠的原型,并以更有效的方式进行比较。与相关工作的广泛比较证明了所提出的HPNet的优越性。
多模态知识图谱(MMKGs)通过整合多样的模态信息丰富了传统知识图谱的语义表达能力,在各种知识推理任务中展现出巨大潜力。然而,现有的多模态知识图谱在链接预测任务(即知识图谱补全推理)中面临诸多挑战,主要原因在于模态信息的复杂性和多样性以及质量的不均衡。这些挑战使得多模态信息的高效融合与增强难以实现。大多数现有方法采用简单的模态特征拼接或加权融合,但此类方法无法充分捕捉模态之间的深度语义交互,在面对模态噪声或缺失信息时表现不佳。为解决这些问题,本文提出了一种新颖的框架模型——自适应融合与模态信息增强(AFME)。该框架由两部分组成:模态信息融合模块(MoIFu)和模态信息增强模块(MoIEn)。通过引入关系驱动的去噪机制和动态权重分配机制,该框架实现了多模态信息的高效自适应融合。它采用生成对抗网络(GAN)结构以实现结构模态对特征模态的全局引导,并采用多层自注意力机制来优化模态内和模态间的特征。最后,它联合优化三元组预测任务和对抗生成任务的损失。实验结果表明,AFME框架在多个基准数据集上显著提高了多模态特征利用率和知识推理能力,验证了其在复杂多模态场景中的效率和优越性。
高度流行的教师-学生架构在半监督医学图像分割中已取得巨大成功。尽管其性能卓越,但该架构仍面临两个挑战:1)教师子网的优化严重依赖于学生子网,这极大地限制了教师子网的能力;2)用于构建教师和学生子网的基于卷积神经网络(CNN)的常用结构无法很好地处理有噪声的医学图像。为应对这些挑战,我们提出了DiffCNN,一种用于半监督医学图像分割的扩散模型与CNN的协作框架。与使用相同结构的两个子网的经典方法不同,我们提出的DiffCNN采用了结构截然不同的两个子网。具体而言,除了一个CNN子网外,DiffCNN还采用了一个扩散子网,通过学习掩码的潜在分布来减轻噪声的影响。扩散子网和CNN子网的协同训练使得两个子网能够相互学习,并因此更有效地从输入图像中提取互补信息。此外,引入对抗学习以通过迫使基于扩散的分割获取真实掩码来进一步增强扩散子网的能力。我们在三个数据集上评估了所提出的DiffCNN的性能,结果表明DiffCNN优于当前最先进的半监督分割方法。
基于扩散模型(DM)的对抗净化(AP)已被证明是一种强大的防御方法,它可以去除对抗性扰动并生成无威胁的净化示例。原则上,预训练的扩散模型只能确保净化后的示例符合训练数据的相同分布,但它可能会无意中损害输入示例的语义信息,导致净化后的示例被错误分类。最近的进展引入了引导扩散技术,以在去除扰动的同时保留语义信息。然而,这些引导通常依赖于净化示例和扩散示例之间的距离度量,这也可能在净化示例中保留扰动。为了进一步释放基于DM的AP的鲁棒性,我们通过引入一种新颖的对抗引导来提出一种对抗引导扩散模型,该引导包含足够的语义信息但不明确涉及对抗性扰动。该引导由通过对抗训练获得的辅助神经网络建模,考虑的是潜在表示中的距离而不是像素级值。我们在CIFAR-10、CIFAR-100和ImageNet上进行了大量实验,以证明我们的方法对于同时保持语义信息和去除对抗性扰动是有效的。此外,全面的比较表明,我们的方法显著提高了现有基于DM的AP的鲁棒性,在CIFAR-10上平均鲁棒准确率提高了7.30%。
方面级情感分类(ALSC)是一项细粒度情感分析(SA)任务,旨在确定句子对不同方面的情感。尽管现有方法取得了显著成功,但大多数方法都是从单个句子中推导方面情感语义,忽略了相关句子之间的相互关系,而这些关系可以提供对方面情感语义更全面的理解。为此,我们提出了AspLearn,一种用于优化方面情感语义并为ALSC任务生成更强大的特定方面句子特征的方面学习方法。简而言之,AspLearn采用方面感知对比学习(AspCL)从与方面相关的样本中挖掘有价值的方面相关知识,从而优化方面情感语义并提高模型性能。AspLearn是一种简单而有效的方法,通过在三个基准上进行的广泛实验证实了其卓越的方面学习能力。值得注意的是,以DeBERTa为骨干的AspLearn在笔记本电脑、餐厅和推特数据集上分别比次优结果的宏观F1分数提高了3.13%、0.76%和1.07%。此外,AspLearn的机制可以为大语言模型(LLMs)检索最相关的示例,增强其情感识别能力。
在完整模态和未损坏数据上训练的多模态模型,在面对包含损坏或缺失模态的不完美数据时,性能往往会大幅下降。为应对这一鲁棒性挑战,先前的方法从增强、一致性或不确定性等方面探索了各种途径,但存在与数据复杂性和信息损失相关的缺点,可能会削弱其整体有效性。针对这些挑战,本研究引入了一种名为冗余自适应多模态学习(RAML)的新方法。RAML有效利用跨多个模态的信息冗余来应对不完美数据带来的问题,同时与完整模态保持兼容。具体而言,RAML通过单独的单模态判别任务实现冗余无损信息提取,并对每个单模态特征表示施加适当的范数约束。此外,RAML通过利用单模态特征之间的细粒度冗余来学习损坏信息和未损坏信息之间的对应关系,从而明确增强多模态融合。在各种条件下对各种基准数据集进行的广泛实验一致表明,RAML显著优于现有方法。代码可在以下网址获取:https://github.com/mxchen-mc/RAML 。
基于3D高斯点云渲染(3DGS)的少样本新视角合成技术的最新进展已取得显著成果。现有方法通常依赖精心设计的几何正则化器来加强几何监督;然而,在不同场景中一致应用多个正则化器很难调整,且常常会降低稳健性。因此,从极其稀疏的视角生成可靠的几何形状仍然是一个关键挑战。为克服这一限制,我们引入了SREGS,这是一个专为少样本重建量身定制的框架,其贡献主要集中在两个方面:显式一致的几何形状和多尺度深度引导优化。具体而言,为了显式优化重建一致性,我们用二维高斯分布初始化点云,从而增强从不同视角观察到的同一高斯分布的深度一致性。其次,我们采用区域自适应快速致密化方法,用额外的表示填充覆盖不足的区域,同时一个透明度感知噪声项将随机性引入每个高斯分布,以促进在观察不足区域的探索。此外,为了加强辐射场的几何细化,我们基于单目深度先验施加多尺度深度约束,从全局到局部尺度进行几何细化,并确保高度精确的重建。在LLFF、MipNeRF360和Blender上进行的大量实验表明,SREGS以更低的计算成本实现了更高的合成质量,并展示了稳健的性能。代码可在以下网址获取:https://github.com/LeeXiaoTong1/SREGS 。
实例分割和语义分割是支持许多计算机视觉应用的基础任务。最近,研究人员研究了构建统一的Transformer框架并利用多任务学习技术同时优化实例分割和语义分割任务的可行性。然而,这些方法在训练过程中同时学习任务共享参数的比例和分布,这不可避免地给充分优化网络带来了挑战。此外,传统的梯度整流算法试图从整体角度解决梯度冲突,但它们不足以充分解决梯度向量中各个元素之间的冲突。在本研究中,我们开发了一个统一的Transformer框架CTFS来解决这些问题。为了解决第一个问题,我们引入了一种亲和度引导的共享策略(AGSS),该策略在两个单独的阶段学习任务共享参数的比例和分布。这种方法利用任务共享参数的比例作为先验知识来指导后续的学习过程,降低了网络优化的难度。为了解决第二个问题,我们提出了一种细粒度梯度整流策略(FGRS),该策略在反向传播过程中有效地减轻了梯度向量中每个元素的梯度冲突。CTFS基于标准的Swin Transformer构建,且不使其网络架构复杂化,在用于实例分割任务的COCO数据集和用于语义分割任务的ADE20K数据集上均取得了令人瞩目的性能。
多视图的整合显著推动了图像字幕任务的发展。然而,在这个整合过程中引入的语义噪声带来了挑战,限制了性能的进一步提升。为了克服这一挑战,我们提出了一种关键特征引导的多视图协作网络(KMCN),这是一种新颖的方法,在关键句子预测步骤中实现多视图互补优势并将语义噪声降至最低,包括特征增强和跨模态语义对齐。具体来说,我们在特征增强阶段引入了关键特征引导的增强与融合编码器(KAFE),它采用关键特征来提供必要的互补信息。这有助于生成精细的多视图特征表示,同时减少无意义交互引入的潜在语义噪声。随后,我们在跨模态语义对齐阶段引入了双分支协作解码器(DCD),通过交叉引导双分支块对跨模态关系进行建模。该设计旨在在解码过程中将复杂的多视图特征空间分解为多个相对简单的子空间。这有助于避免由扭曲映射引起的语义噪声。为了验证KMCN的性能,我们在竞争激烈的微软上下文常见物体(MS-COCO)基准数据集上进行了广泛的实验。结果表明,我们的KMCN在离线和在线测试中均优于多个当前最先进的图像字幕模型。
预训练语言模型(PLMs)通过为特定任务的微调提供初始参数,在各种下游任务中取得了显著成功。这种方法的一个内在挑战是,仅适应下游任务可能会导致预训练知识的遗忘,从而在下游任务上的微调性能有限。为了应对这一挑战,我们提出了一种名为EGO-PLM的新方法,其中PLMs用作特定任务的嵌入生成器。EGO-PLM的基本见解是使PLMs的微调任务与预训练阶段使用的任务保持一致。在此框架内,我们设计了一个与预训练阶段相似的与任务无关的预定义任务,以及一个特定任务的嵌入生成器来适应特定任务,从而使特定任务能够与预定义任务联合训练。为了缓解预定义任务和特定任务之间的任务冲突,并确保生成的嵌入是特定于任务的,我们提出了一致性校准(CoCa),它将预定义目标与特定任务目标对齐。具体来说,CoCa以对抗的方式识别预定义目标和特定任务目标之间的不一致,随后通过对抗训练校准这些差异。我们使用6个任务类别的8个数据集验证了EGO-PLM的有效性,与最先进的基线相比,显示出一致且显著的改进。
现有的视频恢复(VR)方法在提高受恶劣天气影响而退化的视频质量方面取得了显著进展。然而,这些方法仅能恢复具有一种特定类型退化的视频,却忽略了现实世界中退化的多样性,这限制了它们在具有多种恶劣天气的现实场景中的应用。为了解决上述问题,在本文中,我们提出了一种跨一致深度展开网络(CDUN),以通过退化特征的引导来自适应地恢复因不同退化而损坏的帧。具体而言,所提出的CDUN包含:(1)一个灵活的迭代优化框架,能够根据预先给定的相应退化特征来恢复因任意退化而损坏的帧。为了使该框架能够消除各种退化,我们设计了(2)一种逐序列自适应退化估计器(SADE)来估计损坏视频的退化特征。通过编排这两个级联过程,所提出的CDUN能够在多退化场景下对视频进行端到端的恢复。此外,我们提出了一种基于窗口的帧间融合策略,以利用来自更多相邻帧的信息。该策略涉及在多次迭代中对时间窗口进行渐进式堆叠,有效地扩大了时间感受野,并使每一帧的恢复都能够利用来自远距离帧的信息。这项工作建立了首个针对多退化视频的显式模型,并且是在多退化场景下最早进行的视频恢复研究之一。大量实验表明,我们的方法达到了当前最优水平。
雨痕会影响视觉质量,并在雨天干扰高级视觉任务。在计算机视觉应用中,去除捕获的雨天图像中的雨滴变得至关重要。最近,深度展开神经网络(DUN)在图像去雨方面显示出了有效性。然而,有两个问题需要进一步解决:1)深度展开网络通常使用卷积神经网络(CNN),其缺乏感知全局结构的能力,从而限制了网络模型的适用性;2)它们的梯度下降模块通常依赖于标量步长,这限制了该方法对不同输入图像的适应性。为了解决这两个问题,我们提出了一种基于具有状态空间模型的像素自适应深度展开网络的新图像去雨方法。所提出的网络主要由自适应逐像素梯度下降(APGD)模块和阶段融合近端映射(SFPM)模块组成。APGD模块通过基于前一阶段特征为每个像素自适应调整梯度步长来克服标量步长的不灵活性。SFPM模块采用将CNN与状态空间模型(SSM)相结合的双分支架构,以增强对局部和全局结构的感知。与基于Transformer的模型相比,SSM能够以线性复杂度进行高效的长距离依赖建模。此外,我们引入了一种带有傅里叶变换机制的阶段特征融合,以减少展开过程中的信息损失,确保关键特征得到有效传播。在多个公共数据集上进行的大量实验表明,我们的方法在定量指标和视觉质量方面始终优于当前最先进的去雨方法。源代码可在https://github.com/cassiopeia-yxx/PADUM获取。
目标条件分层强化学习(HRL)将复杂的到达任务分解为一系列简单的子目标条件任务,在解决大规模环境中的长期规划问题方面显示出巨大潜力。本文将基于基于图规划的目标条件HRL与大脑机制联系起来,提出了一种类似海马体-纹状体的双控制器假设。受生物体大脑机制(即海马体重放中观察到的高奖励偏好)和基于实例的理论启发,我们提出了一种用于构建记忆图的高回报采样策略,提高了采样效率。此外,我们推导了一种无模型的低级Q函数梯度惩罚,以解决先前工作中存在的模型依赖问题,提高应用中利普希茨约束的泛化能力。最后,我们将这两个扩展,即高回报图和无模型梯度惩罚(HG2P),集成到最先进的框架ACLG中,提出了一种新颖的目标条件HRL框架HG2P+ACLG。实验结果表明,我们的方法在各种长期导航任务和机器人操作任务上优于最先进的目标条件HRL算法。
随着数字图像在各个领域的广泛应用,对视觉安全图像加密技术的需求急剧增加。然而,现有方案普遍存在加密安全性不足和解密图像质量低的问题。因此,本文提出了一种灵活的方案,该方案集成了元学习、混沌系统、传统深度学习和LSB - 2校正嵌入方法。该方案的核心在于设计一个具有动态辅助输入的元学习压缩重建网络,该网络能够对明文图像进行高质量压缩。然后,构建了一种新型混沌系统IS - DP,通过将二维IS混沌系统与传统深度学习网络相结合,将压缩后的图像加密成类似噪声的秘密图像。最后,采用具有LSB - 2校正的无损嵌入方法将秘密图像嵌入载体图像,得到视觉安全的密文图像。该方案充分验证了深度学习方法在加密和压缩方面的巨大潜力和可行性。此外,元学习机制赋予的灵活性允许用户根据实际需求调整内环迭代次数,平衡运行时间和解密图像质量,从而展现出广阔的应用前景。
脉冲神经网络(SNN)旨在模拟人类大脑神经网络,使用稀疏脉冲事件流进行高效且节能的时空信号处理。本文提出了一种用于基于脑电图(EEG)的运动想象(MI)分类的轻量级SNN模型,这是一种经典的脑机接口范式。该模型具有三个理想特性:(1)它具有受大脑启发的架构;(2)它节能高效;以及,(3)它与数据集无关。在三个公共数据集上进行的受试者内和跨受试者实验证明了我们的SNN模型在基于EEG的MI分类中优于四个基于经典卷积神经网络的模型。
遥感图像(RSIs)中的目标检测可通过定向边界框来实现,然而旋转框(RBoxes)通常比水平框(HBoxes)更耗费人力。因此,在大多数研究中,倾向于探索基于HBox的弱监督检测器,并对空间变换施加自监督约束。然而,这种针对HBox的弱监督网络往往聚焦于目标中最具判别力的部分,这可能会对网络的定位精度产生不利影响。此外,空间变换在回归损失中引入了RBoxes和HBoxes之间的模糊性,对网络准确区分处于相同角度的近距离目标的能力产生不利影响。为了克服这些挑战,我们提出了一种名为基于知识的丢弃块和统一回归网络(KDUNet)的弱监督检测器。该网络旨在学习高质量的特征信息,并弥补HBoxes和RBoxes之间的差异。首先,我们使用具有多样通道输入的远距离背景信息来有意隐藏最具辨识度的部分,从而强调整个目标。此外,我们开发了一种清晰的边界框距离度量方法,通过一个具有变换角度的外接矩形将RBoxes和HBoxes统一起来,以评估它们的高斯距离。大量实验表明,KDUNet能够学习高质量的特征信息并减少模糊性的影响。在DIOR和HRSC数据集上的实验结果证实,我们的网络超过了六个全监督网络,分别实现了57.8%和90.1%的平均精度均值(mAP)。
生成式方法对基于方面的情感分析(ABSA)产生了重大影响,受到了广泛关注。然而,现有研究通常整体预测目标文本组件,而忽略了利用单个元素进行元组预测的好处。在本文中,我们引入了元素到元组提示(E2TP),采用两步架构。前一步专注于预测单个元素,而后一步通过将这些预测元素映射到相应的元组来完成整个过程。E2TP的灵感来自于人类解决问题的方式,将任务分解为可管理的部分,并将第一步的输出作为第二步的指导。在这一策略中,设计了三种类型的范式,即E2TP(饮食)、E2TP(f)和E2TP(f),以促进训练过程。除了特定数据集的实验,我们的论文还探讨了跨域场景,证明了该方法的有效性和通用性。通过对特定数据集实验的10个不同数据集以及跨域实验的6个不同状态进行全面分析,我们表明,在F1分数评估指标方面,E2TP在几乎所有情况下都取得了新的最优结果。