arXiv每日更新-2022.1.3(今日关键词:estimation, image, detection)
Transformer
* 题目: Stochastic Layers in Vision Transformers
* 链接: https://arxiv.org/abs/2112.15111* 作者: Nikola Popovic,Danda Pani Paudel,Thomas Probst,Luc Van Gool
* 摘要: 我们在视觉转换器中引入了完全随机的层,而不会导致性能的任何严重下降。额外的随机性提高了视觉特征的稳健性并加强了隐私。在这个过程中,在训练和推理期间使用具有完全随机参数的线性层来转换每个多层感知器的特征激活。这种随机线性运算保留了拓扑结构,该结构由通过共享多层感知器的令牌集形成。此操作鼓励识别任务的学习依赖于令牌的拓扑结构,而不是它们的值,从而提供所需的视觉特征的鲁棒性和隐私性。在本文中,我们将我们的特征用于三种不同的应用程序,即对抗性鲁棒性、网络校准和特征隐私。我们的功能为这些任务提供了令人兴奋的结果。此外,我们展示了联合学习和迁移学习的实验设置,其中具有随机层的视觉转换器再次表现良好。我们的源代码将公开提供。
* 题目: InverseMV: Composing Piano Scores with a Convolutional Video-Music Transformer
* 链接: https://arxiv.org/abs/2112.15320* 作者: Chin-Tung Lin,Mu Yang
* 其他: Rejected by ISMIR 2020
* 摘要: 许多社交媒体用户更喜欢以视频而不是文本的形式消费内容。然而,为了让内容创作者制作具有高点击率的视频,需要进行大量编辑以将素材与音乐相匹配。这对更多的业余视频制作者提出了额外的挑战。因此,我们提出了一种新颖的基于注意力的模型 VMT(视频音乐转换器),它可以从视频帧中自动生成钢琴乐谱。使用模型生成的音乐还可以防止使用现有音乐时经常出现的潜在版权侵权。据我们所知,除了旨在为视频创作音乐的拟议 VMT 之外,没有其他工作。此外,缺乏具有对齐视频和符号音乐的数据集。我们发布了一个由超过 7 小时的钢琴乐谱组成的新数据集,在流行音乐视频和 MIDI 文件之间进行了精确对齐。我们对 VMT、SeqSeq 模型(我们的基线)和原始钢琴版原声带进行了人工评估实验。 VMT 在音乐流畅度和视频相关性的基线上实现了持续改进。特别是,通过相关性分数和我们的案例研究,我们的模型展示了多模态对音乐生成的帧级演员运动的能力。我们的 VMT 模型与新数据集一起为视频的匹配配乐提供了一个很有前景的研究方向。我们已经在这个 https URL 上发布了我们的代码
* 题目: CSformer: Bridging Convolution and Transformer for Compressive Sensing
* 链接: https://arxiv.org/abs/2112.15299* 作者: Dongjie Ye,Zhangkai Ni,Hanli Wang,Jian Zhang,Shiqi Wang,Sam Kwong
* 摘要: 卷积神经网络 (CNN) 在压缩图像传感方面取得了成功。然而,由于局部性和权重共享的归纳偏差,卷积操作证明了建模远程依赖的内在局限性。 Transformer 最初设计为序列到序列模型,由于基于自我注意的架构,它擅长捕捉全局上下文,即使它可能配备有限的定位能力。本文提出了 CSformer,这是一种混合框架,它结合了利用来自 CNN 的详细空间信息和由 Transformer 提供的全局上下文来增强表示学习的优势。所提出的方法是一种端到端的压缩图像传感方法,由自适应采样和恢复组成。在采样模块中,通过学习的采样矩阵逐块测量图像。在重建阶段,测量被投影到双主干中。一个是通过卷积对邻域关系进行建模的 CNN Stem,另一个是采用全局自注意力机制的 Transformer Stem。双分支结构并发,局部特征和全局表征在不同分辨率下融合,最大化特征互补。此外,我们探索了一种渐进式策略和基于窗口的转换器块,以降低参数和计算复杂度。实验结果证明了基于专用变压器的架构用于压缩感知的有效性,与不同数据集上的最新方法相比,该架构实现了卓越的性能。
三维视觉
* 题目: Cloud Removal from Satellite Images
* 链接: https://arxiv.org/abs/2112.15483* 作者: Rutvik Chauhan,Antarpuneet Singh,Sujoy Saha
* 摘要: 在本报告中,我们使用哨兵集线器分析了可用的云检测技术。与之前的解决方案相比,我们还实现了空间注意力生成对抗网络并提高了生成图像的质量 [7]。
* 题目: PiFeNet: Pillar-Feature Network for Real-Time 3D Pedestrian Detection from Point Cloud
* 链接: https://arxiv.org/abs/2112.15458* 作者: Duy-Tho Le,Hengcan Shi,Hamid Rezatofighi,Jianfei Cai
* 其他: Submitted to IEEE International Conference on Multimedia and Expo (ICME) 2022
* 摘要: 我们提出 PiFeNet,这是一种高效且准确的实时 3D 检测器,用于从点云中检测行人。我们解决了 3D 对象检测框架在检测行人时遇到的两个挑战:柱子特征的低表现力和点云中行人的小占用区域。首先,我们引入了一个可堆叠的柱子感知注意(PAA)模块,用于增强柱子特征提取,同时抑制点云中的噪声。通过将多点感知池、逐点、通道和任务感知注意力集成到一个简单的模块中,表示能力得到提升,同时几乎不需要额外的计算资源。我们还介绍了 Mini-BiFPN,这是一个小而有效的特征网络,可创建双向信息流和多级跨尺度特征融合,以更好地集成多分辨率特征。我们的方法在 KITTI 行人 BEV 和 3D 排行榜中排名第一,同时以每秒 26 帧 (FPS) 的速度运行,并在 Nuscenes 检测基准上实现了最先进的性能。
* 题目: Learning to Predict 3D Lane Shape and Camera Pose from a Single Image via Geometry Constraints
* 链接: https://arxiv.org/abs/2112.15351* 作者: Ruijin Liu,Dapeng Chen,Tie Liu,Zhiliang Xiong,Zejian Yuan
* 其他: 14 pages, 10 figures, accepted by AAAI 2022
* 摘要: 从摄像头检测 3D 车道是自动驾驶汽车面临的一个日益严重的问题。在这项任务中,正确的相机姿态是生成准确车道的关键,它可以将图像从透视图转换为俯视图。通过这种变换,我们可以摆脱透视效果,使 3D 车道看起来相似,并且可以通过低阶多项式准确拟合。然而,主流的 3D 车道检测器依赖于其他传感器提供的完美相机姿态,这既昂贵又遇到多传感器校准问题。为了克服这个问题,我们建议通过使用两阶段框架从单个图像估计相机姿态来预测 3D 车道。第一阶段针对透视图图像的相机姿势任务。为了改进姿态估计,我们引入了辅助 3D 车道任务和几何约束以从多任务学习中受益,这增强了 3D 和 2D 之间的一致性,以及上述两个任务的兼容性。第二阶段针对 3D 车道任务。它使用先前估计的姿势来生成包含距离不变车道外观的顶视图图像,以预测准确的 3D 车道。实验表明,在没有地面实况相机姿势的情况下,我们的方法优于最先进的基于完美相机姿势的方法,并且具有最少的参数和计算量。此 https URL 提供代码。
* 题目: Investigating Pose Representations and Motion Contexts Modeling for 3D Motion Prediction
* 链接: https://arxiv.org/abs/2112.15012* 作者: Zhenguang Liu,Shuang Wu,Shuyuan Jin,Shouling Ji,Qi Liu,Shijian Lu,Li Cheng
* 其他: Accepted to IEEE TPAMI, 27 Dec. 2021
* 摘要: 根据历史姿势序列预测人体运动对于机器成功与人类进行智能交互至关重要。到目前为止已被排除的一个方面是,我们如何表示骨骼姿势对预测结果具有关键影响。然而,没有努力研究不同的姿势表示方案。我们对各种姿势表示进行了深入研究,重点是它们对运动预测任务的影响。此外,最近的方法基于现成的 RNN 单元进行运动预测。这些方法按顺序处理输入姿势序列,并且本质上难以捕捉长期依赖关系。在本文中,我们提出了一种新的 RNN 架构,称为 AHMR(注意力分层运动循环网络)用于运动预测,它同时对局部运动上下文和全局上下文进行建模。我们进一步探索了运动预测任务的测地线损失和前向运动学损失,它们比广泛使用的 L2 损失具有更多的几何意义。有趣的是,我们将我们的方法应用于一系列有表达能力的物体,包括人类、鱼和老鼠。实证结果表明,我们的方法在短期预测方面优于最先进的方法,并实现了大大提高的长期预测能力,例如在 50 秒预测中保留自然的类人运动。我们的代码已发布。
视频处理
* 题目: SFU-HW-Tracks-v1: Object Tracking Dataset on Raw Video Sequences
* 链接: https://arxiv.org/abs/2112.14934* 作者: Takehiro Tanaka,Hyomin Choi,Ivan V. Bajić
* 其他: 4 pages, 3 figures, submitted to Data in Brief
* 摘要: 我们提供了一个数据集,其中包含具有用于高效视频编码 (HEVC) v1 通用测试条件 (CTC) 序列的唯一对象标识 (ID) 的对象注释。准备并发布了 13 个序列的真实注释,作为名为 SFU-HW-Tracks-v1 的数据集。对于每个视频帧,ground truth 注释包括对象类 ID、对象 ID 和边界框位置及其尺寸。该数据集可用于评估未压缩视频序列的对象跟踪性能,并研究视频压缩和对象跟踪之间的关系。
* 题目: Video Reconstruction from a Single Motion Blurred Image using Learned Dynamic Phase Coding
* 链接: https://arxiv.org/abs/2112.14768* 作者: Erez Yosef,Shay Elmalem,Raja Giryes
* 摘要: 从单个运动模糊图像重建视频是一个具有挑战性的问题,它可以增强现有相机的功能。最近,有几项工作使用传统成像和深度学习解决了这一任务。然而,由于方向模糊和噪声敏感性,这种纯数字方法本质上是有限的。一些工作提出使用非常规图像传感器来解决这些限制,但是,这种传感器极其罕见且昂贵。为了用更简单的方法规避这些限制,我们提出了一种用于视频重建的混合光学数字方法,该方法只需要对现有光学系统进行简单的修改。我们在图像采集期间在镜头光圈中使用学习的动态相位编码来编码运动轨迹,作为视频重建过程的先验信息。所提出的计算相机使用图像到视频卷积神经网络从单个编码的运动模糊图像以各种帧速率生成场景的清晰帧突发。与现有方法相比,我们使用模拟和真实世界的相机原型展示了优势和改进的性能。
分割
* 题目: Digital Rock Typing DRT Algorithm Formulation with Optimal Supervised Semantic Segmentation
* 链接: https://arxiv.org/abs/2112.15068* 作者: Omar Alfarisi,Djamel Ouzzane,Mohamed Sassi,Tiejun Zhang
* 摘要: 3D 地质模型中的每个网格块都需要一种代表该块所有物理和化学特性的岩石类型。对岩石类型进行分类的属性是岩性、渗透率和毛细管压力。科学家和工程师使用常规实验室测量来确定这些特性,这些测量将破坏性方法嵌入到样品中或改变其某些特性(即润湿性、渗透性和孔隙率),因为测量过程包括样品破碎、流体流动或流体饱和度。最近,出现了数字岩石物理学 (DRT),可以从微型计算机断层扫描 (uCT) 和磁共振成像 (MRI) 图像中量化这些特性。然而,文献并未尝试在完全数字化的背景下进行摇滚打字。我们建议通过以下方式执行数字岩石打字 (DRT):(1) 将最新的 DRP 进展集成到一个尊重数字岩石属性确定的新过程中,同时; (2) 将最新的碳酸盐岩石分类方法数字化,以及 (3) 引入一种新颖的碳酸盐岩石分类过程,该过程利用计算机视觉功能提供有关非均质碳酸盐岩质地的更多信息。
非强监督
* 题目: Sparse LiDAR Assisted Self-supervised Stereo Disparity Estimation
* 链接: https://arxiv.org/abs/2112.15355* 作者: Xiaoming Zhao,Weihai Chen,Xingming Wu,Peter C. Y. Chen,Zhengguo Li
* 摘要: 近年来,深度立体匹配取得了重大进展。然而,最先进的方法基于昂贵的 4D 成本量,这限制了它们在实际应用中的使用。为了解决这个问题,已经提出了 3D 相关图和迭代视差更新。关于在现实世界的平台,如自动驾驶汽车和机器人,通常会安装激光雷达。因此,我们进一步将稀疏激光雷达点引入迭代更新,这减轻了网络从零状态更新视差的负担。此外,我们建议以自监督的方式训练网络,以便它可以在任何捕获的数据上进行训练,以获得更好的泛化能力。实验和比较表明,所提出的方法是有效的,并且与相关方法取得了可比的结果。
* 题目: Leveraging in-domain supervision for unsupervised image-to-image translation tasks via multi-stream generators
* 链接: https://arxiv.org/abs/2112.15091* 作者: Dvir Yerushalmi,Dov Danon,Amit H. Bermano
* 摘要: 图像到图像翻译 (I2I) 任务的监督很难实现,但对结果质量有显着影响。在本文中,我们观察到,对于许多无监督 I2I (UI2I) 场景,一个域比另一个更熟悉,并提供域内先验知识,例如语义分割。我们认为,对于复杂的场景,弄清楚域的语义结构很困难,尤其是在没有监督的情况下,但它是成功的 I2I 操作的重要组成部分。因此,我们引入了两种技术来整合这一宝贵的领域内先验知识,以提高翻译质量:通过新颖的多流生成器架构,以及通过基于语义分割的正则化损失项。本质上,我们建议根据语义掩码拆分输入数据,明确引导网络针对图像的不同区域进行不同的行为。此外,我们建议在翻译任务的同时训练语义分割网络,并利用该输出作为提高鲁棒性的损失项。我们在城市数据上验证了我们的方法,在将白天图像转换为夜间图像的具有挑战性的 UI2I 任务中展示了卓越的质量。此外,我们还展示了如何用我们的增强图像增强目标数据集来改进下游任务的训练,例如经典检测任务。
* 题目: Continually Learning Self-Supervised Representations with Projected Functional Regularization
* 链接: https://arxiv.org/abs/2112.15022* 作者: Alex Gomez-Villa,Bartlomiej Twardowski,Lu Yu,Andrew D. Bagdanov,Joost van de Weijer
* 摘要: 最近的自监督学习方法能够学习高质量的图像表示,并且正在缩小与监督方法的差距。然而,这些方法无法逐步获取新知识——事实上,它们大多仅用作 IID 数据的预训练阶段。在这项工作中,我们在没有额外记忆或重放的情况下研究了持续学习机制中的自我监督方法。为了防止忘记以前的知识,我们建议使用功能正则化。我们将展示朴素的函数正则化,也称为特征蒸馏,导致低可塑性,因此严重限制了持续学习的性能。为了解决这个问题,我们提出了投影功能正则化,其中一个单独的投影网络确保新学习的特征空间保留先前特征空间的信息,同时允许学习新特征。这使我们能够在保持学习者的可塑性的同时防止遗忘。对应用于自我监督的其他增量学习方法的评估表明,我们的方法在不同场景和多个数据集上获得了有竞争力的性能。
* 题目: An Unsupervised Domain Adaptation Model based on Dual-module Adversarial Training
* 链接: https://arxiv.org/abs/2112.15555* 作者: Yiju Yang,Tianxiao Zhang,Guanyu Li,Taejoon Kim,Guanghui Wang
* 其他: arXiv admin note: text overlap with arXiv:2108.00610
* 摘要: 在本文中,我们提出了一种双模块网络架构,该架构采用域判别特征模块来鼓励域不变特征模块学习更多域不变特征。所提出的架构可以应用于任何利用域不变特征进行无监督域适应以提高其提取域不变特征的能力的模型。我们使用神经网络(DANN)模型的域对抗训练作为代表性算法进行实验。在训练过程中,我们为两个模块提供相同的输入,然后分别提取它们的特征分布和预测结果。我们提出了一个差异损失来寻找预测结果的差异和两个模块之间的特征分布。通过最大化其特征分布的损失和最小化其预测结果的差异的对抗性训练,鼓励这两个模块分别学习更多的领域判别和领域不变特征。进行了广泛的比较评估,并且所提出的方法在大多数无监督域适应任务中优于最先进的方法。
* 题目: Weakly Supervised Change Detection Using Guided Anisotropic Difusion
* 链接: https://arxiv.org/abs/2112.15367* 作者: Rodrigo Caye Daudt,Bertrand Le Saux,Alexandre Boulch,Yann Gousseau
* 其他: Machine Learning Journal 2021. arXiv admin note: substantial text overlap with arXiv:1904.08208
* 摘要: 从众包标签或公开可用数据创建的大规模数据集对于为大规模学习算法提供训练数据变得至关重要。虽然这些数据集更容易获得,但数据往往嘈杂且不可靠,这激发了对弱监督学习技术的研究。在本文中,我们提出了有助于我们在变化检测背景下利用此类数据集的原创想法。首先,我们提出了引导各向异性扩散 (GAD) 算法,该算法使用输入图像作为指导来执行边缘保留过滤,从而改善语义分割结果。然后,我们在为变化检测量身定制的两种弱监督学习策略中展示了它的潜力。第一种策略是迭代学习方法,它结合使用 GAD 的模型优化和数据清理,从开放矢量数据生成的大规模变化检测数据集中提取有用信息。第二个将 GAD 合并到一个新的空间注意层中,该层提高了经过训练以从图像级标签执行像素级预测的弱监督网络的准确性。在 4 个不同的公共数据集上展示了对最先进技术的改进。
未分类
* 题目: 3-D Material Style Transfer for Reconstructing Unknown Appearance in Complex Natural Materials
* 链接: https://arxiv.org/abs/2112.15589* 作者: Shashank Ranjan,Corey Toler-Franklin
* 其他: 15 pages, 22 figures
* 摘要: 我们提出了一个 3-D 材料样式转换框架,用于在复杂的天然材料中重建不可见(或褪色)的外观特性。我们的算法解决了当两个对象具有复杂的、不对应的颜色图案时将外观属性从一个对象转移到另一个相同材料的技术挑战。例如,蛋壳、外骨骼和矿物质的图案由高度随机的有机和无机化合物层组成。这些材料带来了挑战,因为决定表面颜色的化合物的分布在不同物体之间以及在局部图案区域内发生变化。我们的解决方案将样本中材料属性分布的外观观察结果与目标对象的材料属性分布相适应,以重建其未知外观。我们在 3-D 双光谱纹理中使用测量的反射率来记录不断变化的材料属性分布。我们对球谐函数的新颖实现使用化学和生物学的原理来了解样本中颜色(色调和饱和度)与材料成分和浓度之间的关系。编码关系被转换为用于颜色恢复和材料分配的目标的属性分布。定量和定性评估方法表明,我们比仅依赖形状对应和粗略感知差异的方法更准确地复制颜色模式。我们展示了我们的工作在已灭绝化石中重建颜色、恢复褪色文物和生成合成纹理的应用。
* 题目: PCACE: A Statistical Approach to Ranking Neurons for CNN Interpretability
* 链接: https://arxiv.org/abs/2112.15571* 作者: Sílvia Casacuberta,Esra Suel,Seth Flaxman
* 摘要: 在本文中,我们在不断增长的卷积神经网络 (CNN) 可解释性文献中引入了一个新问题。虽然之前的工作集中在如何视觉解释 CNN 的问题上,但我们问的是我们关心解释的是什么,即哪些层和神经元值得我们关注?由于现代深度学习网络架构的庞大规模,需要使用自动化的定量方法来对神经元的相对重要性进行排序,以便为这个问题提供答案。我们提出了一种新的统计方法,用于对网络的任何卷积层中的隐藏神经元进行排序。我们将重要性定义为激活图和类别分数之间的最大相关性。我们提供了不同的方法,可将该方法用于 MNIST 和 ImageNet 的可视化目的,并展示了我们的方法在街道级图像空气污染预测中的实际应用。
* 题目: Scene-Adaptive Attention Network for Crowd Counting
* 链接: https://arxiv.org/abs/2112.15509* 作者: Xing Wei,Yuanrui Kang,Jihao Yang,Yunfeng Qiu,Dahu Shi,Wenming Tan,Yihong Gong
* 摘要: 近年来,人群计数的研究取得了重大进展。然而,由于人群中存在具有挑战性的尺度变化和复杂的场景,传统的卷积网络和最近的具有固定大小注意力的 Transformer 架构都不能很好地处理任务。为了解决这个问题,本文提出了一种场景自适应注意力网络,称为 SAANet。首先,我们设计了一个可变形注意力内置 Transformer 主干,它学习具有可变形采样位置和动态注意力权重的自适应特征表示。然后我们进一步提出了多级特征融合和计数注意力特征增强模块,以加强全局图像上下文下的特征表示。学习到的表示可以关注前景并适应不同规模的人群。我们对四个具有挑战性的人群计数基准进行了广泛的实验,证明我们的方法达到了最先进的性能。特别是,我们的方法目前在 NWPU-Crowd 基准测试的公共排行榜上排名第一。我们希望我们的方法可以成为支持未来人群计数研究的强大基线。源代码将发布给社区。
* 题目: Deep Facial Synthesis: A New Challenge
* 链接: https://arxiv.org/abs/2112.15439* 作者: Deng-Ping Fan,Ziling Huang,Peng Zheng,Hong Liu,Xuebin Qin,Luc Van Gool
* 其他: First submission. FS2K and FSGAN have been released
* 摘要: 本文的目标是对面部草图合成(FSS)问题进行全面研究。然而,由于获取手绘草图数据集的成本很高,因此缺乏一个完整的基准来评估过去十年 FSS 算法的发展。因此,我们首先为 FSS 引入一个名为 FS2K 的高质量数据集,它由 2,104 个图像-草图对组成,涵盖三种类型的草图样式、图像背景、光照条件、肤色和面部属性。 FS2K 在难度、多样性和可扩展性方面与以前的 FSS 数据集不同,因此应该促进 FSS 研究的进展。其次,我们通过研究 139 种经典方法来展示最大规模的 FSS 研究,包括 24 种基于手工特征的面部素描合成方法、37 种通用神经风格转移方法、43 种深度图像到图像转换方法和 35 种图像到图像转换方法。草图方法。此外,我们对现有的 19 个前沿模型进行了全面的实验。第三,我们提出了一个简单的 FSS 基线,命名为 FSGAN。只有两个简单的组件,即面部感知掩蔽和样式向量扩展,FSGAN 在提出的 FS2K 数据集上大大超过了所有先前最先进模型的性能。最后,我们总结了过去几年的经验教训,并指出了几个尚未解决的挑战。我们的开源代码可从这个 https URL 获得。
* 题目: InfoNeRF: Ray Entropy Minimization for Few-Shot Neural Volume Rendering
* 链接: https://arxiv.org/abs/2112.15399* 作者: Mijeong Kim,Seonguk Seo,Bohyung Han
* 摘要: 我们提出了一种信息论正则化技术,用于基于神经隐式表示的少镜头新视图合成。所提出的方法通过在每条射线中施加密度的熵约束来最小化由于视点不足而发生的潜在重建不一致。此外,为了缓解从几乎冗余的视点获取所有训练图像时潜在的退化问题,我们通过限制来自具有略微不同视点的一对光线的信息增益,进一步将空间平滑约束合并到估计图像中。我们算法的主要思想是使重建的场景沿着单个光线紧凑,并在邻域内的光线上保持一致。所提出的正则化器可以直接插入到大多数现有的基于 NeRF 的神经体积渲染技术中。尽管它很简单,但与现有的神经视图合成方法相比,我们在多个标准基准上取得了大幅提高的性能。我们的项目网站位于 \url{this http URL}。
* 题目: Conditional Generative Data-Free Knowledge Distillation based on Attention Transfer
* 链接: https://arxiv.org/abs/2112.15358* 作者: Xinyi YU,Ling Yan,Linlin Ou
* 摘要: 知识蒸馏在模型压缩方面取得了显著成果。然而,大多数现有方法都需要原始训练数据,而由于隐私、安全和传输限制,实践中的真实数据往往无法获得。为了解决这个问题,我们提出了一种条件生成的无数据知识蒸馏(CGDD)框架来训练没有任何真实数据的高效便携式网络。在这个框架中,除了使用从教师模型中提取的知识外,我们引入了预设标签作为额外的辅助信息来训练生成器。然后,经过训练的生成器可以根据需要生成指定类别的有意义的训练样本。为了促进蒸馏过程,除了使用传统的蒸馏损失外,我们将预设标签视为真实标签,以便学生网络直接由合成训练样本的类别进行监督。此外,我们强制学生网络模仿教师模型的注意力图并进一步提高其性能。为了验证我们方法的优越性,我们设计了一个新的评估指标,称为相对准确度,以直接比较不同蒸馏方法的有效性。使用提出的无数据蒸馏方法学习的经过训练的便携式网络在 CIFAR10、CIFAR100 和 Caltech101 上分别获得了 99.63%、99.07% 和 99.84% 的相对准确率。实验结果证明了所提出方法的优越性。
* 题目: P2P-Loc: Point to Point Tiny Person Localization
* 链接: https://arxiv.org/abs/2112.15344* 作者: Xuehui Yu,Di Wu,Qixiang Ye,Jianbin Jiao,Zhenjun Han
* 摘要: 边界框注释形式一直是视觉对象定位任务中最常用的方法。然而,bounding-box annotation 依赖于大量精确标注的 bounding box,成本高昂、费力,在实际场景中无法实现,对于一些不关心大小的应用甚至是多余的。因此,我们通过将每个人注释为粗点(CoarsePoint),可以是对象范围内的任何点,而不是准确的边界框,为人员定位任务提出了一种新的基于点的框架。然后将人的位置预测为图像中的二维坐标。这大大简化了数据注释管道。但是,CoarsePoint 标注不可避免地会导致训练过程中标签可靠性降低(标签不确定性)和网络混乱。因此,我们提出了一种点自我完善的方法,它以自定进度的方式迭代更新点注释。所提出的细化系统减轻了标签的不确定性并逐步提高了定位性能。实验表明,我们的方法实现了可比的对象定位性能,同时节省了高达 80$\%$ 的注释成本。代码包含在补充材料中。
* 题目: Deconfounded Visual Grounding
* 链接: https://arxiv.org/abs/2112.15324* 作者: Jianqiang Huang,Yu Qin,Jiaxin Qi,Qianru Sun,Hanwang Zhang
* 其他: AAAI 2022 Accepted
* 摘要: 我们关注视觉基础管道中语言和位置之间的混淆偏差,我们发现偏差是主要的视觉推理瓶颈。例如,接地过程通常是没有视觉推理的微不足道的语言-位置关联,例如,将任何包含绵羊的语言查询接地到接近中心的区域,因为大多数关于绵羊的查询在图像中心都有地面实况位置。首先,我们将视觉基础管道构建成一个因果图,它显示了图像、查询、目标位置和潜在混杂因素之间的因果关系。通过因果图,我们知道如何打破接地瓶颈:解混视觉接地。其次,为了解决混杂因素通常未被观察到的挑战,我们提出了一种混杂因素不可知的方法,称为:引用表达式去混杂因素(RED),以消除混杂偏差。第三,我们将 RED 实现为一种简单的语言注意力,它可以应用于任何接地方法。在流行的基准测试中,RED 大幅改进了各种最先进的接地方法。代码将很快可用:此 https URL。
* 题目: ERNIE-ViLG: Unified Generative Pre-training for Bidirectional Vision-Language Generation
* 链接: https://arxiv.org/abs/2112.15283* 作者: Han Zhang,Weichong Yin,Yewei Fang,Lanxin Li,Boqiang Duan,Zhihua Wu,Yu Sun,Hao Tian,Hua Wu,Haifeng Wang
* 其他: 15 pages, 7 figures
* 摘要: 图像文本生成任务的传统方法主要分别处理自然双向生成任务,重点是设计特定任务的框架以提高生成样本的质量和保真度。最近,视觉语言预训练模型大大提高了图像到文本生成任务的性能,但用于文本到图像合成任务的大规模预训练模型仍然不成熟。在本文中,我们提出了 ERNIE-ViLG,这是一个统一的生成预训练框架,用于使用 Transformer 模型进行双向图像-文本生成。基于图像量化模型,我们将图像生成和文本生成都制定为以文本/图像输入为条件的自回归生成任务。双向图像文本生成建模简化了跨视觉和语言的语义对齐。对于文本到图像的生成过程,我们进一步提出了一种端到端的训练方法来联合学习视觉序列生成器和图像重建器。为了探索双向文本-图像生成的大规模预训练的前景,我们在 1.45 亿(中文)图像-文本对的大规模数据集上训练了一个 100 亿参数的 ERNIE-ViLG 模型,该模型达到了-文本到图像和图像到文本任务的最佳性能,在 MS-COCO 上获得 7.9 的 FID 进行文本到图像合成,在 COCO-CN 和 AIC-ICC 上获得最佳结果用于图像字幕.
* 题目: Visual and Object Geo-localization: A Comprehensive Survey
* 链接: https://arxiv.org/abs/2112.15202* 作者: Daniel Wilson,Xiaohan Zhang,Waqas Sultani,Safwan Wshah
* 摘要: 地理定位的概念是指确定某个“实体”在地球上的位置的过程,通常使用全球定位系统 (GPS) 坐标。感兴趣的实体可以是图像、图像序列、视频、卫星图像或什至图像内可见的对象。由于智能手机和互联网,大量 GPS 标记媒体数据集迅速可用,深度学习兴起以增强机器学习模型的性能,视觉和对象地理定位领域因其对广泛的应用,例如增强现实、机器人、自动驾驶汽车、道路维护和 3D 重建。本文对涉及图像的地理定位进行了全面调查,包括确定从何处捕获图像(图像地理定位)或对图像中的对象进行地理定位(对象地理定位)。我们将提供深入的研究,包括流行算法的总结、提议的数据集的描述以及性能结果的分析,以说明每个领域的当前状态。
* 题目: Towards Robustness of Neural Networks
* 链接: https://arxiv.org/abs/2112.15188* 作者: Steven Basart
* 其他: PhD Thesis
* 摘要: 我们介绍了几个新的数据集,即 ImageNet-A/O 和 ImageNet-R,以及我们称为 CAOS 的合成环境和测试套件。 ImageNet-A/O 允许研究人员专注于 ImageNet 中剩余的盲点。 ImageNet-R 是专门为跟踪稳健表示而创建的,因为表示不再简单自然,而是包括艺术和其他再现。 CAOS 套件基于 CARLA 模拟器构建而成,该模拟器允许包含异常对象,并可以创建可重现的合成环境和场景以测试稳健性。所有数据集都是为了测试稳健性和衡量稳健性进展而创建的。这些数据集已用于其他各种工作,以衡量其自身在稳健性方面的进展,并允许不只关注自然准确性的切向进展。鉴于这些数据集,我们创建了几种旨在推进稳健性研究的新方法。我们以最大 Logit 和典型分数的形式建立了简单的基线,并以 DeepAugment 的形式创建了一种新的数据增强方法,该方法改进了上述基准。最大 Logit 考虑的是 logit 值而不是 softmax 操作后的值,而一个小的变化就会产生明显的改进。典型性分数将输出分布与类的后验分布进行比较。我们表明这提高了除分割任务以外的所有基线的性能。推测可能在像素级别,像素的语义信息不如类级别信息有意义。最后,DeepAugment 的新增强技术利用神经网络在图像上创建增强,这些增强与以前使用的传统几何和基于相机的变换完全不同。
* 题目: Finding the Task-Optimal Low-Bit Sub-Distribution in Deep Neural Networks
* 链接: https://arxiv.org/abs/2112.15139* 作者: Runpei Dong,Zhanhong Tan,Mengdi Wu,Linfeng Zhang,Kaisheng Ma
* 其他: 15 pages, 4 figures, submitted to IJCV (International Journal of Computer Vision)
* 摘要: 量化神经网络通常需要更小的内存占用和更低的计算复杂度,这对于高效部署至关重要。然而,量化不可避免地导致与原始网络的分布发散,这通常会降低性能。为了解决这个问题,已经做出了巨大的努力,但大多数现有方法缺乏统计考虑并依赖于几种手动配置。在本文中,我们提出了一种自适应映射量化方法来学习模型中固有的最佳潜在子分布,并用具体的高斯混合物 (GM) 平滑逼近。特别是,网络权重的预测符合 GM 近似子分布。该子分布随着直接任务目标优化指导的协同调整模式中的权重更新而演变。在各种现代架构上进行的图像分类和目标检测的充分实验证明了所提出方法的有效性、泛化性和可转移性。此外,还开发了移动 CPU 的高效部署流程,在八核 ARM CPU 上实现了高达 7.46$\times$ 的推理加速。代码在此 https URL 上公开发布。
* 题目: A general technique for the estimation of farm animal body part weights from CT scans and its applications in a rabbit breeding program
* 链接: https://arxiv.org/abs/2112.15095* 作者: Ádám Csóka,György Kovács,Virág Ács,Zsolt Matics,Zsolt Gerencsér,Zsolt Szendrő,István Nagy,Örs Petneházy,Imre Repa,Mariann Moizs,Tamás Donkó
* 摘要: 农场动物成像的各种应用都是基于对某些身体部位的重量估计以及动物 CT 图像的切割。在许多情况下,由于扫描未镇静的活体动物,CT 图像中姿势的巨大可变性增加了问题的复杂性。在本文中,我们提出了一种通用且稳健的方法,用于从(可能的)活体动物的 CT 图像中估计切口和身体部位的权重。我们采用由弹性配准和联合特征和模型选择驱动的基于多图谱的分割,以适应回归组件的大量特征和少量样本。通过在兔子育种计划中的实际应用对所提出的技术进行了评估和说明,显示 r^2 得分比迄今为止用于推动选择的先前技术和方法高 12%。所提出的技术很容易适应类似的问题,因此,为了社区的利益,它在开源软件包中共享。
* 题目: Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study
* 链接: https://arxiv.org/abs/2112.15093* 作者: Jingye Chen,Haiyang Yu,Jianqi Ma,Mengnan Guan,Xixi Xu,Xiaocong Wang,Shaobo Qu,Bin Li,Xiangyang Xue
* 其他: Code is available at this https URL
* 摘要: 近年来,深度学习的蓬勃发展见证了文本识别的快速发展。然而,现有的文本识别方法主要针对英文文本,而忽略了中文文本的关键作用。作为另一种广泛使用的语言,中文文本识别在各方面都有广泛的应用市场。根据我们的观察,我们将中文文本识别的关注不足归因于缺乏合理的数据集构建标准、统一的评估方法以及现有基线的结果。为了填补这一空白,我们从公开的竞赛、项目和论文中手动收集了中文文本数据集,然后将它们分为场景、网络、文档和手写数据集四类。此外,我们使用统一的评估方法在这些数据集上评估了一系列具有代表性的文本识别方法,以提供实验结果。通过分析实验结果,我们惊讶地观察到用于识别英文文本的最先进基线在中文场景中表现不佳。我们认为由于中文文本与英文文本有很大不同的特点,在探索中仍然存在许多挑战。代码和数据集在此 https URL 上公开可用。
* 题目: Feature Extraction and Prediction for Hand Hygiene Gestures with KNN Algorithm
* 链接: https://arxiv.org/abs/2112.15085* 作者: Rashmi Bakshi
* 摘要: 这项工作侧重于分析洗手过程中涉及的手势。世界卫生组织手部卫生指南提供了六种标准的洗手姿势。在本文中,使用计算机视觉库 OpenCV 提取手部特征,例如手部轮廓、手部质心和沿最大轮廓的极端手部点。这些手部特征是针对手部卫生视频中的每个数据帧提取的。该项目创建了一个强大的手部卫生视频记录数据集。在这项工作中使用了这个数据集的一个子集。提取的手部特征基于 KNN 算法进一步分组,并使用交叉验证技术对未标记数据进行分类和预测。实现了 >95% 的平均准确度分数,并证明了具有适当输入值 K=5 的 KNN 算法对于分类是有效的。包含六个不同手部卫生类别的完整数据集将与 KNN 分类器一起用于未来的工作。
* 题目: Pose Estimation of Specific Rigid Objects
* 链接: https://arxiv.org/abs/2112.15075* 作者: Tomas Hodan
* 其他: Tomas Hodans PhD thesis defended on July 7, 2021. Supervisor: Prof. Jiri Matas. Reviewers: Prof. Vincent Lepetit, Prof. Markus Vincze, Dr. Slobodan Ilic. A recording of the defense: this https URL
* 摘要: 在本论文中,我们解决了从单个 RGB 或 RGB-D 输入图像估计刚性物体的 6D 姿态的问题,假设物体的 3D 模型可用。这个问题对机器人操纵、增强现实和自动驾驶等许多应用领域都具有重要意义。首先,我们提出了 EPOS,一种从 RGB 图像估计 6D 对象姿态的方法。关键思想是用紧凑的表面碎片表示一个物体,并通过神经网络预测输入图像每个像素处相应碎片的概率分布。每个像素都与依赖于数据的片段数量相关联,这允许系统地处理对称性,并且 6D 姿态是通过基于 RANSAC 的拟合方法从链接中估计出来的。 EPOS 在几个标准数据集上的表现优于所有 RGB 和大多数 RGB-D 和 D 方法。其次,我们提出了 HashMatch,这是一种 RGB-D 方法,它在输入图像上滑动一个窗口并搜索与模板的匹配,模板是通过在不同方向渲染 3D 对象模型而预先生成的。该方法将评估阶段级联应用于每个窗口位置,从而避免对所有模板进行详尽匹配。第三,我们提出 ObjectSynth,这是一种合成 3D 对象模型的逼真图像的方法,用于基于神经网络的训练方法。与在随机照片之上渲染的常用对象图像相比,这些图像产生了实质性的改进。第四,我们介绍了 T-LESS,这是第一个用于 6D 对象姿态估计的数据集,其中包括行业相关对象的 3D 模型和 RGB-D 图像。第五,我们定义了 BOP,这是一个捕捉该领域现状的基准。 BOP 包括 11 个统一格式的数据集、评估方法、在线评估系统以及在 ICCV 和 ECCV 会议上组织的国际研讨会上举办的公共挑战。
* 题目: Development of a face mask detection pipeline for mask-wearing monitoring in the era of the COVID-19 pandemic: A modular approach
* 链接: https://arxiv.org/abs/2112.15031* 作者: Benjaphan Sommana,Ukrit Watchareeruetai,Ankush Ganguly,Samuel W.F. Earp,Taya Kitiyakara,Suparee Boonmanunt,Ratchainant Thammasudjarit
* 摘要: 在 SARS-Cov-2 大流行期间,戴口罩成为防止传播和感染病毒的有效工具。监测人群戴口罩率的能力将有助于确定对抗病毒的公共卫生策略。然而,用于检测口罩的人工智能技术并没有在现实生活中大规模部署,以衡量公众的口罩佩戴率。在本文中,我们提出了一种由两个独立模块组成的两步式面罩检测方法:1)面罩检测和对齐以及 2)面罩分类。这种方法使我们能够试验人脸检测和面罩分类模块的不同组合。更具体地说,我们试验了 PyramidKey 和 RetinaFace 作为面部检测器,同时为面罩分类模块维护了一个轻量级的主干。此外,我们还提供了 AIZOO 数据集测试集的重新标记注释,其中我们纠正了一些人脸图像的错误标签。对 AIZOO 和 Moxa 3K 数据集的评估结果表明,所提出的面罩检测管道超越了最先进的方法。与原始测试集相比,提议的管道在 AIZOO 数据集的重新标记测试集上也产生了更高的 mAP。由于我们使用野外人脸图像训练了所提出的模型,因此我们可以成功部署我们的模型以使用公共闭路电视图像监控口罩佩戴率。
* 题目: THE Benchmark: Transferable Representation Learning for Monocular Height Estimation
* 链接: https://arxiv.org/abs/2112.14985* 作者: Zhitong Xiong,Wei Huang,Jingtao Hu,Yilei Shi,Qi Wang,Xiao Xiang Zhu
* 摘要: 快速生成 3D 城市模型对于许多应用程序至关重要。单目高度估计是获取大尺度几何信息最有效、最及时的方法之一。然而,现有的工作主要集中在使用无偏数据集训练和测试模型上,这与现实世界的应用程序不一致。因此,我们提出了一个新的基准数据集来研究跨数据集设置中高度估计模型的可转移性。为此,我们首先设计并构建了一个大规模的基准数据集,用于高度估计任务上的跨数据集迁移学习。该基准数据集包括一个新提出的大规模合成数据集、一个新收集的真实世界数据集以及来自不同城市的四个现有数据集。接下来,设计了两个新的实验协议,零样本和少样本跨数据集传输。对于少样本跨数据集传输,我们使用建议的可缩放卷积模块增强基于窗口的 Transformer,以处理严重的尺度变化问题。为了提高深度模型在零样本交叉数据集设置中的泛化能力,设计了一个基于最大归一化的 Transformer 网络来将相对高度图与绝对高度解耦。实验结果证明了所提出的方法在传统和跨数据集传输设置中的有效性。数据集和代码可在此 https URL 上公开获取。
* 题目: Exploring the pattern of Emotion in children with ASD as an early biomarker through Recurring-Convolution Neural Network (R-CNN)
* 链接: https://arxiv.org/abs/2112.14983* 作者: Abirami S P,Kousalya G,Karthick R
* 其他: 8 figures and 2 tables. totally 18 pages
* 摘要: 自闭症谱系障碍 (ASD) 被发现是各种职业治疗师的主要关注点。这种神经发育障碍的首要挑战在于分析和探索儿童早期发育的各种症状。这种早期的识别可以支撑治疗师和临床医生提供适当的辅助支持,使孩子们过上独立的生活。儿童感知的面部表情和情绪可能有助于对自闭症进行早期干预。对此,本文实施了基于时变因素的基本面部表情识别和情绪探索。通过使用绘制在正面的 68 个标志点与由 RNN 形成的预测网络(称为 RCNN-FER 系统)结合通过 CNN 识别的面部表情来分析情绪。该论文采用 R-CNN 来利用提高准确性和性能以及降低时间复杂度的优势来预测情绪作为文本网络分析。与为自闭症社会做出贡献的此类识别建立的简单机器学习模型相比,这些论文证明在识别自闭症儿童的情绪方面具有更高的准确性。
* 题目: Contrastive Learning of Semantic and Visual Representations for Text Tracking
* 链接: https://arxiv.org/abs/2112.14976* 作者: Zhuang Li,Weijia Wu,Mike Zheng Shou,Jiahong Li,Size Li,Zhongyuan Wang,Hong Zhou
* 其他: 10 pages, 5 figures
* 摘要: 语义表示对于需要同时对视频中的文本进行分类、检测和跟踪的视频文本跟踪 (VTT) 任务非常有用。大多数现有方法通过连续帧中的外观相似性来解决此任务,同时忽略了丰富的语义特征。在本文中,我们探索通过语义和视觉表示的对比学习来稳健地跟踪视频文本。相应地,我们提出了一种具有语义和视觉表示(SVRep)的端到端视频文本跟踪器,它通过利用视频序列中不同文本之间的视觉和语义关系来检测和跟踪文本。此外,凭借轻量级架构,SVRep 实现了最先进的性能,同时保持了具有竞争力的推理速度。具体来说,使用 ResNet-18 的主干,SVRep 在 ICDAR2015(视频) 数据集的 $\textbf{8.6\%}$ 比之前最先进的方法有所改进。
* 题目: Contrastive Fine-grained Class Clustering via Generative Adversarial Networks
* 链接: https://arxiv.org/abs/2112.14971* 作者: Yunji Kim,Jung-Woo Ha
* 摘要: 由于难以学习细微对象细节的特征表示,因此无监督细粒度类聚类是一项实用但具有挑战性的任务。我们介绍了 C3-GAN,这是一种通过应用对比学习来利用 InfoGAN 的分类推理能力的方法。我们的目标是学习特征表示,鼓励数据在嵌入空间中形成不同的集群边界,同时最大化潜在代码与其观察之间的互信息。我们的方法是训练用于推断集群的鉴别器来优化对比损失,其中最大化互信息的图像潜在对被视为正对,其余被视为负对。具体来说,我们将从分类分布中采样的生成器的输入映射到鉴别器的嵌入空间,并让它们充当集群质心。通过这种方式,C3-GAN 实现了学习聚类友好的嵌入空间,其中每个聚类都可以明显分离。实验结果表明,C3-GAN 在四个细粒度基准数据集上实现了最先进的聚类性能,同时也缓解了模式崩溃现象。
* 题目: A Novel Generator with Auxiliary Branch for Improving GAN Performance
* 链接: https://arxiv.org/abs/2112.14968* 作者: Seung Park,Yong-Goo Shin
* 摘要: 生成对抗网络 (GAN) 中的生成器以从粗到精的方式学习图像生成,其中较早的层学习图像的整体结构,而后一层则细化细节。为了很好地传播粗信息,最近的工作通常通过堆叠多个残差块来构建它们的生成器。尽管残差块可以产生高质量的图像并且可以稳定地训练,但它往往会阻碍网络中的信息流动。为了缓解这个问题,本简介介绍了一种新颖的生成器架构,该架构通过组合通过两个不同分支(主分支和辅助分支)获得的特征来生成图像。主分支的目标是通过多个残差块生成图像,而辅助分支的目标是将前一层的粗略信息传递给后一层。为了成功地结合主分支和辅助分支中的特征,我们还提出了一个门控特征融合模块来控制这些分支中的信息流。为了证明所提出方法的优越性,本简介提供了使用各种标准数据集(包括 CIFAR-10、CIFAR-100、LSUN、CelebA-HQ、AFHQ 和 tiny-ImageNet)的大量实验。此外,我们进行了各种消融研究,以证明所提出方法的泛化能力。定量评估证明,所提出的方法在初始分数 (IS) 和 Frechet 初始距离 (FID) 方面表现出令人印象深刻的 GAN 性能。例如,所提出的方法将 tiny-ImageNet 数据集上的 FID 和 IS 分数分别从 35.13 提高到 25.00 和 20.23 到 25.57。
* 题目: Dense Depth Estimation from Multiple 360-degree Images Using Virtual Depth
* 链接: https://arxiv.org/abs/2112.14931* 作者: Seongyeop Yang,Kunhee Kim,Yeejin Lee
* 摘要: 在本文中,我们提出了一种用于多视图 360\degree\: 图像的密集深度估计管道。提议的管道利用球形相机模型来补偿 360\degree\: 图像中的径向失真。本文的主要贡献是通过引入平移缩放方案将球形相机模型扩展到多视图。此外,我们通过设置虚拟深度和最小化光子重投影误差,提出了一种有效的密集深度估计方法。我们使用自然场景的图像以及用于定量评估的合成数据集来验证所提出的管道的性能。实验结果证实,与当前最先进的密集深度估计方法相比,所提出的管道提高了估计精度。
* 题目: Feature Generation and Hypothesis Verification for Reliable Face Anti-Spoofing
* 链接: https://arxiv.org/abs/2112.14894* 作者: Shice Liu,Shitao Lu,Hongyi Xu,Jing Yang,Shouhong Ding,Lizhuang Ma
* 其他: Accepted by AAAI 2022
* 摘要: 尽管现有的人脸反欺骗(FAS)方法在域内实验中取得了很高的准确性,但由于泛化能力差,它们在跨域场景中的效果严重下降。最近,已经探索了多种技术,例如域泛化和表示解开。但是,改进仍然受到两个问题的限制:1)很难将所有人脸完美地映射到共享特征空间。如果来自未知域的人脸没有映射到共享特征空间中的已知区域,则会意外获得不准确的预测。 2)很难完全考虑各种恶搞痕迹进行解开。在本文中,我们提出了一个特征生成和假设验证框架来缓解这两个问题。最重要的是,在 FAS 任务中首次引入了生成真实人脸和已知攻击假设的特征生成网络。随后,应用两个假设验证模块分别判断输入人脸是否来自真实人脸空间和真实人脸分布。此外,还对我们的框架与贝叶斯不确定性估计之间的关系进行了一些分析,为未知领域的可靠防御提供了理论支持。实验结果表明,我们的框架取得了有希望的结果,并且在广泛的公共数据集上优于最先进的方法。
* 题目: Learning Inception Attention for Image Synthesis and Image Recognition
* 链接: https://arxiv.org/abs/2112.14804* 作者: Jianghao Shen,Tianfu Wu
* 摘要: 图像合成和图像识别取得了显着进展,但通常以计算昂贵的训练和推理为代价。学习轻量级但富有表现力的深度模型已成为一个重要而有趣的方向。受 Inception 构建块中著名的 split-transform-aggregate 设计启发式的启发,本文提出了一种促进图像合成模型高效学习的 Skip-Layer Inception Module (SLIM),以及一种同层变体(称为 SLIM太)作为著名的 ResNeXts 的更强大的替代图像识别。在 SLIM 中,输入特征图首先被分成多个组(例如 4 个)。然后每个组都被转换为一个潜在的样式向量(通过通道注意力)和一个潜在的空间掩码(通过空间注意力)。学习到的潜在掩码和潜在风格向量被聚合以调制目标特征图。对于生成学习,SLIM 建立在最近提出的轻量级生成对抗网络(即 FastGAN)上,该网络提供了一个跳跃层激励(SLE)模块。对于少镜头图像合成任务,所提出的 SLIM 实现了比 SLE 工作和其他相关方法更好的性能。对于一次性图像合成任务,它显示出比 SinGAN 等现有技术更强的图像结构保存能力。对于图像分类任务,所提出的 SLIM 被用作 ResNets 中卷积层的替代替代品(产生类似 ResNeXt 的模型),并在 ImageNet-1000 数据集中实现了更好的准确性,模型复杂度显着降低
* 题目: Deep Learning meets Liveness Detection: Recent Advancements and Challenges
* 链接: https://arxiv.org/abs/2112.14796* 作者: Arian Sabaghi,Marzieh Oghbaie,Kooshan Hashemifard,Mohammad Akbari
* 摘要: 面部生物识别技术作为传统身份验证系统的便捷替代品,最近受到了极大的关注。因此,检测恶意企图具有重要意义,导致对人脸反欺骗(FAS),即人脸呈现攻击检测的广泛研究。与手工制作的特征相反,深度特征学习和技术有望显着提高 FAS 系统的准确性,解决实现此类系统实际应用的关键挑战。因此,一个处理更广义和更准确模型开发的新研究领域越来越引起研究界和行业的关注。在本文中,我们对 2017 年以来与基于深度特征的 FAS 方法相关的文献进行了全面调查。为了阐明这一主题,我们提出了一种基于各种特征和学习方法的语义分类法。此外,我们按时间顺序涵盖了 FAS 的主要公共数据集、它们的进化进程和评估标准(数据集内和数据集间)。最后,我们讨论了开放的研究挑战和未来的方向。
* 题目: Improving Baselines in the Wild
* 链接: https://arxiv.org/abs/2112.15550* 作者: Kazuki Irie,Imanol Schlag,Róbert Csordás,Jürgen Schmidhuber
* 其他: Presented at NeurIPS 2021 Workshop on Distribution Shifts, this https URL
* 摘要: 我们与最近发布的 WILDS 基准分享了我们的经验,该基准由十个数据集组成,专门用于开发对领域转移具有鲁棒性的模型和训练策略。一些实验产生了一些重要的观察结果,我们认为这些观察结果对未来关于 WILDS 的任何工作都具有普遍意义。我们的研究侧重于两个数据集:iWildCam 和 FMoW。我们表明 (1) 对每个评估指标进行单独的交叉验证对两个数据集都至关重要,(2) 验证和测试性能之间的弱相关性可能使 iWildCam 的模型开发变得困难,(3) hyper 训练的微小变化-parameters 将基线提高了相对较大的幅度(主要在 FMoW 上),(4)某些域和某些目标标签之间存在很强的相关性(主要在 iWildCam 上)。据我们所知,尽管这些数据具有明显的重要性,但之前没有关于这些数据集的工作报告过这些观察结果。我们的代码是公开的。
* 题目: on the effectiveness of generative adversarial network on anomaly detection
* 链接: https://arxiv.org/abs/2112.15541* 作者: Laya Rafiee Sevyeri,Thomas Fevens
* 其他: This paper is an improved version of an existing paper published by the same authors in ICANN2020
* 摘要: 识别异常是指检测与训练数据分布不相似的样本。许多生成模型已被用于发现异常,其中,基于生成对抗网络(GAN)的方法目前非常流行。 GAN 主要依靠这些模型丰富的上下文信息来识别实际的训练分布。按照这个类比,我们提出了一种基于 GAN 的新无监督模型——自动编码器和 GAN 的组合。此外,引入了一个新的评分函数来定位异常,其中鉴别器的内部表示和生成器的视觉表示的线性组合,加上自动编码器的编码表示,共同定义了建议的异常分数。该模型在 SVHN、CIFAR10 和 MNIST 等基准数据集以及白血病图像的公共医疗数据集上进行了进一步评估。在所有实验中,我们的模型优于现有的模型,同时略微改善了推理时间。
* 题目: Transfer learning for cancer diagnosis in histopathological images
* 链接: https://arxiv.org/abs/2112.15523* 作者: Sandhya Aneja,Nagender Aneja,Pg Emeroylariffion Abas,Abdul Ghani Naim
* 摘要: 迁移学习使我们能够利用从一项任务中获得的知识来帮助解决另一项相关的任务。在现代计算机视觉研究中,问题是对于给定的数据集,哪种架构表现更好。在本文中,我们比较了 14 个预训练 ImageNet 模型在组织病理学癌症检测数据集上的性能,其中每个模型都被配置为朴素模型、特征提取器模型或微调模型。 Densenet161 已被证明具有很高的精度,而 Resnet101 具有很高的召回率。高精度模型适用于后续检查成本较高的情况,而精度低但召回率/敏感性高的模型适用于后续检查成本较低的情况。结果还表明,迁移学习有助于更快地收敛模型。
* 题目: Disjoint Contrastive Regression Learning for Multi-Sourced Annotations
* 链接: https://arxiv.org/abs/2112.15411* 作者: Xiaoqian Ruan,Gaoang Wang
* 摘要: 大规模数据集对于深度学习模型的开发很重要。这样的数据集通常需要大量的注释工作,这是非常耗时和昂贵的。为了加速注释过程,可以使用多个注释器来标记数据的不同子集。然而,不同注释者之间的不一致和偏差对模型训练是有害的,特别是对于定性和主观这个 http URL 解决了这个挑战,在本文中,我们提出了一个新的对比回归框架来解决不相交的注释问题,其中每个样本都是仅由一个注释器标记,多个注释器处理数据的不相交子集。为了同时考虑注释器内的一致性和注释器间的不一致,采用了两种策略。首先,应用基于对比的损失来学习同一注释器的不同样本之间的相对排名,假设排名来自同一注释者的样本是一致的。其次,我们应用梯度反转层来学习对不同注释器不变的稳健表示。面部表情预测任务以及图像质量评估任务的实验验证了我们提出的框架的有效性。
* 题目: Revisiting Experience Replay: Continual Learning by Adaptively Tuning Task-wise Relationship
* 链接: https://arxiv.org/abs/2112.15402* 作者: Quanziang Wang,Yuexiang Li,Dong Wei,Renzhen Wang,Kai Ma,Yefeng Zheng,Deyu Meng
* 摘要: 持续学习需要模型在保持以前学到的知识的同时学习新任务。已经提出了各种算法来解决这个真正的挑战。到目前为止,基于排练的方法,例如经验回放,已经达到了最先进的性能。这些方法将过去任务的一小部分数据保存为内存缓冲区,以防止模型忘记先前学到的知识。然而,他们中的大多数人平等地对待每个新任务,即在学习不同的新任务的同时固定框架的超参数。这种设置缺乏对过去和新任务之间关系/相似性的考虑。例如,与从公共汽车上学到的知识/特征相比,以前从狗身上学到的知识/特征对识别猫(新任务)更有利。在这方面,我们提出了一种基于双层优化的元学习算法,以自适应地调整从过去提取的知识与新任务之间的关系。因此,该模型可以在不断学习的过程中找到合适的梯度方向,避免内存缓冲区出现严重的过拟合问题。在三个公开可用的数据集(即 CIFAR-10、CIFAR-100 和 Tiny ImageNet)上进行了广泛的实验。实验结果表明,所提出的方法可以持续提高所有基线的性能。
* 题目: Efficient Single Image Super-Resolution Using Dual Path Connections with Multiple Scale Learning
* 链接: https://arxiv.org/abs/2112.15386* 作者: Bin-Cheng Yang,Gangshan Wu
* 其他: 20 pages, 9 figures, 2 tables
* 摘要: 近年来,深度卷积神经网络已被证明对 SISR 有效。一方面,残差连接和密集连接已被广泛用于缓解前向信息和后向梯度流以提高性能。然而,当前的方法在大多数网络层中以次优的方式分别使用残差连接和密集连接。另一方面,虽然已经设计了各种网络和方法来提高计算效率、节省参数或利用多个比例因子的训练数据相互提高性能,但它要么在 HR 空间中做超分辨率以具有高计算量成本或不能在不同比例因子的模型之间共享参数以节省参数和推理时间。为了应对这些挑战,我们提出了一种高效的单图像超分辨率网络,该网络使用具有多尺度学习的双路径连接,称为 EMSRDPN。通过将受双路径网络启发的双路径连接引入到 EMSRDPN 中,它在大多数网络层中以集成的方式使用残差连接和密集连接。双路径连接的好处是既可以重用残差连接的共同特征,又可以探索密集连接的新特征来学习 SISR 的良好表示。为了利用多个比例因子的特征相关性,EMSRDPN在不同比例因子之间共享LR空间中的所有网络单元来学习共享特征,并且每个比例因子只使用单独的重构单元,可以利用多个比例因子的训练数据帮助每个其他以提高性能,同时可以节省参数并支持多个比例因子的共享推理以提高效率。实验表明,与 SOTA 方法相比,EMSRDPN 具有更好的性能和可比甚至更好的参数和推理效率。
* 题目: Calibrated Hyperspectral Image Reconstruction via Graph-based Self-Tuning Network
* 链接: https://arxiv.org/abs/2112.15362* 作者: Jiamian Wang,Yulun Zhang,Xin Yuan,Ziyi Meng,Zhiqiang Tao
* 摘要: 近年来,高光谱成像(HSI)引起了越来越多的研究关注,尤其是基于编码孔径快照光谱成像(CASSI)系统的高光谱成像。现有的深度 HSI 重建模型通常在成对数据上进行训练,以根据 CASSI 中特定光学硬件掩码给出的 2D 压缩测量检索原始信号,在此期间掩码在很大程度上影响重建性能,并且可以作为管理数据的“模型超参数”增强。这种特定于掩码的训练方式将导致硬件校准错误问题,这为在不同硬件和嘈杂环境中部署深度 HSI 模型设置了障碍。为了应对这一挑战,我们通过完整的变分贝叶斯学习处理为 HSI 引入了掩码不确定性,并通过受真实硬件启发的掩码分解对其进行了明确建模。具体来说,我们提出了一种新颖的基于图的自调整 (GST) 网络来推理适应不同硬件之间掩码空间结构变化的不确定性。此外,我们开发了一个双层优化框架来平衡 HSI 重建和不确定性估计,考虑到掩码的超参数特性。广泛的实验结果和模型讨论验证了所提出的 GST 方法在两种错误校准情况下的有效性(超过 33/30 dB),并且与最先进的校准方法相比,表现出极具竞争力的性能。我们的代码和预训练模型可在此 https URL Wang/mask_uncertainty_spectral_SCI
* 题目: On Distinctive Properties of Universal Perturbations
* 链接: https://arxiv.org/abs/2112.15329* 作者: Sung Min Park,Kuo-An Wei,Kai Xiao,Jerry Li,Aleksander Madry
* 摘要: 我们确定了通用对抗性扰动 (UAP) 的特性,这些特性将它们与标准对抗性扰动区分开来。具体来说,我们展示了由投影梯度下降生成的目标 UAP 表现出两个人类对齐的特性:语义局部性和空间不变性,这是标准的目标对抗性扰动所缺乏的。我们还证明,与标准对抗性扰动相比,UAP 包含的泛化信号要少得多——也就是说,与标准对抗性扰动相比,UAP 在较小程度上利用了非鲁棒性特征。
* 题目: SplitBrain: Hybrid Data and Model Parallel Deep Learning
* 链接: https://arxiv.org/abs/2112.15317* 作者: Farley Lai,Asim Kadav,Erik Kruus
* 摘要: 最近深度学习应用的成功恰逢那些广泛可用的强大计算资源,用于训练具有庞大数据集的复杂机器学习模型。尽管如此,使用模型并行性(与数据并行性相反)训练诸如卷积神经网络之类的大型模型具有挑战性,因为模型分片之间通信的复杂性使得难以以可接受的权衡在多台机器上有效地划分计算。本文介绍了 SplitBrain,这是一种支持混合数据和模型并行性的高性能分布式深度学习框架。具体来说,SplitBrain 提供了特定于层的分区,可将计算密集的卷积层并置在一起,同时对内存要求高的层进行分片。提出了一种新颖的可扩展组通信,以在减少通信开销的情况下进一步提高训练吞吐量。结果表明,与 CIFAR-10 相比,SplitBrain 可以实现近乎线性的加速,同时为数据和模型并行 VGG 节省高达 67% 的内存消耗。
* 题目: Data-Free Knowledge Transfer: A Survey
* 链接: https://arxiv.org/abs/2112.15278* 作者: Yuang Liu,Wei Zhang,Jun Wang,Jianyong Wang
* 其他: 20 pages, 8 figures
* 摘要: 在过去的十年中,许多深度学习模型经过良好的训练并在机器智能的各个领域取得了巨大的成功,尤其是在计算机视觉和自然语言处理方面。为了更好地利用这些训练有素的模型在域内或跨域转移学习情况下的潜力,提出了知识蒸馏 (KD) 和域适应 (DA) 并成为研究重点。它们都旨在从具有原始训练数据的训练有素的模型中传输有用的信息。然而,由于隐私、版权或机密性的原因,原始数据在许多情况下并不总是可用。最近,无数据知识转移范式引起了广泛的关注,因为它无需访问训练数据即可从训练有素的模型中提取有价值的知识。具体来说,它主要由无数据知识蒸馏(DFKD)和源无数据域适应(SFDA)组成。一方面,DFKD 旨在将原始数据的域内知识从繁琐的教师网络转移到紧凑的学生网络,以进行模型压缩和高效推理。另一方面,SFDA 的目标是重用存储在训练有素的源模型中的跨域知识并将其调整到目标域。在本文中,我们从知识蒸馏和无监督领域适应的角度对无数据知识转移进行了全面的调查,以帮助读者更好地了解当前的研究现状和思路。分别简要回顾了这两个领域的应用和挑战。此外,我们对未来研究的主题提供了一些见解。
* 题目: A Resolution Enhancement Plug-in for Deformable Registration of Medical Images
* 链接: https://arxiv.org/abs/2112.15180* 作者: Kaicong Sun,Sven Simon
* 摘要: 图像配准是医学成像的一项基本任务。在配准过程中需要对强度值进行重采样,更好的空间分辨率和更精细、更清晰的结构可以提高重采样性能,从而提高配准精度。超分辨率(SR)是一种针对空间分辨率增强的算法技术,可以实现超越硬件限制的图像分辨率。在这项工作中,我们将 SR 视为一种预处理技术,并提出了一种基于 CNN 的分辨率增强模块 (REM),该模块可以以级联方式轻松插入注册网络。研究了 REM 的不同残差方案和网络配置,以获得有效的 REM 架构设计。事实上,REM 不仅限于图像配准,它还可以直接集成到其他视觉任务中以提高分辨率。所提出的 REM 在不同放大因子下对医学图像的可变形配准进行了定量和定性的全面评估。在 LPBA40 脑部 MRI 数据集上的实验表明,REM 不仅提高了配准精度,尤其是当输入图像的空间分辨率降低时,而且还生成了可用于后续诊断的分辨率增强图像。
* 题目: Colour alignment for relative colour constancy via non-standard references
* 链接: https://arxiv.org/abs/2112.15106* 作者: Yunfeng Zhao,Stuart Ferguson,Huiyu Zhou,Chris Elliott,Karen Rafferty
* 其他: 13 pages, 10 figures, 2 tables
* 摘要: 相对颜色恒常性是许多科学成像应用的基本要求。然而,大多数数码相机的图像形成不同,并且通常无法访问原生传感器输出,例如在智能手机相机应用中。这使得很难在一系列设备上实现一致的颜色评估,并且会破坏计算机视觉算法的性能。为了解决这个问题,我们提出了一种颜色对齐模型,该模型将相机图像的形成视为黑盒,并将颜色对齐制定为三个步骤:相机响应校准、响应线性化和颜色匹配。所提出的模型通过利用一种新颖的线性距离平衡特征来处理非标准颜色参考,即不知道真实颜色值的色块。它相当于通过一个无监督的过程来确定相机参数。它还可以在图像中使用最少数量的相应色块进行颜色对齐,以提供适用的处理。使用多个相机在各种照明和曝光条件下收集的两个具有挑战性的图像数据集来评估模型。性能基准测试表明,与其他流行的和最先进的方法相比,我们的模型实现了卓越的性能。
* 题目: Radiology Report Generation with a Learned Knowledge Base and Multi-modal Alignment
* 链接: https://arxiv.org/abs/2112.15011* 作者: Shuxin Yang,Xian Wu,Shen Ge,Xingwang Wu,S.Kevin Zhou,Li Xiao
* 摘要: 在诊所,放射学报告对于指导患者的治疗至关重要。不幸的是,撰写报告给放射科医生带来了沉重的负担。为了有效减少这种负担,我们在此提出了一种自动、多模式的方法,用于从胸部 X 射线生成报告。我们的方法受到放射学报告中的描述与 X 射线图像高度相关的观察的启发,具有两个不同的模块:(i)学习知识库。为了吸收嵌入在上述相关性中的知识,我们自动构建基于文本嵌入的知识库。 (ii) 多模式对齐。为了促进报告、疾病标签和图像之间的语义对齐,我们明确地利用文本嵌入来指导视觉特征空间的学习。我们使用来自公共 IU 和 MIMIC-CXR 数据集的自然语言生成和临床功效的指标来评估所提出模型的性能。我们的消融研究表明,每个模块都有助于提高生成报告的质量。此外,在这两个模块的帮助下,我们的方法明显优于最先进的方法。
* 题目: Knowledge Matters: Radiology Report Generation with General and Specific Knowledge
* 链接: https://arxiv.org/abs/2112.15009* 作者: Shuxin Yang,Xian Wu,Shen Ge,Shaohua Kevin Zhou,Li Xiao
* 摘要: 自动放射学报告生成在诊所中至关重要,它可以减轻有经验的放射科医师繁重的工作量,并提醒没有经验的放射科医师误诊或漏诊。现有方法主要将放射学报告生成制定为图像字幕任务,并采用编码器-解码器框架。然而,在医学领域,这种纯数据驱动的方法存在以下问题:1)视觉和文本偏差问题; 2)缺乏专业知识。在本文中,我们提出了一种知识增强的放射学报告生成方法,引入了两种类型的医学知识:1)通用知识,它与输入无关,为报告生成提供了广泛的知识; 2)特定知识,它依赖于输入并为报告生成提供细粒度的知识。为了充分利用一般知识和特定知识,我们还提出了一种知识增强的多头注意机制。通过将放射图像的视觉特征与一般知识和特定知识相结合,所提出的模型可以提高生成报告的质量。在两个公开可用的数据集 IU-Xray 和 MIMIC-CXR 上的实验结果表明,所提出的知识增强方法优于最先进的基于图像字幕的方法。消融研究还表明,一般知识和特定知识都有助于提高放射学报告生成的性能。
* 题目: Retrieving Black-box Optimal Images from External Databases
* 链接: https://arxiv.org/abs/2112.14921* 作者: Ryoma Sato
* 其他: WSDM 2022
* 摘要: 假设我们有一个黑盒函数(例如,深度神经网络),它将图像作为输入并输出一个表示偏好的值。我们如何从 Internet 上的外部数据库中检索有关此功能的最佳图像?文献中的标准检索问题(例如,项目推荐)假设算法可以完全访问项目集。换句话说,此类算法是为服务提供商设计的。在本文中,我们考虑不同假设下的检索问题。具体来说,我们考虑了对图像数据库访问受限的用户如何使用他们自己的黑盒函数检索图像。此公式可实现由每个用户定义的灵活且更细粒度的图像搜索。我们假设用户可以通过具有严格 API 限制的搜索查询访问数据库。因此,用户需要根据查询次数有效地检索最佳图像。针对这个问题,我们提出了一种高效的检索算法 Tiara。在实验中,我们确认我们提出的方法在各种设置下的性能优于几个基线。
* 题目: Few-shot Backdoor Defense Using Shapley Estimation
* 链接: https://arxiv.org/abs/2112.14889* 作者: Jiyang Guan,Zhuozhuo Tu,Ran He,Dacheng Tao
* 摘要: 在过去十年中,深度神经网络在各种任务中取得了令人瞩目的表现,例如自动驾驶、人脸识别和医疗诊断。然而,先前的工作表明,在推理阶段,深度神经网络很容易被后门攻击操纵成特定的、攻击者决定的行为,后门攻击将恶意的小隐藏触发器注入模型训练,从而引发严重的安全威胁。为了确定触发的神经元并防止后门攻击,我们利用 Shapley 值并开发了一种称为 Shapley Pruning (ShapPruning) 的新方法,该方法成功地减轻了数据不足情况下模型的后门攻击(每类 1 张图像甚至没有数据) .考虑到神经元之间的相互作用,ShapPruning 识别出少数受感染的神经元(占所有神经元的 1% 以下),并在剪除尽可能多的受感染神经元后设法保护模型的结构和准确性。为了加速 ShapPruning,我们进一步提出丢弃阈值和 $\epsilon$-greedy 策略来加速 Shapley 估计,从而可以在几分钟内修复中毒模型。与现有方法相比,实验证明了我们的方法针对各种攻击和任务的有效性和鲁棒性。
* 题目: Deep Graph Clustering via Dual Correlation Reduction
* 链接: https://arxiv.org/abs/2112.14772* 作者: Yue Liu,Wenxuan Tu,Sihang Zhou,Xinwang Liu,Linxuan Song,Xihong Yang,En Zhu
* 其他: 9 pages, 6 figures
* 摘要: 深度图聚类旨在揭示底层图结构并将节点划分为不同的组,近年来引起了广泛关注。然而,我们观察到,在节点编码过程中,现有方法存在表示崩溃的问题,它倾向于将所有数据映射到相同的表示中。因此,节点表示的判别能力是有限的,导致聚类性能不满意。为了解决这个问题,我们提出了一种新的自监督深度图聚类方法,称为双相关减少网络(DCRN),通过以双重方式减少信息相关性。具体来说,在我们的方法中,我们首先设计了一个孪生网络来编码样本。然后通过强制交叉视图样本相关矩阵和交叉视图特征相关矩阵分别逼近两个单位矩阵,我们在双重级别上降低信息相关性,从而提高所得特征的判别能力。此外,为了减轻 GCN 中过度平滑导致的表示崩溃,我们引入了传播正则化项,使网络能够获得具有浅网络结构的长距离信息。在六个基准数据集上的大量实验结果证明了所提出的 DCRN 相对于现有最先进方法的有效性。