跳过正文

2026-05-13

·

今日毕设答辩

陈磊毕设答辩讲稿 2000字逐页口语版
#

第1页
#

各位老师好,我是陈磊。我的毕设题目是《基于深度学习的双目立体匹配优化与轻量化方法研究》。这项工作主要围绕两个问题:一个是提升双目匹配在边缘、遮挡等困难区域的精度,另一个是降低模型部署时的计算和显存开销。

第2页
#

我的汇报分为五部分:研究背景、相关理论与基线模型、精度优化方法、模型轻量化实现,以及最后的实验结果和总结。

第3页
#

首先介绍研究背景与意义,主要说明为什么要研究双目立体匹配,以及它目前还存在哪些实际问题。

第4页
#

深度信息是机器理解三维环境的基础。比如机器人避障、自动驾驶感知、三维重建,都需要知道物体离相机有多远。双目立体匹配通过左右图像的视差来恢复深度,相比激光雷达和结构光,成本更低、结构更简单。但它也容易受到遮挡、深度突变、弱纹理和光照变化影响,所以提高精度和效率都很重要。

第5页
#

现有深度学习方法已经提升了整体精度,但还有两个瓶颈。第一,边缘、细小结构和遮挡区域仍然容易出错,视差图会有模糊现象。第二,高性能模型通常推理慢、显存占用高,不方便部署。因此本文以 RAFT-Stereo 为基础,分别做局部精度优化探索和轻量化部署分析。

第6页
#

接下来介绍相关理论与基线模型,也就是本文采用的 RAFT-Stereo。

第7页
#

RAFT-Stereo 的核心流程有三步。第一步是多尺度特征编码,提取左右图像的上下文和纹理信息。第二步是构建全对场相关体,计算左右图像特征之间的相似度。第三步是通过 GRU 循环更新视差,多轮迭代修正结果。它的优势是精度高,但计算量也比较大。

第8页
#

在 Middlebury 2014 数据集上,基线模型的 EPE 是 2.3758,异常点率 D1 是 12.0526。EPE 表示预测视差和真实视差的平均误差,D1 表示异常点比例,都是越小越好。从图中 backpack 场景可以看到,整体视差结构能恢复出来,但局部边缘和细节仍有优化空间。

第9页
#

下面进入精度优化方法探索。这部分主要想验证:在 RAFT-Stereo 这种强基线模型上,简单的结构和损失改进是否还能带来明显提升。

第10页
#

第一种方法是输出端视差细化模块。我的想法是,基线模型已经给出比较完整的视差图,但边缘和细节不够精细,所以在输出端加入残差细化头,让它结合图像纹理和轮廓信息,对原始视差进行局部修正。

第11页
#

第二种方法是边缘感知联合损失。普通损失对所有像素比较平均,但实际更容易出错的是边缘和深度突变位置。因此我根据图像梯度提取边缘响应,构建权重图,让边缘区域的误差在训练时受到更大惩罚,从而引导模型关注边界模糊问题。

第12页
#

第三种方法是局部解冻微调。由于数据规模有限,如果全参数微调,容易破坏预训练特征。所以我冻结特征提取骨干,只对部分模块训练。方案 A 是开放相关体和 GRU 更新模块,方案 B 是只训练新增细化头,用来对比不同局部训练策略的效果。

第13页
#

接下来是模型轻量化实现。这部分关注模型在实际部署时的速度、显存和存储体积。

第14页
#

高精度立体匹配模型的部署压力主要有三点:相关体和迭代机制会占用较多显存;前向计算复杂,推理时间较长;模型权重文件较大,不利于边缘设备部署。因此轻量化的目标不是单纯压缩模型,而是在精度、速度和资源占用之间取得平衡。

第15页
#

我比较了几种轻量化路线。结构重设计和知识蒸馏需要重新训练,开发成本较高;剪枝可能损害边缘细节。本文最终选择 FP16 半精度推理,因为它不改变原网络结构,实现简单,可以利用 GPU 张量核心加速,并且通常精度损失较小。

第16页
#

FP16 的基本原理是把推理中的权重、偏置、输入张量和中间特征,从 FP32 转换为 FP16。由于这里只用于推理阶段,不涉及反向传播和梯度更新,所以数值稳定性风险相对较低。同时现代 GPU 对半精度计算有硬件支持,能够提升吞吐并降低显存。

第17页
#

半精度推理流程是:先加载原 FP32 模型,再转换模型参数和张量,之后执行 FP16 前向推理,最后输出视差图。评价时我从四方面看效果:EPE 和 D1 看精度,平均耗时和 FPS 看速度,最大 CUDA 显存看资源占用,权重体积看部署成本。

第18页
#

下面进入实验结果与总结,先看精度优化结果,再看轻量化结果。

第19页
#

精度优化的结果显示,基线 EPE 为 2.3758,D1 为 12.0526。只加细化头后,EPE 为 2.376,D1 为 12.0609,基本没有提升。加入边缘损失后,EPE 为 2.3757,变化也很小。局部解冻后 EPE 变为 2.4377,反而下降。说明简单后端修正很难突破强基线。

第20页
#

这一页是 Jadeplant 场景的可视化对比。可以重点看叶片边缘、前景背景交界处和细小结构。不同方案整体差异并不明显,和前面的定量结果一致,说明输出端细化对局部可能有轻微影响,但没有稳定带来明显提升。

第21页
#

轻量化结果更明显。FP16 后,EPE 从 2.376 变为 2.353,精度基本稳定;推理时间从 209.8 毫秒降到 173.6 毫秒,下降约 17.2%;显存从 845MB 降到 662MB,下降约 21.6%;模型体积从 43MB 降到 22MB,接近压缩一半。

第22页
#

本文结论主要有三点。第一,构建了从细化头、边缘损失到局部解冻的评估链路。第二,实验说明强基线的精度瓶颈不能只靠输出端修补,更需要改进特征融合和遮挡建模。第三,FP16 在保持精度稳定的同时,显著降低了推理时间、显存和模型体积。

第23页
#

不足和展望方面,后续可以从三点继续做:算法上加入多尺度特征融合和注意力机制;数据集上扩展到 Scene Flow、KITTI 等更多场景;部署上继续探索 INT8 量化和剪枝,并在 Jetson 这类边缘设备上测试实时性和功耗。

第24页
#

以上就是我的全部汇报。本文围绕 RAFT-Stereo,从精度优化和轻量化部署两个角度进行了实验分析。恳请各位老师批评指正,谢谢各位老师。

改进建议
#

  1. 不要因为图片留出大范围的空白。
  2. 把第二章中的匹配优化部分独立出来。
  3. 修改几个老师提到的格式问题。
  4. 缺少卷号的参考文献补充一下卷号
  5. 第四章添加一个引言