2026-05-13

今日毕设答辩

陈磊毕设答辩讲稿 2000字逐页口语版
#

第1页
#

各位老师好，我是陈磊。我的毕设题目是《基于深度学习的双目立体匹配优化与轻量化方法研究》。这项工作主要围绕两个问题：一个是提升双目匹配在边缘、遮挡等困难区域的精度，另一个是降低模型部署时的计算和显存开销。

第2页
#

我的汇报分为五部分：研究背景、相关理论与基线模型、精度优化方法、模型轻量化实现，以及最后的实验结果和总结。

第3页
#

首先介绍研究背景与意义，主要说明为什么要研究双目立体匹配，以及它目前还存在哪些实际问题。

第4页
#

深度信息是机器理解三维环境的基础。比如机器人避障、自动驾驶感知、三维重建，都需要知道物体离相机有多远。双目立体匹配通过左右图像的视差来恢复深度，相比激光雷达和结构光，成本更低、结构更简单。但它也容易受到遮挡、深度突变、弱纹理和光照变化影响，所以提高精度和效率都很重要。

第5页
#

现有深度学习方法已经提升了整体精度，但还有两个瓶颈。第一，边缘、细小结构和遮挡区域仍然容易出错，视差图会有模糊现象。第二，高性能模型通常推理慢、显存占用高，不方便部署。因此本文以 RAFT-Stereo 为基础，分别做局部精度优化探索和轻量化部署分析。

第6页
#

接下来介绍相关理论与基线模型，也就是本文采用的 RAFT-Stereo。

第7页
#

RAFT-Stereo 的核心流程有三步。第一步是多尺度特征编码，提取左右图像的上下文和纹理信息。第二步是构建全对场相关体，计算左右图像特征之间的相似度。第三步是通过 GRU 循环更新视差，多轮迭代修正结果。它的优势是精度高，但计算量也比较大。

第8页
#

在 Middlebury 2014 数据集上，基线模型的 EPE 是 2.3758，异常点率 D1 是 12.0526。EPE 表示预测视差和真实视差的平均误差，D1 表示异常点比例，都是越小越好。从图中 backpack 场景可以看到，整体视差结构能恢复出来，但局部边缘和细节仍有优化空间。

第9页
#

下面进入精度优化方法探索。这部分主要想验证：在 RAFT-Stereo 这种强基线模型上，简单的结构和损失改进是否还能带来明显提升。

第10页
#

第一种方法是输出端视差细化模块。我的想法是，基线模型已经给出比较完整的视差图，但边缘和细节不够精细，所以在输出端加入残差细化头，让它结合图像纹理和轮廓信息，对原始视差进行局部修正。

第11页
#

第二种方法是边缘感知联合损失。普通损失对所有像素比较平均，但实际更容易出错的是边缘和深度突变位置。因此我根据图像梯度提取边缘响应，构建权重图，让边缘区域的误差在训练时受到更大惩罚，从而引导模型关注边界模糊问题。

第12页
#

第三种方法是局部解冻微调。由于数据规模有限，如果全参数微调，容易破坏预训练特征。所以我冻结特征提取骨干，只对部分模块训练。方案 A 是开放相关体和 GRU 更新模块，方案 B 是只训练新增细化头，用来对比不同局部训练策略的效果。

第13页
#

接下来是模型轻量化实现。这部分关注模型在实际部署时的速度、显存和存储体积。

第14页
#

高精度立体匹配模型的部署压力主要有三点：相关体和迭代机制会占用较多显存；前向计算复杂，推理时间较长；模型权重文件较大，不利于边缘设备部署。因此轻量化的目标不是单纯压缩模型，而是在精度、速度和资源占用之间取得平衡。

第15页
#

我比较了几种轻量化路线。结构重设计和知识蒸馏需要重新训练，开发成本较高；剪枝可能损害边缘细节。本文最终选择 FP16 半精度推理，因为它不改变原网络结构，实现简单，可以利用 GPU 张量核心加速，并且通常精度损失较小。

第16页
#

FP16 的基本原理是把推理中的权重、偏置、输入张量和中间特征，从 FP32 转换为 FP16。由于这里只用于推理阶段，不涉及反向传播和梯度更新，所以数值稳定性风险相对较低。同时现代 GPU 对半精度计算有硬件支持，能够提升吞吐并降低显存。

第17页
#

半精度推理流程是：先加载原 FP32 模型，再转换模型参数和张量，之后执行 FP16 前向推理，最后输出视差图。评价时我从四方面看效果：EPE 和 D1 看精度，平均耗时和 FPS 看速度，最大 CUDA 显存看资源占用，权重体积看部署成本。

第18页
#

下面进入实验结果与总结，先看精度优化结果，再看轻量化结果。

第19页
#

精度优化的结果显示，基线 EPE 为 2.3758，D1 为 12.0526。只加细化头后，EPE 为 2.376，D1 为 12.0609，基本没有提升。加入边缘损失后，EPE 为 2.3757，变化也很小。局部解冻后 EPE 变为 2.4377，反而下降。说明简单后端修正很难突破强基线。

第20页
#

这一页是 Jadeplant 场景的可视化对比。可以重点看叶片边缘、前景背景交界处和细小结构。不同方案整体差异并不明显，和前面的定量结果一致，说明输出端细化对局部可能有轻微影响，但没有稳定带来明显提升。

第21页
#

轻量化结果更明显。FP16 后，EPE 从 2.376 变为 2.353，精度基本稳定；推理时间从 209.8 毫秒降到 173.6 毫秒，下降约 17.2%；显存从 845MB 降到 662MB，下降约 21.6%；模型体积从 43MB 降到 22MB，接近压缩一半。

第22页
#

本文结论主要有三点。第一，构建了从细化头、边缘损失到局部解冻的评估链路。第二，实验说明强基线的精度瓶颈不能只靠输出端修补，更需要改进特征融合和遮挡建模。第三，FP16 在保持精度稳定的同时，显著降低了推理时间、显存和模型体积。

第23页
#

不足和展望方面，后续可以从三点继续做：算法上加入多尺度特征融合和注意力机制；数据集上扩展到 Scene Flow、KITTI 等更多场景；部署上继续探索 INT8 量化和剪枝，并在 Jetson 这类边缘设备上测试实时性和功耗。

第24页
#

以上就是我的全部汇报。本文围绕 RAFT-Stereo，从精度优化和轻量化部署两个角度进行了实验分析。恳请各位老师批评指正，谢谢各位老师。

改进建议
#

不要因为图片留出大范围的空白。
把第二章中的匹配优化部分独立出来。
修改几个老师提到的格式问题。
缺少卷号的参考文献补充一下卷号
第四章添加一个引言

陈磊毕设答辩讲稿 2000字逐页口语版#

第1页#

第2页#

第3页#

第4页#

第5页#

第6页#

第7页#

第8页#

第9页#

第10页#

第11页#

第12页#

第13页#

第14页#

第15页#

第16页#

第17页#

第18页#

第19页#

第20页#

第21页#

第22页#

第23页#

第24页#

改进建议#