鞭笞AI给我思路 - Fishのblog

YOLA#

朗伯假设<根据双色反射模型的体反射项>, $C_{p_i}$ 的值可用离散形式表示为:

C_{p_i}=m(\vec{n}_{p_i},\vec{l}_{p_i})e^{C_{p_i}}(\lambda)\rho^{C_{p_i}}(\lambda)

交叉颜色比率<考虑两个相邻像素>,分别表示为 $p_{1}$ 和 $p_{2}$ ,以及红色 $(R)$ 和蓝色 $(B)$ 通道,我们可以通过以下计算步骤确定红蓝通道之间的比率 $M_{rb}$ :

M_{rb}=\frac{R_{p_1}B_{p_2}}{R_{p_2}B_{p_1}}

对 $M_{rb}$ 取对数并用公式 $C_{p_i}=m(\vec{n}_{p_i},\vec{l}_{p_i})e^{C_{p_i}}(\lambda)\rho^{C_{p_i}}(\lambda)$ 替换像素值后,我们得到:

\begin{aligned}\begin{aligned}log(M_{rb})=log(m(\vec{n_{p_1}},\vec{l_{p_1}}))-log(m(\vec{n_{p_1}},\vec{l_{p_1}}))\end{aligned}\\+log(e^{R_{\boldsymbol{p}_1}}(\lambda))-log(e^{R_{\boldsymbol{p}_2}}(\lambda))\\+log(\rho^{R_{\boldsymbol{\underset{1}{p}}}}(\lambda))-log(\rho^{R_{\boldsymbol{\underset{2}{p}}}}(\lambda))\\+log(m(\vec{n_{p_2}},\vec{l_{p_2}}))-log(m(\vec{n_{p_2}},\vec{l_{p_2}}))\\+log(e^{B_{\boldsymbol{p}_2}}(\lambda))-log(e^{B_{\boldsymbol{p}_1}}(\lambda))\\+log(\rho^{B_{p_2}}(\lambda))-log(\rho^{B_{p_1}}(\lambda))\end{aligned}

基于 $e^{C_{p_1}}\approx e^{C_{p_2}}$ 的光照假设,上述方程可进一步简化为光照不变形式:

\begin{aligned}log(M_{rb})&=log(\rho^{R_{p_1}}(\lambda))-log(\rho^{R_{p_2}}(\lambda))\\&+log(\rho^{B_{p_2}}(\lambda))-log(\rho^{B_{p_1}}(\lambda))\end{aligned}

可学习核。目标是将固定的光照不变特征转化为可学习形式。具体而言,我们旨在学习一组卷积核 $\mathcal{W}_1,\mathcal{W}_2,\cdots\mathcal{W}_n^{\in k\times k}$ ,其中 $n$ 表示核的数量, $k$ 表示核大小。此处,我们将固定特征扩展为更具通用性和泛化性的形式。设 $p_{i}$ 和 $w_{i}$ 表示核 $\mathcal{W}_{n}$ 内的一组像素位置及其对应权重,其中 $i=0,1,\cdots k^2$ 。这些参数使我们能够将交叉颜色比率 (CCR) 演变为可适应形式, 从而提升其有效处理不同光照条件的能力。请注意 $w_{i}$ 是可训练的,这使得正负极性变得无关紧要

M_{rb}=\prod_{\binom{i,j=1}{i\neq j}}^{k^2}\left(\frac{R_{p_i}}{B_{p_i}}\right)^{w_i}\left(\frac{B_{p_j}}{R_{p_j}}\right)^{w_j}

为使扩展形式仍满足光照不变性, $M_{rb}$ 的对数需满足以下约束条件:

\begin{cases}\sum_i^{k^2}w_ilog(e^{R_{p_i}}(\lambda))=0\\\sum_i^{k^2}w_ilog(e^{B_{p_i}}(\lambda))=0&&\end{cases}

如果上述等式成立，e 项和 m 项将被消除。最终特征可以用以下广义形式表示：

\log(M_{rb})=\sum_i^{k^2}w_i\log(\rho^{R_{p_i}}\left(\lambda\right))-\sum_i^{k^2}w_i\log(\rho^{B_{p_i}}\left(\lambda\right))

将核 $\mathcal{W}_i$ 应用于图像 $I$ 所得到的特征，记为 $f_{\mathcal{W}_i}(I)$ ，可以表示为：

f_{\mathcal{W}_i}(I)=\left[\begin{array}{c}\mathcal{W}_i\circledast \log(R)+(-\mathcal{W}_i)\circledast \log(B)\\\mathcal{W}_i\circledast \log(R)+(-\mathcal{W}_i)\circledast \log(G)\\\mathcal{W}_i\circledast \log(G)+(-\mathcal{W}_i)\circledast \log(B)\end{array}\right]

零均值约束（Zero mean constraint）：根据公式 $\begin{cases}\sum_i^{k^2}w_i\log(e^{R_{p_i}}(\lambda))=0\\\sum_i^{k^2}w_i\log(e^{B_{p_i}}(\lambda))=0&&\end{cases}$ 以及近似 $e^{R_{p_{i}}}\approx e^{B_{p_{i}}}$ ，在卷积核的语境下，我们只需确保 $\mathcal{W}_n^{\in k\times k}$ 的均值为 0，如下所示：

\overline{\mathcal{W}_n}=\frac{1}{k^2}\sum_{i=1}^{k^2}w_i=0

FRBNet#

受 Phong 光照模型中加性分解（additive decomposition）的启发，我们引入了一种适应真实低光场景的朗伯模型（Lambertian model）扩展版本。我们将局部光源重新解释为非均匀高光，其表示如下：

I_C(x, y) = m[\vec{n}(x, y), \vec{l}(x, y)] \cdot \varphi_C(x, y) \cdot \rho_C(x, y) + S_C(x, y), \tag{2}

其中 $S_C$ 代表空间不规则的高光分量，可进一步定义为：

S_C(x, y) = H_C(x, y) \cdot m[\vec{n}(x, y), \vec{l}(x, y)] \cdot \varphi_C(x, y) \cdot \rho_C(x, y), \tag{3}

这里 $H_C$ 表示高光干扰的相对强度。为简化符号，我们定义 $D_C(x, y) = m[\vec{n}(x, y), \vec{l}(x, y)] \cdot \varphi_C(x, y) \cdot \rho_C(x, y)$ 为标准漫反射分量。将其代入公式 (2) 并重新排列各项，我们得到一个更简洁的表达式：

I_C(x, y) = D_C(x, y) + S_C(x, y) = D_C(x, y) \cdot (1 + H_C(x, y)). \tag{4}

利用通道比（Channel Ratios, CR）来分离光照不变特征已被证明对低光视觉任务有效 [44, 17, 5]。以红通道 $R$ 和绿通道 $G$ 之间的通道比为例，根据我们的扩展广义低光模型，其对数变换公式可表示为：

\begin{aligned} \text{CR}_{RG} &= \log \left(\frac{I_R}{I_G}\right) = \log \left(\frac{\varphi_R \cdot \rho_R \cdot (1 + H_R)}{\varphi_G \cdot \rho_G \cdot (1 + H_G)}\right) \\ &= \log \varphi_R - \log \varphi_G + \log \rho_R - \log \rho_G + \log(1 + H_R) - \log(1 + H_G). \end{aligned} \tag{5}

如公式 (5) 所示，来自高光项的非线性残差破坏了光照和反射率的清晰分离，限制了空间域通道比方法的有效性。为了克服这些限制，我们将分析转移到频域。在频域中，光照和反射分量自然地占据不同的频带 [60]，从而能够更有效地分离光照不变特征。受先前空间域通道比工作 [44, 17, 5] 的启发，我们创新性地提出了频域通道比（Frequency-domain Channel Ratio, FCR）：

\begin{aligned} \text{FCR}_{RG} &= \mathcal{F}[\log(\frac{I_R}{I_G})] \\ &= \mathcal{F}[\log \varphi_R - \log \varphi_G] + \mathcal{F}[\log \rho_R - \log \rho_G] + \mathcal{F}[\log(1 + H_R) - \log(1 + H_G)], \end{aligned} \tag{6}

其中 $\mathcal{F}[\cdot]$ 代表傅里叶变换算子。为了处理非线性残差项 $\Delta = \mathcal{F}[\log(1 + H_R) - \log(1 + H_G)]$ ，我们应用了一阶泰勒展开（first-order Taylor expansion）。鉴于数据中的显著贡献通常是稀疏且局部的，我们假设 $H_C \in [0, 1)$ 具有相对较小的幅度，允许我们将 $\log(1 + H_C)$ 近似为 $H_C + \mathcal{O}(H_C^2)$ 。

在上述假设下，通过忽略高阶项，我们可以得到 $\Delta$ 的线性化近似如下：

\Delta = \mathcal{F}[H_R - H_G] = \mathcal{H}_R - \mathcal{H}_G, \tag{7}

其中 $a_R, a_G$ 代表幅度项， $\theta_R, \theta_G$ 表示相位分量。为了表征通道间的相位关系，我们引入了频域相关系数 $Cor_{RG} = e^{i(\theta_G - \theta_R)}$ （推导自 A.2，见 [56]），它量化了频域中通道响应之间的角位移。这使我们能够将 $\Delta$ 重写为：

\Delta = e^{i\theta_R} \cdot \left(a_R - a_G \cdot e^{i(\theta_G - \theta_R)}\right) = e^{i\theta_R} \cdot (a_R - a_G \cdot Cor_{RG}), \tag{9}

这种因式分解揭示了残差项被构建为一个相位调制（phase-modulated）分量，其中 $e^{i\theta_R}$ 作为载波相位，而 $(a_R - a_G \cdot Cor_{RG})$ 编码了由通道间相位相关性调制的幅度差异。

最后，频域通道比的最终公式可以总结为：

\text{FCR}_{RG} = \underbrace{\mathcal{F}[\log \varphi_R - \log \varphi_G]}_{\text{illumination (光照)}} + \underbrace{\mathcal{F}[\log \rho_R - \log \rho_G]}_{\text{reflectance (反射率)}} + \underbrace{e^{i\theta_R}(a_R - a_G \cdot Cor_{RG})}_{\text{high-lit residual (高光残差)}}. \tag{10}

利用谱分离的固有特性和残差项的相位调制结构，我们设计了专门的滤波策略，旨在鲁棒地提取光照不变特征，从而提高在不同光照条件下特征提取的可靠性和有效性。

频域中的光照不变特征增强过程#

为了增强光照不变特征，所提出的 FRBNet 首先将通道比的操作转换到频域。根据第 3.2 节中提出的 FCR 函数，在频域中利用通道间的关系。定义空间域中的输入图像为 $\mathbf{I}(x, y)$ ，对于每一对通道，FCR 通过带有可学习频率参数 $(u, v)$ 的频域对数差分来实现：

\begin{cases} \text{dif}^{RG}(u, v) = \mathcal{F}[\log I_R(x, y)] - \mathcal{F}[\log I_G(x, y)] \\ \text{dif}^{GB}(u, v) = \mathcal{F}[\log I_G(x, y)] - \mathcal{F}[\log I_B(x, y)] \\ \text{dif}^{BR}(u, v) = \mathcal{F}[\log I_B(x, y)] - \mathcal{F}[\log I_R(x, y)]. \end{cases} \tag{11}

接下来，我们设计了一个可学习频域滤波器（Learnable Frequency-domain Filter, LFF），用于减少低光图像中光照和高光残差项对每一对通道鲁棒特征提取的影响。它由一个零直流频率窗口（zero-DC frequency window）和一个改进的径向基滤波器组成。频率响应特征 $\mathbf{F}_{\text{inv}}(u, v)$ 可以表示为：

\begin{cases} F_{\text{inv}}^{RG}(u, v) = LFF^{RG}(u, v) \cdot \text{dif}^{RG}(u, v) \\ F_{\text{inv}}^{GB}(u, v) = LFF^{GB}(u, v) \cdot \text{dif}^{GB}(u, v) \\ F_{\text{inv}}^{BR}(u, v) = LFF^{BR}(u, v) \cdot \text{dif}^{BR}(u, v). \end{cases} \tag{12}

然后，滤波后的频谱特征被变换回空间域。所有通道对（R & G, G & B, B & R）的结果特征被拼接在一起：

\mathbf{F}_{\text{inv}}(x, y) = \text{Cat} \left(\mathcal{F}^{-1} \left[F_{\text{inv}}^{RG}(u, v)\right] ; \mathcal{F}^{-1} \left[F_{\text{inv}}^{GB}(u, v)\right] ; \mathcal{F}^{-1} \left[F_{\text{inv}}^{BR}(u, v)\right]\right), \tag{13}

其中 $\mathcal{F}^{-1}$ 代表傅里叶逆变换，Cat 代表拼接操作。为了进一步将来自频域的增强光照不变特征与来自原始图像的空间域特征相结合，我们采用了一个参考 [5] 的通用融合模块进行整合：

\mathbf{F}_{\text{out}} = \text{Conv} \{\text{CB} [\text{Cat} (\text{CB}[\mathbf{F}_{\text{inv}}(x, y)]; \text{CB}[\mathbf{I}(x, y)])]\}, \tag{14}

其中 Conv 是卷积，而 CB 是卷积后接批归一化（Batch Normalization, BN）。最后，输出特征 $\mathbf{F}_{\text{out}}$ 被送入下游任务网络。

可学习频域滤波器 (Learnable Frequency-domain Filter)#

我们方法的核心是可学习频域滤波器（LFF），它自适应地处理频谱分量。该滤波器由两个互补的元素组成：用于衰减低频光照的零直流频率窗口（Zero-DC Frequency Window） $\mathbf{W_g}$ ，以及用于编码谱距离和方向信息的改进径向基滤波器（Improved Radial Basis Filter） $\mathbf{H}(u, v)$ ，其公式如下：

\mathbf{LFF}(u, v) = \mathbf{W_g} \cdot \mathbf{H}(u, v). \tag{15}

零直流频率窗口 (Zero-DC Frequency Window)。 为了在保留结构信息的同时抑制不需要的光照，我们采用了一个以频率平面原点为中心的高斯窗口：

\mathbf{W_g}(u, v) = \exp \left( -\frac{\mathbf{r}(u, v)^2}{\sigma_w^2} \right), \quad \mathbf{r}(u, v) = \sqrt{u^2 + v^2}, \tag{16}

其中 $\sigma_w$ 是可学习的带宽参数， $\mathbf{r}(u, v)$ 表示归一化的径向频率坐标。为了消除直流（DC）分量，显式地设定 $\mathbf{W_g}(0, 0) = 0$ ，这确保了滤波器在去除全局亮度偏差的同时，保留用于局部结构线索的中高频信息。

改进径向基滤波器 (Improved Radial Basis Filter)。 为了构建一个具有光谱自适应性和方向选择性的滤波器，我们采用了一组可学习的径向基函数（RBFs）并结合角度调制。RBF 可以捕捉频率幅度选择性，而角度项可以引入方向敏感性，从而在傅里叶域实现各向异性滤波。定义一组以预定义频率半径 $\mu_k \in [0, 1]$ 为中心的 $K$ 个径向基函数 $\phi(u, v)$ ：

\phi_k(u, v) = \exp \left( -\frac{(r(u, v) - \mu_k)^2}{2\sigma_h^2} \right), k = [1, 2, \cdots, K] \tag{17}

其中 $r(u, v)$ 是如前定义的归一化径向频率， $\sigma_h$ 是所有基函数共享的可学习带宽参数。通过加权线性组合的可学习系数 $a_k$ ，最终的径向响应为：

\Phi(u, v) = \sum_{k=1}^{K} a_k \cdot \phi_k(u, v), k = [1, 2, \cdots, K] \tag{18}

此外，参考第 3.2 节中的相位导向残差结构，干扰项表现出主导的方向分量。径向响应进一步通过由方向角的正弦谐波构建的角度项进行调制，以捕捉方向选择性：

M(u, v) = 1 + \lambda \cdot \sum_{n=1}^{N} [\cos(n\theta(u, v)) + \sin(n\theta(u, v))], \quad \theta(u, v) = \arctan \left(\frac{v}{u + \epsilon}\right), \tag{19}

其中 $N$ 是角频率的数量， $\lambda$ 控制调制强度。最终的频域径向基滤波器响应由下式给出：

\mathbf{H}(u, v) = \Phi(u, v) \cdot M(u, v). \tag{20}

通过整合角度谐波，改进后的径向基滤波器既具有光谱局部性又具有方向响应性，能够以数据驱动的方式对齐或抑制这些定向残差，这对于在衰减结构化干扰的同时隔离光照不变特征至关重要。

需求#

针对低光检测，YOLA总结前人经验，得出适合人类视觉的低光图像增强并不适合下游检测器，反而可能导致性能的下降，于是在朗伯体漫反射先验的条件下，利用交叉色比提取图像的固有属性（intrinsic property (reflectance)），并证明了这种光照不变特征有利于下游检测器的性能提升，但是由于真实世界的图像并不完全是漫反射，还具有其他干扰，FRBNet提出YOLA模型过于理想化，并未考虑高光（The Lambertian model assumes purely diffuse reflection, where light is scattered uniformly across the surface. However, real-world low-light images (Fig. 1(b)) frequently contain complex and spatially localized light sources, including streetlights, vehicle headlights, and neon signs. These sources contradict the idealized diffuse reflection assumption underlying the Lambertian model），提出加入非均匀高光项（Motivated by the additive decomposition in the Phong illumination model [45]( A.1 for details), we introduce an extended version of the Lambertian model adapted to real-world low-light scenes by reinterpreting the localized light sources as non-uniform highlights），但是交叉色比便消除不了高光项了，于是转入了频域操作消除高光项并得到光照不变特征。我想知道是否有其他的方法消除高光项，或者就是能够即插即用，不需要制作复杂的数据集的增强下游检测器性能的模块化方法。此外已经做了一些尝试： 1.对于预测高光然后消除，仅仅只用相关损失函数或者新的预测网络并不能学习到如何预测高光。本征图像分解依然是你如何保证有效的分解而不是根本学不会。 2.对于类似DENet，FeatEnHancer等类似方法，是加了一个所谓的多尺度特征，虽然可能确实有效，但是很黑箱，给不了我什么启发 3.没有raw文件，只有Exdark和darkface等低光目标检测数据集 4.通过实验发现若不把光照不变特征与原始RGB特征卷积融合，只使用光照不变特征，则检测精度急剧下降，只有30左右的mAP 5.注意到 $\begin{aligned}log(M_{rb})&=log(\rho^{R_{p_1}}(\lambda))-log(\rho^{R_{p_2}}(\lambda))\\&+log(\rho^{B_{p_2}}(\lambda))-log(\rho^{B_{p_1}}(\lambda))\end{aligned}$ 交叉色比得到的不是纯单通道光照不变特征，而是不同像素的不同通道的光照不变特征的和或者差

请给我要么数学上能顺理成章推导（可以使用已有的合理假设或近似）理论要有现实依据（从什么地方获得启发）而不是靠猜测，最多有一个猜测点，而且还要实验证明猜测正确，要么使用该方法的理由比较合理，总之言之有理，不一定局限于物理模型先验，可以借鉴很多其他交叉领域，比如像clip（不能我提到clip你就选clip，要从逻辑分析：clip能比有监督学习学到更好的本质特征，鲁棒性和泛化性更强，是否可以巧妙引入到低光检测？）这种。即插即用的可学习模块，懂？