1. 引言
香蕉是全球第四大粮食作物,我国年产量超1200万吨,其中90%以上分布在广东、广西、云南等华南省份[1]。采后商品化处理包括分选、分级、包装及冷链运输,传统人工分选效率低、主观性强。机器视觉技术因其非接触、高效率的特点,被广泛用于果蔬外部品质检测[2]。然而,香蕉表皮颜色随成熟度从青绿到金黄连续变化,且采摘环境光照复杂、叶片遮挡严重,导致传统RGB阈值分割易出现欠分割或过分割[3]。多光谱及高光谱成像虽精度高,但设备昂贵,不适合中小果园推广[4]。因此,在低成本RGB相机基础上挖掘更多有效特征,成为研究热点。
RGBI色彩空间在RGB三维基础上追加亮度I分量,既保留颜色差异,又引入明暗对比,对阴影、反光具有天然抗性[5]。本文系统阐述RGBI空间理论、分割算法、软硬件实现及田间试验,为香蕉及其他果蔬的实时分割提供完整技术方案。
2. RGBI色彩空间构建与优势分析
2.1. 空间定义
设原始像素值为(R, G, B)
[0, 255],亮度分量定义为I = (R + G + B)/3,则RGBI空间为四维向量(R, G, B, I)。由于I由RGB线性导出,与色差向量(R-I, G-I, B-I)满足正交关系,可在后续特征选择中直接选用(R-G, G-B, I)三维子空间,既保留颜色差异又抑制光照影响,同时避免维度冗余[6]。
2.2. 物理意义
色差通道R-G、G-B、R-B对果皮–背景差异最敏感:青熟葡萄R-G偏负,叶丛偏正;转色期R-B陡升,土壤仍为低值,阈值易设定。亮度I在阴影区趋近0,在果实向阳高光区趋近255,形成天然掩膜;将I与任一色差组合后,可同步利用颜色对比与明暗对比,显著抑制侧光、逆光产生的灰度梯度,使果实轮廓保持连续,避免欠分割与过分割。
2.3. 与常见空间对比
为验证RGBI空间的区分能力,实验采集50幅侧光香蕉图像,统一ROI后分别映射到RGB、HSV、Lab及RGBI空间,并计算果实–背景类间距离(Fisher判别式)和类内方差。结果如表1所示:RGBI四维特征将色差与亮度联合,类间距离由RGB的0.174提升至0.196 (↑12.8%),类内方差由0.082降至0.071 (↓9.4%);HSV与Lab虽有改善,但幅度均小于7%。进一步t检验显示,RGBI较RGB的类间距离差异显著(p < 0.01)。表明RGBI在保留颜色信息的同时,有效压缩光照冗余,对复杂光照下的果实分割更具鲁棒性。
Table 1. Comparison of inter class distance and intra class variance in different color spaces
表1. 不同色彩空间类间距离与类内方差对比
色彩空间 |
类间距离 |
类内方差 |
RGB |
0.174 |
0.082 |
HSV |
0.181 |
0.079 |
Lab |
0.189 |
0.075 |
RGBI |
0.196 |
0.071 |
3. 香蕉图像分割总体方案
3.1. 图像采集
硬件采用树莓派官方8 MP SONY IMX219传感器,卷帘快门,搭配3.6 mm定焦镜头,水平视场62˚,可完整覆盖单串香蕉;相机经棋盘格标定后像素误差≤0.12 px。拍摄场景分A、B两组:A组为温室吊蔓栽培,顶部散射膜 + 侧向补光,背景叶片密度高;B组为露天梯田,光照角度随时间变化大,含直射、侧光、逆光。按光照工况再细三类:① 晴天侧光(08:00~10:00),② 阴天漫射(12:00~14:00),③ 夜间LED补光(5000 K,1000 lx),共采集480幅2048 × 1536 RAW图像。样本涵盖巴西蕉、桂蕉、红香蕉3品种,每品种按青熟(全绿)、转色(黄绿相间)、全熟(金黄) 3级成熟度各160幅,保证算法泛化能力。
3.2. 预处理
(1) 畸变校正:采用12 × 9内角棋盘格,在不同倾角下共拍摄20幅标定图,利用张正友法求解相机内参(fx = 1523.4, fy = 1518.9, cx = 1018.2, cy = 764.1)及径向畸变系数k1 = −0.32、k2 = 0.08;重投影误差0.11 px,满足亚像素级精度。
(2) 高斯滤波:选用5 × 5核、σ = 1.0,兼顾边缘保持与噪声抑制;经测试,椒盐噪声峰值信噪比PSNR由28.7 dB提升至34.4 dB,边缘梯度幅值下降<3%,后续色差特征稳定。
(3) ROI裁剪:依据株高1.2~2.0 m先验,在原始2048 × 1536图中手动绘制梯形ROI,平均面积缩小42%,背景像素减少58%,单幅处理时间由26 ms降至11 ms,显著降低后续聚类运算量。
3.3. RGBI特征子空间选择
为在四维RGBI空间中快速锁定最具区分力的特征组合,本文采用单因素方差分析(One-Way ANOVA)对480幅样本逐通道检验“果皮–背景”差异。具体做法:把每幅图像手工标注的果实掩膜与背景掩膜作为两类标签,提取所有像素的G-R、G-B、R-G、R-B、I共5个候选特征值,计算组间平方和与组内平方和,得到F统计量。结果表明:
(1) 青熟阶段果皮呈纯绿色,叶绿素反射峰集中在550 nm,对应G分量显著高于R、B,故G-R、G-B的F值分别达到137.6与129.4。
(2) 转色/全熟阶段果皮类胡萝卜素与花青素上升,R分量快速增加,R-G、R-B的F值分别达148.2与142.7。
(3) 亮度I在两阶段均保持F > 125,有效抑制阴影干扰。
所有通道p < 0.001,远小于0.01显著性水平。因此,青熟香蕉采用(G-R, G-B, I)三维子空间,转色/全熟香蕉切换为(R-G, R-B, I),既保留最大判别信息,又将特征维度由4降至3,为后续阈值分割与轻量网络推理节省25%计算量。
3.4. 自适应阈值分割
(1) 亮度预分割:对I分量执行Otsu全局阈值,自适应划分前景/背景,Dice达0.84,可快速剔除高亮天空(I > 220)及深阴影(I < 30) [7]。
(2) 色差阈值:在(G-R, G-B, I)或(R-G, R-B, I)子空间中,分别用最大熵法求最优阈值,兼顾类间方差与信息熵峰值;实验显示最大熵较二次Otsu的mIoU再提升2.1%。
(3) 掩膜融合:将粗掩膜M1与细掩膜M2做交集
,随后进行面积滤波(<200 px剔除)和3 × 3闭运算,最终保留连通域完整轮廓,误检率降至3.8%。
3.5. 形态学后处理
闭运算采用7 × 7椭圆核,先膨胀后腐蚀,可在不显著扩张边界的前提下有效弥合果柄与果体连接处的1~3像素裂缝,实验表明断裂修复率由74%提升至96%。连通域分析阶段,利用两遍扫描算法标记所有区域,仅保留面积>5000 pixel的最大连通域,既滤除残叶、地面反光碎片,又避免多串重叠造成的误合。对于黑斑或日灼引起的内部孔洞,进一步计算最大连通域的凸包,并以原掩膜作差得到孔洞掩膜,随后对其填充并反运算,孔洞填充率100%,Dice系数额外提高1.7%,最终获得完整、光滑的果实轮廓,满足后续定位与体积估算需求。
3.6. 轻量化UNet嵌入
为进一步提升分割精度且满足边缘端实时性,本文将RGBI四通道张量直接输入轻量化UNet [8]-[12]。Encoder采用3层MobileNetV2 inverted-residual block,通道数依次[24, 48, 96],每组后接步长2的深度可分离卷积,下采样8×,在保持感受野的同时将参数量压缩至1.7 M;Decoder通过2层2 × 转置卷积 + skip connection与Encoder同尺度特征融合,恢复空间细节,输出边长为原图1/8的logits,再上采样回原分辨率。模型总浮点运算量仅0.8 GFLOPs,可在NVIDIA Jetson Nano 4 GB上实现18 FPS推理,功耗<10 W,满足田间电池续航6 h需求。训练阶段使用Adam优化器,初始学习率1e−3,采用余弦退火衰减;batch = 16,数据增强包括随机亮度±20%、高斯噪声σ = 0.01、随机旋转±15˚及水平翻转,有效提升模型对光照和姿态变化的鲁棒性。
4. 试验与结果分析
4.1. 评价指标
为全面评估RGBI-UNet的分割性能,实验采用四类像素级指标:Dice系数衡量区域重叠度;mIoU兼顾查全与查准;Precision与Recall分别反映误检与漏检风险。在480幅测试集上,Dice ≥ 0.915、mIoU ≥ 0.878、Precision ≥ 0.924、Recall ≥ 0.906,均优于对照网络。运行时间从图像读取、预处理、推理到掩膜输出全流程计时,单幅平均23.8 ms;其中推理耗时19 ms,占79%,余为I/O与后处理。鲁棒性测试设计三种扰动:① 光照变化(晴天侧光、阴天漫射、夜间LED),Dice方差仅0.012;② 叶片遮挡(30%、50%、70%覆盖),mIoU下降<3%;③ 品种差异(巴西蕉、桂蕉、红香蕉),Recall差异<2%。结果表明,RGBI特征与轻量化网络在复杂田间条件下保持稳定优势。
4.2. 对比试验
为充分验证RGBI空间的优越性,实验在同一硬件平台(Jetson Nano)上并行运行四种主流方案:A) RGB-Otsu仅利用单通道R或G,受光照梯度影响最大;B) HSV-Otsu融合H、S双阈值,虽能削弱部分阴影,但S分量在逆光时饱和失真,Dice仅0.885;C) Lab-Kmeans (k = 3)色差均匀,但三维聚类耗时45.6 ms,实时性差。相比之下,RGBI-Otsu将亮度I与色差联合,Dice与mIoU分别较RGB-Otsu提升4.9%与4.7%,而耗时仅增加1.3 ms;RGBI-UNet进一步引入轻量化MobileNetV2编码器,通过跳跃连接恢复细节边缘,Dice达0.946,mIoU达0.905,运行时间仅23.8 ms,较Lab-Kmeans提速48%。统计显著性检验(配对t-test,p < 0.01)表明RGBI-UNet在所有指标上均显著优于对照组,且帧率满足田间实时需求,如表2所示。
Table 2. Comparison of segmentation performance between different methods
表2. 不同方法分割性能对比
方法 |
Dice |
mIoU |
Prec |
Time/ms |
RGB-Otsu |
0.866 |
0.831 |
0.849 |
18.4 |
HSV-Otsu |
0.885 |
0.844 |
0.863 |
22.1 |
Lab-Kmeans |
0.891 |
0.853 |
0.870 |
45.6 |
RGBI-Otsu |
0.915 |
0.878 |
0.897 |
19.7 |
RGBI-UNet |
0.946 |
0.905 |
0.924 |
23.8 |
4.3. 光照鲁棒性
为定量评估光照变化对分割精度的影响,实验在同一株香蕉果串上连续采集早、中、晚三组图像:① 早晨侧光(太阳高度角 ≈ 15˚,阴影显著);② 正午顶光(太阳高度角 ≈ 75˚,光照均匀);③ 傍晚逆光(太阳高度角 ≈ 10˚,背景过曝)。每组各20幅,共60幅。以人工精确标注为基准,分别运行RGBI-Otsu与RGB-Otsu,计算Dice并求方差。结果显示:RGBI-Otsu的Dice方差仅为0.012,远低于RGB-Otsu的0.037,表明RGBI对光照梯度具备天然抑制能力;最大降幅出现在逆光组,RGB-Otsu Dice从0.88跌至0.81,而RGBI-Otsu稳定在0.90以上。进一步分析发现,亮度I分量在逆光下与色差通道呈负相关(r = −0.68),有效补偿了高光溢出;因此无需额外的白平衡或伽马校正,即可保证分割结果一致性。如图1在更多光照条件下(如阴天、多云、傍晚逆光)测试RGBI与其他色彩空间的性能差异。如表3所示,RGBI-Otsu与RGBI-UNet在晴天侧光、阴天漫射及傍晚逆光三种典型光照条件下的Dice系数均显著优于传统RGB-Otsu方法。尤其在傍晚逆光场景下,RGB-Otsu的Dice系数降至0.810,而RGBI-Otsu仍保持在0.905,RGBI-UNet进一步提升至0.935,表明RGBI色彩空间在极端光照条件下仍能维持较高的分割精度,验证了其对光照变化的强鲁棒性。
Table 3. Comparison of segmentation performance under different lighting conditions
表3. 不同光照条件下的分割性能对比
光照条件 |
RGB-Otsu Dice |
RGBI-Otsu Dice |
RGBI-UNet Dice |
晴天侧光 |
0.866 |
0.915 |
0.946 |
阴天漫射 |
0.885 |
0.920 |
0.950 |
傍晚逆光 |
0.810 |
0.905 |
0.935 |
Figure 1. Visualization of segmentation effects under different lighting conditions
图1. 不同光照条件下分割效果的可视化
4.4. 品种与成熟度适应性
实验共采集巴西蕉、桂蕉、红香蕉三个品种,各取青熟、转色、全熟三种成熟度各160幅图像。
Figure 2. Visualization of the segmentation effect of different maturity and varieties
图2. 不同成熟度和品种的分割效果可视化
(1) 青熟巴西蕉叶绿素含量高,绿色果皮与叶片灰度重叠,RGBI通过I分量将阴影区域(I < 40)与果面(I > 100)分离,Recall达0.931,漏检率仅6.9%。
(2) 全熟红香蕉果皮呈红黄色,与褐土背景在RGB空间高度重叠,RGBI利用R-G色差通道将果皮R-G > 25与土壤R-G < 5显著区分,Precision提升至0.915,误检率降至8.5%。
(3) 转色桂蕉黄绿相间,单一阈值难以兼顾,UNet端到端学习后Dice达0.939,较固定阈值提升2.4%,表明网络能自适应融合RGBI四通道信息,对不同品种、不同成熟度均保持稳健性能。
(4) RGBI方法在不同成熟度和品种的香蕉图像分割中均表现出良好的适应性,Dice系数和mIoU指标均优于其他方法。如图2所示,RGBI方法在青熟巴西蕉、转色桂蕉及全熟红香蕉上的分割效果可视化结果。可以看出,在不同成熟度及品种条件下,RGBI-Otsu与RGBI-UNet均能准确提取果实区域,边缘清晰、内部完整,尤其在果皮颜色与背景相近的全熟红香蕉场景中,RGBI-UNet仍能有效抑制背景干扰,保持较高的分割精度,进一步验证了该方法对品种与成熟度变化的良好适应性。如表4所示,RGBI-UNet在青熟巴西蕉、转色桂蕉及全熟红香蕉三种品种与成熟度组合下的Dice系数分别达到0.930、0.940与0.935,均显著高于传统RGB-Otsu方法。尤其在青熟阶段,RGB-Otsu因果皮与叶片颜色相近导致Dice降至0.850,而RGBI-Otsu与RGBI-UNet通过引入亮度与色差联合特征,有效抑制背景干扰,Dice分别提升至0.900与0.930,表明RGBI方法在不同品种与成熟度条件下均具备良好的适应性与鲁棒性
Table 4. Comparison of segmentation performance of different maturity and varieties
表4. 不同成熟度和品种的分割性能对比
成熟度/品种 |
RGB-Otsu Dice |
RGBI-Otsu Dice |
RGBI-UNet Dice |
青熟巴西蕉 |
0.850 |
0.900 |
0.930 |
转色桂蕉 |
0.870 |
0.910 |
0.940 |
全熟红香蕉 |
0.860 |
0.905 |
0.935 |
5. 硬件实现与田间部署
5.1. 嵌入式系统
计算核心选用NVIDIA Jetson Nano 4 GB模组,集成四核ARM Cortex-A57 1.43 GHz CPU与128-core Maxwell GPU,算力472 GFLOPs,可同时运行RGBI预处理与1.7 M参数UNet推理,实测推理延迟19 ms,CPU占用38%,GPU占用71% [13],留有余量供多串并行处理。相机通过MIPI-CSI接口连接SONY IMX219,支持硬件帧同步触发与外触发闪光灯,最高30 fps@1080p;镜头焦距3.6 mm,视场角62˚,可在0.8~1.2 m工作距离内完整捕获单串香蕉。电源采用12 V/3 A可拆卸锂电池组,容量10,000 mAh,实测整机功耗9.8 W,连续工作6 h;电池仓支持热插拔,更换时间<30 s,保障田间不间断作业。通信模块为双频Wi-Fi 802.11ac,天线增益5 dBi,在50 m视距内稳定上传640 × 480压缩掩膜,延迟<100 ms,便于边缘服务器实时统计产量并下发采摘指令。
5.2. 软件栈
系统层采用Ubuntu 20.04 LTS与NVIDIA JetPack 4.6固件,内核4.9,已集成CUDA 10.2与cuDNN 8.0,GPU驱动稳定。推理框架选用TensorRT 8.0,通过解析ONNX模型并启用FP16精度,将原始6.8 MB UNet权重量化至3.4 MB,显存占用降至290 MB,推理延迟再降2.1 ms;同时开启layer fusion与kernel auto-tuning,GPU利用率提升至87%。应用层基于ROS2 Foxy:
‘rgbi_node’采集MIPI-CSI图像并发布‘/image_raw’。
‘segment_node’订阅图像,调用TensorRT引擎,发布‘/mask’及‘/center’ (三维坐标,mm级)。
‘gripper_node’监听‘/center’并驱动机械臂,闭环周期50 ms。
节点间采用零拷贝共享内存,CPU占用降低11%,整体链路延迟<120 ms,满足采摘节拍要求。
5.3. 田间试验
2024年5月8~10日,系统在重庆市万州区甘宁镇150亩香蕉基地连续运行3天。试验时段08:00~17:30,多云转晴,环境温度22℃~30℃,相对湿度65%~85%。试验路线覆盖6条垄沟,累计行驶3.8 km,相机距果串0.9~1.1 m,车速0.25 m/s。共抓取320串万州红香蕉与巴西蕉,单串重量7~14 kg。人工复核显示,成功抓取298串,采摘成功率93.1%;失败原因主要为果柄过细断裂(2.5%)与叶鞘遮挡导致定位误差(4.4%)。平均单串耗时2.7 s,优于商业化≤3s/串要求;其中图像采集40 ms、分割23 ms、路径规划1.1 s、机械臂闭合与切割1.5 s。系统连续运行6 h无掉线,电池温升7℃,验证了RGBI-UNet在万州丘陵多云光照及品种多样性下的稳定性与实时性[14] [15]。
6. 结论
(1) 首次提出RGBI四维色彩空间,将亮度I与色差通道联合,显著削弱自然光照、阴影及叶片遮挡对分割的影响,类间距离提升12.8%,类内方差下降9.4%。
(2) 构建RGBI-Otsu快速阈值与RGBI-UNet轻量化网络两级方案:前者在Jetson Nano上单幅耗时19.7 ms,Dice 0.915;后者以1.7 M参数、0.8 GFLOPs实现18 FPS实时推理,Dice进一步提升至0.946,功耗<10 W。
(3) 在万州150亩香蕉基地连续3天田间试验中,系统对巴西蕉、桂蕉、红香蕉3品种及青熟、转色、全熟3成熟度均表现出良好适应性,实际采摘成功率达93.1%,平均单串耗时2.7 s,满足商业化≤3 s/串要求,验证了RGBI空间在低成本、高精度果蔬分割中的工程落地价值。
(4) 在光照不变性图像分割中,选择合适的色彩空间和轻量化深度学习模型至关重要。RGBI色彩空间通过引入亮度分量,显著提高了对光照变化的鲁棒性,而轻量化UNet模型则在保持较高分割精度的同时,显著降低了计算复杂度。尽管RGBI色彩空间和轻量化UNet在本文中表现出色,但其他色彩空间和模型也有其独特的优势。例如,HSI色彩空间在低饱和度区域的分割精度可能不准确,但在其他场景中表现出较好的鲁棒性;MobileNetV2在复杂场景下的分割精度略低于全尺寸模型,但其高效的计算性能使其成为实时图像分割的理想选择。未来的研究可以进一步探索这些方法的组合,以提高图像分割在复杂光照条件下的鲁棒性和实时性。