王家兴--开源项目分享:基于昇思 MindSpore 的智能看护小车,破解医疗护理痛点

王家兴--开源项目分享:基于昇思 MindSpore 的智能看护小车,破解医疗护理痛点

wwjjx

2026-01-06 发布323 浏览 · 1 点赞 · 0 收藏

在全球老龄化加剧、医疗资源愈发紧张的当下,传统护理模式面临着人力短缺、效率低下、隐私安全难保障等诸多难题。为了给医疗护理场景提供更智能、高效的解决方案,我们中国石油大学(华东)“让让我们队” 基于昇思 MindSpore 框架,研发出一款智能看护小车,并将项目开源,希望能为更多开发者和相关领域从业者提供参考,共同推动医疗民生领域的智能化发展。

项目背景:直面护理行业痛点

随着社会发展,医疗护理需求日益增长,但传统护理模式的局限性也愈发凸显。一方面,护理人员工作负担重,人工记录护理信息不仅耗时久,还容易出现错误,导致护理效率低下;另一方面,在护理过程中涉及大量患者视频数据,传统云端处理模式存在数据泄露风险,难以满足 GDPR 等数据保护法规要求,患者隐私安全得不到有效保障。

正是看到这些行业痛点,我们萌生了研发智能看护小车的想法。该小车将 AI 推理能力下沉至边缘设备,无需依赖云端,在降低数据传输延迟的同时,也能更好地保护患者隐私,为医院、养老院、社区医疗服务中心等场景提供智能化支持。

项目核心信息

若您对项目有疑问或想深入交流,可通过队长王家兴的联系方式沟通,联系邮箱3244134327@qq.com。

应用领域与核心技术

  • 应用领域:主要聚焦医疗和民生两大领域,具体可应用于医院智能护理、养老院智能服务以及社区医疗辅助场景。
  • 核心技术:项目融合了多种先进技术,包括昇思 MindSpore、ModelArts、SLAM 以及 cartographer。昇思 MindSpore 作为国产 AI 框架,为项目提供了强大的 AI 推理和训练支持;ModelArts 平台则助力模型的训练与持续优化;SLAM 技术和 cartographer 算法则保障了小车的自主路径规划和导航能力。

项目功能与应用场景

三大核心应用场景

医院智能护理

在医院的病房、手术室等场景中,智能看护小车能发挥重要作用。它可实时识别医护人员和患者身份,自动记录人员接触历史,避免人工记录的繁琐与误差。同时,小车还能精准识别药品和医疗器械,确保医疗物资管理规范。借助 SLAM 建图技术,小车能自主规划路径并导航,灵活穿梭于医院各个区域,为医护人员减轻工作负担。

养老院智能服务

养老院中,老人的安全和健康是重中之重。智能看护小车可实现 24 小时实时人员识别,一旦发现老人有异常行为,能及时发出警报。此外,小车还能对养老院中的物品进行管理,在保护老人隐私的前提下,为老人提供全方位的安全保障,让养老院的服务更贴心、更高效。

社区医疗辅助

在社区医疗服务中心,智能看护小车可辅助医护人员进行日常巡检工作,定时查看居民健康状况。同时,小车还能承担药品配送任务,将药品精准送达居民手中,并且协助医护人员进行患者看护,提升社区医疗服务效率,让居民在家门口就能享受到更优质的医疗服务。

核心功能亮点

  • 高效 AI 识别:集成人脸识别和 YOLOv5 目标检测功能,能快速、准确地获取人员和物品信息。
  • 精准 SLAM 建图与导航:采用深度学习增强的 SLAM 建图算法,将 MindSpore 训练的深度特征描述子与 Cartographer SLAM 后端融合,确保小车在复杂环境中也能精准导航。
  • 隐私安全保障:视频数据在边缘设备本地处理,不上传至云端,符合 GDPR 等数据保护法规,有效保护患者隐私,解决了医疗等敏感场景的数据安全问题。

技术方案:四层架构构建完整系统

整体架构设计

智能看护小车系统采用边缘智能架构,从下到上分为硬件平台层、边缘 AI 推理层、RESTful API 服务层和前端应用层四层,各层协同工作,实现了低延迟、高隐私的智能看护解决方案。

硬件平台层

该层是系统的基础支撑,包含三大关键硬件组件:

  • STM32 小车主控:作为小车的 “大脑”,负责小车的运动控制、传感器数据采集以及与上层系统的通信,确保小车能按照 AI 决策准确执行移动、转向等动作。
  • 6TOPS NPU 硬件加速:为 AI 推理提供强大的算力支持,支持 MindSpore 框架的算子加速,大幅提升人脸识别、目标检测等 AI 任务的执行效率。
  • 深度摄像头实时采集:可采集 RGB 图像和深度信息,为 SLAM 建图提供 3D 空间感知数据,同时也为 AI 推理提供高质量的图像数据源,保障识别和检测的准确性。

边缘 AI 推理层(香橙派)

部署在香橙派边缘计算设备上,实现本地化 AI 推理,包含三大核心 AI 模块:

  • 人脸识别(Mindface):基于昇思 MindSpore 的 Mindface 框架开发,能实时进行多人脸检测和身份识别,经过优化后,在边缘设备上可高效运行。
  • 目标检测(YOLOv5):采用 YOLOv5 目标检测模型,我们成功将其从 PyTorch 框架迁移至昇思 MindSpore,并针对 ARM+NPU 异构平台进行深度优化,通过自动混合精度训练、算子融合、内存布局优化等技术,实现 21 FPS 的实时推理性能。
  • SLAM 建图(Cartographer):创新性地将 MindSpore 训练的深度特征描述子与 Cartographer SLAM 后端融合,构建 ORB + 深度学习的混合特征提取架构。

RESTful API 服务层

作为系统的核心中间件,主要负责请求路由、服务管理和状态监控:

  • Flask API Server:基于 Flask 框架构建轻量级 RESTful API 服务器,提供统一的 HTTP 接口,支持人脸识别、目标检测、SLAM 建图等功能的 API 调用,方便上层应用调用底层 AI 能力。
  • 服务管理与监控:实现服务的生命周期管理、负载均衡和故障恢复等功能,确保系统稳定运行,即使在高负载情况下也能保持良好的性能。
  • 健康检查与统计:提供系统健康状态检查接口,实时收集和统计 API 调用次数、响应时间、错误率等性能指标,为系统运维和性能优化提供数据支持。

前端应用层

为用户提供直观、便捷的交互界面,包含三个核心组件:

  • WebRTC 视频流:基于 WebRTC P2P 协议实现低延迟实时视频传输,支持双向音视频通信,用户可实时获取智能看护小车的视频画面,及时了解现场情况。
  • Three.js 可视化:利用 Three.js 3D 图形库将 SLAM 建图结果以三维形式展示,实时呈现小车运动轨迹、地图点云和空间环境,让用户能更直观地了解小车的位置和周围环境。
  • 实时监控页面:整合人脸识别结果、目标检测信息、系统状态等数据,提供综合监控界面,支持多设备同时监控和管理,方便用户全面掌握系统运行情况。

关键技术模块详解

人脸识别模块(基于 MindSpore MindFace)

  • 数据集选择与处理:- 数据集来源:采用 WiderFace 数据集(39,422 张人脸图像)进行预训练,LFW 数据集(13,233 张人脸图像)进行验证,同时构建自定义数据集(包含医院工作人员和患者,共 4 个类别,2000 张图像)用于针对性训练。
    • 数据处理:先将图像尺寸统一缩放到 112×112 像素,再将像素值从 [0,255] 归一化到 [-1,1] 范围;为提升模型泛化能力,进行随机翻转、旋转 ±15°、亮度对比度调整等数据增强操作;最后将数据转换为 MindSpore Tensor 格式,数据类型为 float32。
  • 模型实现与训练:模型采用 ResNet-50 骨干网络,搭配 128 维特征嵌入层和 4 分类输出层。训练过程中,利用 MindSpore 框架的优势,确保模型能高效收敛,提升识别准确率。
  • 模型推理与部署:推理时采用 MindSpore 图模式编译,通过@ms_function强制图编译,同时进行算子融合(Conv2d + ReLU + BatchNorm 融合)和 INT8 量化优化,将模型大小压缩至原来的 1/4;充分利用香橙派 6TOPS NPU 算力,提升推理速度。推理流程分为图像预处理(人脸检测→对齐→裁剪→归一化)、模型推理(特征提取 + 分类预测)和后处理(Softmax 计算置信度,返回人员 ID 和相似度分数)三步。

目标检测模块(基于 MindSpore YOLOv5)

  • 数据集选择与处理:使用 COCO 2017 数据集(80 类目标,118,287 张训练图像)进行训练,通过随机翻转、缩放、颜色抖动等数据增强操作提升模型鲁棒性,将图像尺寸统一调整为 640×640。
  • 模型实现:模型采用 CSPDarknet 骨干网络和多尺度检测头,我们完成了 YOLOv5 模型从 PyTorch 到 MindSpore 的完整迁移,包括参数格式转换、算子映射、图模式优化。迁移过程中,保持CSPDarknet()与原 YOLOv5 一致的通道数,DetectLayer中 anchor 顺序依照 MindSpore 张量格式[bs, anchors, grid_h, grid_w, attrs],通过torch_checkpoint[key].numpy()转换为 MindSpore Tensor,避免精度丢失。
  • 模型训练:训练配置采用 Adam 优化器(学习率 0.001),YOLOv5 损失函数(包含边界框损失、目标损失和分类损失),训练 300 个 epochs,批大小为 64。借助 ModelArts 平台进行分布式训练和超参数调优,支持自动混合精度训练,通过ops.StopGradient搭配 AMP 避免梯度溢出,value_and_grad让损失函数与梯度计算一次完成,提升训练效率。
  • 模型推理与部署:推理时采用 MindSpore 图模式,结合图算融合、内存优化和 NPU 硬件加速技术提升推理性能。推理流程为图像预处理(调整为 640×640 尺寸)、模型推理(多尺度输出)、NMS 后处理(返回检测框、置信度、类别)。部署时,先将模型转换为 MindIR 格式,支持 INT8 量化,再通过 SSH 远程部署到边缘设备,利用 Systemd 服务管理和 Flask API 服务,实现自动化部署,普通人员 30 分钟即可完成部署,大幅降低部署门槛。

SLAM 建图模块(基于 Cartographer + MindSpore)

  • 数据集选择与处理:采用 KITTI 数据集(22 个序列,约 40,000 帧)和 EuRoC 数据集(11 个序列)进行训练,对数据进行图像去畸变、深度图归一化、对比度增强处理,生成特征点对(正负样本对)用于训练特征描述子。
  • 模型实现与训练:技术方案采用 ORB 特征提取 + MindSpore 特征描述子优化 + FLANN 特征匹配 + Cartographer 建图的组合方式。特征描述子网络通过卷积层和全连接层提取图像特征,训练时采用 Adam 优化器(学习率 0.001),对比损失函数(使正样本相似度最大化,负样本相似度最小化),训练 50 个 epochs。
  • 模型推理与部署:SLAM 建图流程为 ORB 特征提取→MindSpore 特征优化→FLANN 特征匹配→位姿估计→Cartographer 建图,确保小车能实时、精准地构建环境地图并进行定位导航。

数据流设计与系统工作流程

数据流设计

系统数据流形成完整闭环,从硬件采集到前端展示各环节紧密衔接:

  1. 数据采集阶段:深度摄像头实时采集 RGB 图像和深度信息,帧率达 30fps,通过 USB 接口传输至香橙派边缘设备。
  2. 数据传输阶段:视频数据通过 WebRTC P2P 协议低延迟传输至前端,同时原始帧数据进入 AI 推理队列,等待后续处理。
  3. AI 推理阶段:香橙派边缘设备并行执行人脸识别(Mindface 模型处理)、目标检测(YOLOv5 模型处理)和 SLAM 建图(Cartographer 算法处理,处理帧率 15 FPS)。
  4. 结果返回阶段:AI 推理结果通过 RESTful API 以 JSON 格式返回至前端,确保前端能及时获取处理结果。
  5. 前端可视化阶段:前端利用 Three.js 实现 3D 可视化展示,通过 WebRTC 显示实时视频流,监控页面展示识别结果和系统状态,为用户提供直观的交互体验。

系统工作流程

  1. 初始化阶段:系统启动后,STM32 主控初始化小车硬件,香橙派加载 AI 模型,前端建立 WebRTC 连接,为后续工作做好准备。
  2. 数据采集阶段:深度摄像头开始采集环境数据,STM32 采集传感器数据,两者同步将数据传输至香橙派边缘设备。
  3. AI 推理阶段:香橙派接收数据后,并行执行人脸识别、目标检测和 SLAM 建图任务,NPU 硬件加速推理过程,提升处理效率。
  4. 决策生成阶段:系统根据 AI 推理结果,生成导航路径、人员识别信息、物品检测结果等决策指令。
  5. 动作执行阶段:STM32 主控接收决策指令,控制小车执行移动、转向等动作,完成相应的看护任务。
  6. 结果反馈阶段:AI 推理结果和系统状态通过 API 返回至前端,前端实时更新显示界面,让用户及时了解系统运行情况和任务执行结果。
  7. 循环执行阶段:系统持续循环执行上述流程,实现 24 小时不间断的实时智能看护功能。

项目效果:性能与成本双优

性能指标

  • 人员识别效率:识别成功率 76.3%,识别响应时间小于 220ms,最多可同时识别 4 人,能快速、准确地完成人员身份确认。
  • 物品检测能力:可检测 80 种常见物体,检测精度 mAP@0.5 达 37.6%,实时检测帧率 21 FPS,满足实时物品监控和管理需求。
  • 建图精度:轨迹误差小于 1 米,实时建图帧率 13 FPS,地图点云密度约 400 点 / 平方米,确保小车导航精准可靠。
  • 系统可靠性:系统正常运行时间达 97.2%,能稳定应对医疗、养老等场景的长时间运行需求。

项目创新点

算法创新

  1. 跨框架模型迁移优化:实现 YOLOv5 目标检测模型从 PyTorch 到昇思 MindSpore 的完整迁移,并针对 ARM+NPU 异构平台进行深度优化,在边缘设备上实现 21 FPS 的实时推理性能,验证了国产 AI 框架在边缘计算场景的高效性。
  2. SLAM 建图算法增强:将 MindSpore 训练的深度特征描述子与 Cartographer SLAM 后端融合,构建混合特征提取架构,在保持定位精度的同时,提升特征匹配准确率至 85% 以上,实现高精度实时 3D 建图。

AI 应用场景创新

  1. 边缘智能架构设计:提出 “WebRTC 视频采集 + 边缘 AI 推理 + SLAM 导航 + RESTful API 服务” 四层架构,实现低延迟视频传输、多功能 AI 分析与自主导航的无缝集成,满足实时看护需求。
  2. 多功能集成:在单一边缘设备(香橙派 5 Pro)上集成人脸识别、YOLO 目标检测和 SLAM 建图三种 AI 功能,采用双视频流架构,同时提供原始视频流和 AI 处理后的结果流,提升系统灵活性和用户体验。
  3. 完整应用闭环:将边缘 AI 技术应用于智能看护小车,实现人员识别、物品检测、路径导航的完整闭环,形成 “感知 - 决策 - 执行” 的智能化看护体系,并通过 ModelArts 平台实现从数据采集、模型训练到边缘部署的 AI 应用闭环。

工程化创新

  1. 国产 AI 框架边缘部署:成功将昇思 MindSpore 框架部署至 ARM 架构的边缘设备,为国产 AI 生态在边缘智能领域的应用提供实践案例,具有重要战略意义。
  2. 多层次性能优化:从模型结构优化、推理上下文配置,到内存管理、批处理推理,实施全方位性能优化策略,并通过实际硬件平台(香橙派 5 Pro)进行全面测试,确保系统在资源受限的边缘设备上长时间稳定运行。
  3. 自动化部署:开发自动化部署脚本,支持 SSH 远程部署和 Systemd 服务管理,将部署时间从数小时缩短至 30 分钟,降低工程化门槛,便于项目推广应用。

开源共享:助力行业发展

为了让更多人参与到智能看护技术的研发与应用中,我们将该项目开源。项目包含完整的代码、技术文档、部署指南等资源,您可以通过代码仓库获取相关资料(仓库快照展示了项目的目录结构,包含 mindface、yolov5-face、SLAM 建图相关代码以及各类技术文档)。

无论您是学生、开发者,还是医疗、养老领域的从业者,都可以基于该开源项目进行二次开发、技术研究或实际应用。我们也欢迎大家在使用过程中提出问题、分享经验,共同完善项目,推动智能看护技术在医疗民生领域的广泛应用,为解决护理行业痛点、提升护理服务质量贡献力量。

未来,我们还将持续优化项目性能,拓展更多应用场景,比如增加语音交互功能、优化 AI 模型精度等,让智能看护小车能为更多人提供更优质的服务。期待与各位开发者携手共进,开启智能看护的新篇章!


文章版权声明:本文由[wwjjx]原创发布,版权所有。
未经书面授权,禁止任何单位及个人以任何方式进行转载、摘编、复制或建立镜像。违反上述声明者,将依法追究其相关法律责任。

请前往 登录/注册 即可发表您的看法…