王家兴--开源项目分享：基于昇思 MindSpore 的智能看护小车，破解医疗护理痛点

wwjjx

2026-01-06 发布323 浏览 · 1 点赞 · 0 收藏

在全球老龄化加剧、医疗资源愈发紧张的当下，传统护理模式面临着人力短缺、效率低下、隐私安全难保障等诸多难题。为了给医疗护理场景提供更智能、高效的解决方案，我们中国石油大学（华东）“让让我们队” 基于昇思 MindSpore 框架，研发出一款智能看护小车，并将项目开源，希望能为更多开发者和相关领域从业者提供参考，共同推动医疗民生领域的智能化发展。

项目背景：直面护理行业痛点

随着社会发展，医疗护理需求日益增长，但传统护理模式的局限性也愈发凸显。一方面，护理人员工作负担重，人工记录护理信息不仅耗时久，还容易出现错误，导致护理效率低下；另一方面，在护理过程中涉及大量患者视频数据，传统云端处理模式存在数据泄露风险，难以满足 GDPR 等数据保护法规要求，患者隐私安全得不到有效保障。

正是看到这些行业痛点，我们萌生了研发智能看护小车的想法。该小车将 AI 推理能力下沉至边缘设备，无需依赖云端，在降低数据传输延迟的同时，也能更好地保护患者隐私，为医院、养老院、社区医疗服务中心等场景提供智能化支持。

项目核心信息

若您对项目有疑问或想深入交流，可通过队长王家兴的联系方式沟通，联系邮箱3244134327@qq.com。

应用领域与核心技术

应用领域：主要聚焦医疗和民生两大领域，具体可应用于医院智能护理、养老院智能服务以及社区医疗辅助场景。
核心技术：项目融合了多种先进技术，包括昇思 MindSpore、ModelArts、SLAM 以及 cartographer。昇思 MindSpore 作为国产 AI 框架，为项目提供了强大的 AI 推理和训练支持；ModelArts 平台则助力模型的训练与持续优化；SLAM 技术和 cartographer 算法则保障了小车的自主路径规划和导航能力。

项目功能与应用场景

三大核心应用场景

医院智能护理

在医院的病房、手术室等场景中，智能看护小车能发挥重要作用。它可实时识别医护人员和患者身份，自动记录人员接触历史，避免人工记录的繁琐与误差。同时，小车还能精准识别药品和医疗器械，确保医疗物资管理规范。借助 SLAM 建图技术，小车能自主规划路径并导航，灵活穿梭于医院各个区域，为医护人员减轻工作负担。

养老院智能服务

养老院中，老人的安全和健康是重中之重。智能看护小车可实现 24 小时实时人员识别，一旦发现老人有异常行为，能及时发出警报。此外，小车还能对养老院中的物品进行管理，在保护老人隐私的前提下，为老人提供全方位的安全保障，让养老院的服务更贴心、更高效。

社区医疗辅助

在社区医疗服务中心，智能看护小车可辅助医护人员进行日常巡检工作，定时查看居民健康状况。同时，小车还能承担药品配送任务，将药品精准送达居民手中，并且协助医护人员进行患者看护，提升社区医疗服务效率，让居民在家门口就能享受到更优质的医疗服务。

核心功能亮点

高效 AI 识别：集成人脸识别和 YOLOv5 目标检测功能，能快速、准确地获取人员和物品信息。
精准 SLAM 建图与导航：采用深度学习增强的 SLAM 建图算法，将 MindSpore 训练的深度特征描述子与 Cartographer SLAM 后端融合，确保小车在复杂环境中也能精准导航。
隐私安全保障：视频数据在边缘设备本地处理，不上传至云端，符合 GDPR 等数据保护法规，有效保护患者隐私，解决了医疗等敏感场景的数据安全问题。

技术方案：四层架构构建完整系统

整体架构设计

智能看护小车系统采用边缘智能架构，从下到上分为硬件平台层、边缘 AI 推理层、RESTful API 服务层和前端应用层四层，各层协同工作，实现了低延迟、高隐私的智能看护解决方案。

硬件平台层

该层是系统的基础支撑，包含三大关键硬件组件：

STM32 小车主控：作为小车的 “大脑”，负责小车的运动控制、传感器数据采集以及与上层系统的通信，确保小车能按照 AI 决策准确执行移动、转向等动作。
6TOPS NPU 硬件加速：为 AI 推理提供强大的算力支持，支持 MindSpore 框架的算子加速，大幅提升人脸识别、目标检测等 AI 任务的执行效率。
深度摄像头实时采集：可采集 RGB 图像和深度信息，为 SLAM 建图提供 3D 空间感知数据，同时也为 AI 推理提供高质量的图像数据源，保障识别和检测的准确性。

边缘 AI 推理层（香橙派）

部署在香橙派边缘计算设备上，实现本地化 AI 推理，包含三大核心 AI 模块：

人脸识别（Mindface）：基于昇思 MindSpore 的 Mindface 框架开发，能实时进行多人脸检测和身份识别，经过优化后，在边缘设备上可高效运行。
目标检测（YOLOv5）：采用 YOLOv5 目标检测模型，我们成功将其从 PyTorch 框架迁移至昇思 MindSpore，并针对 ARM+NPU 异构平台进行深度优化，通过自动混合精度训练、算子融合、内存布局优化等技术，实现 21 FPS 的实时推理性能。
SLAM 建图（Cartographer）：创新性地将 MindSpore 训练的深度特征描述子与 Cartographer SLAM 后端融合，构建 ORB + 深度学习的混合特征提取架构。

RESTful API 服务层

作为系统的核心中间件，主要负责请求路由、服务管理和状态监控：

Flask API Server：基于 Flask 框架构建轻量级 RESTful API 服务器，提供统一的 HTTP 接口，支持人脸识别、目标检测、SLAM 建图等功能的 API 调用，方便上层应用调用底层 AI 能力。
服务管理与监控：实现服务的生命周期管理、负载均衡和故障恢复等功能，确保系统稳定运行，即使在高负载情况下也能保持良好的性能。
健康检查与统计：提供系统健康状态检查接口，实时收集和统计 API 调用次数、响应时间、错误率等性能指标，为系统运维和性能优化提供数据支持。

前端应用层

为用户提供直观、便捷的交互界面，包含三个核心组件：

WebRTC 视频流：基于 WebRTC P2P 协议实现低延迟实时视频传输，支持双向音视频通信，用户可实时获取智能看护小车的视频画面，及时了解现场情况。
Three.js 可视化：利用 Three.js 3D 图形库将 SLAM 建图结果以三维形式展示，实时呈现小车运动轨迹、地图点云和空间环境，让用户能更直观地了解小车的位置和周围环境。
实时监控页面：整合人脸识别结果、目标检测信息、系统状态等数据，提供综合监控界面，支持多设备同时监控和管理，方便用户全面掌握系统运行情况。

关键技术模块详解

人脸识别模块（基于 MindSpore MindFace）

数据集选择与处理：- 数据集来源：采用 WiderFace 数据集（39,422 张人脸图像）进行预训练，LFW 数据集（13,233 张人脸图像）进行验证，同时构建自定义数据集（包含医院工作人员和患者，共 4 个类别，2000 张图像）用于针对性训练。
- 数据处理：先将图像尺寸统一缩放到 112×112 像素，再将像素值从 [0,255] 归一化到 [-1,1] 范围；为提升模型泛化能力，进行随机翻转、旋转 ±15°、亮度对比度调整等数据增强操作；最后将数据转换为 MindSpore Tensor 格式，数据类型为 float32。
模型实现与训练：模型采用 ResNet-50 骨干网络，搭配 128 维特征嵌入层和 4 分类输出层。训练过程中，利用 MindSpore 框架的优势，确保模型能高效收敛，提升识别准确率。
模型推理与部署：推理时采用 MindSpore 图模式编译，通过@ms_function强制图编译，同时进行算子融合（Conv2d + ReLU + BatchNorm 融合）和 INT8 量化优化，将模型大小压缩至原来的 1/4；充分利用香橙派 6TOPS NPU 算力，提升推理速度。推理流程分为图像预处理（人脸检测→对齐→裁剪→归一化）、模型推理（特征提取 + 分类预测）和后处理（Softmax 计算置信度，返回人员 ID 和相似度分数）三步。

目标检测模块（基于 MindSpore YOLOv5）

数据集选择与处理：使用 COCO 2017 数据集（80 类目标，118,287 张训练图像）进行训练，通过随机翻转、缩放、颜色抖动等数据增强操作提升模型鲁棒性，将图像尺寸统一调整为 640×640。
模型实现：模型采用 CSPDarknet 骨干网络和多尺度检测头，我们完成了 YOLOv5 模型从 PyTorch 到 MindSpore 的完整迁移，包括参数格式转换、算子映射、图模式优化。迁移过程中，保持CSPDarknet()与原 YOLOv5 一致的通道数，DetectLayer中 anchor 顺序依照 MindSpore 张量格式[bs, anchors, grid_h, grid_w, attrs]，通过torch_checkpoint[key].numpy()转换为 MindSpore Tensor，避免精度丢失。
模型训练：训练配置采用 Adam 优化器（学习率 0.001），YOLOv5 损失函数（包含边界框损失、目标损失和分类损失），训练 300 个 epochs，批大小为 64。借助 ModelArts 平台进行分布式训练和超参数调优，支持自动混合精度训练，通过ops.StopGradient搭配 AMP 避免梯度溢出，value_and_grad让损失函数与梯度计算一次完成，提升训练效率。
模型推理与部署：推理时采用 MindSpore 图模式，结合图算融合、内存优化和 NPU 硬件加速技术提升推理性能。推理流程为图像预处理（调整为 640×640 尺寸）、模型推理（多尺度输出）、NMS 后处理（返回检测框、置信度、类别）。部署时，先将模型转换为 MindIR 格式，支持 INT8 量化，再通过 SSH 远程部署到边缘设备，利用 Systemd 服务管理和 Flask API 服务，实现自动化部署，普通人员 30 分钟即可完成部署，大幅降低部署门槛。

SLAM 建图模块（基于 Cartographer + MindSpore）

数据集选择与处理：采用 KITTI 数据集（22 个序列，约 40,000 帧）和 EuRoC 数据集（11 个序列）进行训练，对数据进行图像去畸变、深度图归一化、对比度增强处理，生成特征点对（正负样本对）用于训练特征描述子。
模型实现与训练：技术方案采用 ORB 特征提取 + MindSpore 特征描述子优化 + FLANN 特征匹配 + Cartographer 建图的组合方式。特征描述子网络通过卷积层和全连接层提取图像特征，训练时采用 Adam 优化器（学习率 0.001），对比损失函数（使正样本相似度最大化，负样本相似度最小化），训练 50 个 epochs。
模型推理与部署：SLAM 建图流程为 ORB 特征提取→MindSpore 特征优化→FLANN 特征匹配→位姿估计→Cartographer 建图，确保小车能实时、精准地构建环境地图并进行定位导航。

数据流设计与系统工作流程

数据流设计

系统数据流形成完整闭环，从硬件采集到前端展示各环节紧密衔接：

数据采集阶段：深度摄像头实时采集 RGB 图像和深度信息，帧率达 30fps，通过 USB 接口传输至香橙派边缘设备。
数据传输阶段：视频数据通过 WebRTC P2P 协议低延迟传输至前端，同时原始帧数据进入 AI 推理队列，等待后续处理。
AI 推理阶段：香橙派边缘设备并行执行人脸识别（Mindface 模型处理）、目标检测（YOLOv5 模型处理）和 SLAM 建图（Cartographer 算法处理，处理帧率 15 FPS）。
结果返回阶段：AI 推理结果通过 RESTful API 以 JSON 格式返回至前端，确保前端能及时获取处理结果。
前端可视化阶段：前端利用 Three.js 实现 3D 可视化展示，通过 WebRTC 显示实时视频流，监控页面展示识别结果和系统状态，为用户提供直观的交互体验。

系统工作流程

初始化阶段：系统启动后，STM32 主控初始化小车硬件，香橙派加载 AI 模型，前端建立 WebRTC 连接，为后续工作做好准备。
数据采集阶段：深度摄像头开始采集环境数据，STM32 采集传感器数据，两者同步将数据传输至香橙派边缘设备。
AI 推理阶段：香橙派接收数据后，并行执行人脸识别、目标检测和 SLAM 建图任务，NPU 硬件加速推理过程，提升处理效率。
决策生成阶段：系统根据 AI 推理结果，生成导航路径、人员识别信息、物品检测结果等决策指令。
动作执行阶段：STM32 主控接收决策指令，控制小车执行移动、转向等动作，完成相应的看护任务。
结果反馈阶段：AI 推理结果和系统状态通过 API 返回至前端，前端实时更新显示界面，让用户及时了解系统运行情况和任务执行结果。
循环执行阶段：系统持续循环执行上述流程，实现 24 小时不间断的实时智能看护功能。

项目效果：性能与成本双优

性能指标

人员识别效率：识别成功率 76.3%，识别响应时间小于 220ms，最多可同时识别 4 人，能快速、准确地完成人员身份确认。
物品检测能力：可检测 80 种常见物体，检测精度 mAP@0.5 达 37.6%，实时检测帧率 21 FPS，满足实时物品监控和管理需求。
建图精度：轨迹误差小于 1 米，实时建图帧率 13 FPS，地图点云密度约 400 点 / 平方米，确保小车导航精准可靠。
系统可靠性：系统正常运行时间达 97.2%，能稳定应对医疗、养老等场景的长时间运行需求。

项目创新点

算法创新

跨框架模型迁移优化：实现 YOLOv5 目标检测模型从 PyTorch 到昇思 MindSpore 的完整迁移，并针对 ARM+NPU 异构平台进行深度优化，在边缘设备上实现 21 FPS 的实时推理性能，验证了国产 AI 框架在边缘计算场景的高效性。
SLAM 建图算法增强：将 MindSpore 训练的深度特征描述子与 Cartographer SLAM 后端融合，构建混合特征提取架构，在保持定位精度的同时，提升特征匹配准确率至 85% 以上，实现高精度实时 3D 建图。

AI 应用场景创新

边缘智能架构设计：提出 “WebRTC 视频采集 + 边缘 AI 推理 + SLAM 导航 + RESTful API 服务” 四层架构，实现低延迟视频传输、多功能 AI 分析与自主导航的无缝集成，满足实时看护需求。
多功能集成：在单一边缘设备（香橙派 5 Pro）上集成人脸识别、YOLO 目标检测和 SLAM 建图三种 AI 功能，采用双视频流架构，同时提供原始视频流和 AI 处理后的结果流，提升系统灵活性和用户体验。
完整应用闭环：将边缘 AI 技术应用于智能看护小车，实现人员识别、物品检测、路径导航的完整闭环，形成 “感知 - 决策 - 执行” 的智能化看护体系，并通过 ModelArts 平台实现从数据采集、模型训练到边缘部署的 AI 应用闭环。

工程化创新

国产 AI 框架边缘部署：成功将昇思 MindSpore 框架部署至 ARM 架构的边缘设备，为国产 AI 生态在边缘智能领域的应用提供实践案例，具有重要战略意义。
多层次性能优化：从模型结构优化、推理上下文配置，到内存管理、批处理推理，实施全方位性能优化策略，并通过实际硬件平台（香橙派 5 Pro）进行全面测试，确保系统在资源受限的边缘设备上长时间稳定运行。
自动化部署：开发自动化部署脚本，支持 SSH 远程部署和 Systemd 服务管理，将部署时间从数小时缩短至 30 分钟，降低工程化门槛，便于项目推广应用。

开源共享：助力行业发展

为了让更多人参与到智能看护技术的研发与应用中，我们将该项目开源。项目包含完整的代码、技术文档、部署指南等资源，您可以通过代码仓库获取相关资料（仓库快照展示了项目的目录结构，包含 mindface、yolov5-face、SLAM 建图相关代码以及各类技术文档）。

无论您是学生、开发者，还是医疗、养老领域的从业者，都可以基于该开源项目进行二次开发、技术研究或实际应用。我们也欢迎大家在使用过程中提出问题、分享经验，共同完善项目，推动智能看护技术在医疗民生领域的广泛应用，为解决护理行业痛点、提升护理服务质量贡献力量。

未来，我们还将持续优化项目性能，拓展更多应用场景，比如增加语音交互功能、优化 AI 模型精度等，让智能看护小车能为更多人提供更优质的服务。期待与各位开发者携手共进，开启智能看护的新篇章！

请前往登录/注册即可发表您的看法…