电子科大提出“姿态蒸馏”算法-实现快速人体姿态估计

2024-08-08 08:20:41

前几天52CV曾经报道过一篇文章：17毫秒每帧！实时语义分割与深度估计其中用到知识蒸馏方法，实现了超快速的同时语义分割与深度估计，该文引起极大关注，未经授权就被转载到了很多网站。

今天要跟大家分享的文章《Fast Human Pose Estimation》与其类似，也是希望用知识蒸馏的方法获得“模型小计算复杂度低”的易于在边缘设备部署的模型，是昨天刚刚上传到arXiv的，作者分别来自电子科技大学和Vision Semantics公司。

一、姿态估计的任务

人体姿态估计即在含有人体图像中定位出人体的关节点。如下图所示：

姿态估计对于人体行为分析具有重要价值，目前该问题已经成为学术界研究热点，但大部分著述往往关注在设计网络学习更加适合的特征使得定位精度更高，较少研究模型实际部署时面临的模型较大和计算复杂度高的问题。

该文研究的问题即希望保持精度不受太大影响，但大幅度减小模型size，降低模型复杂度，使之更加适合实际应用。

二、算法思想

作者通过两种方式实现上述目标：设计更加轻量级的Hourglass网络和知识蒸馏。

知识蒸馏，包括Teacher 网络和Student网络，一般的做法是使用已经训练好的精度高复杂度高的Teacher网络的输出结果（预测的标签或者最后一层特征层结果）作为Student网络的监督信息训练Student网络。

“知识蒸馏”的名字很有意思，好像知识被浓缩了^_^

请看下图：

图中（a）子图中作者展示了目前姿态估计中使用较多的Hourglass网络，从两个方面对其进行了改进。

轻量级网络架构将原始网络中使用8个Hourglass单元减小为使用4个，同时输入Hourglass网络前的特征图由256个减小为128个。（嗯，就是这么简单～）

图中（b）子图作者展示使用原始网络训练Teacher网络。

图中（c）子图展示使用知识蒸馏，在训练student网络时其监督信息不仅来自Teacher网络，还有数据库上的原始标签。

值得一提的是此处“姿态知识蒸馏”的损失函数。

其由两部分组成，Lmse为姿态估计数据集上的标签与Student网络预测结果的均方误差，Lpd为Teacher网络输出结果与Student网络预测结果的均方误差。

通过Teacher网络的监督信息的加入，弥补了每一步训练“局部数据集”上标签错误、部分遮挡等问题，也有利于学习到Teacher网络已经从大量样本学到的关于人体姿态的先验信息。

下图列举了Teacher网络可作为监督标签有力补充的例子。

仔细想想这个损失函数其实是很自然的，就像教与学的过程，不仅需要老师传授知识，学生也要在真实问题中一步步练习。

三、实验结果

作者在MPII和LSP数据集上进行了实现，所提出的方法“快速姿态蒸馏”FPD都取得了与该库中最好结果可比较的精度，但模型size只有3M，计算复杂度只有1/6到1/7。

结果还是蛮吸引人的！

FPD姿态估计的图片示例：

可惜，该文目前并无开源代码～

论文地址：

https://arxiv.org/abs/1811.05419v1

CVPR 2021 | 自监督学习新思路！S2-BNN：基于蒸馏的自监督学习算法

AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算机视觉方向的公众号.计算机视觉.图像处理.机器学习.深度学习.C/C++.Python.诗和远方等. 206篇原创内容公众号 (CVPR ...
Django 模型类ForeignKey 选项参数

https://blog.csdn.net/hpu_yly_bj/article/details/78939748 to_fields 被关联字段用于关联的字段,默认情况下,Django使用被关联对 ...
第9天精彩打卡，精选5条，大家一起成长！

公众号发起了话题思考打卡赠书活动!为了更快学习大家打卡思考的内容,小猿每天都会把打卡优秀的话题思考的留言整理出来,让大家能在最短的时间内看到大家最精彩的留言 .以后公众号的次条推文,都是昨日打卡留言 ...
腾讯音乐：全民K歌推荐系统架构及粗排设计

编辑整理:张振.于洋出品平台:DataFunTalk 导读:腾讯音乐娱乐集团( TME) 目前有四大移动音乐产品:QQ音乐.酷狗音乐.酷我音乐和全民K歌,总月活超8亿.其中,全民K歌与其他三款产品有 ...
CenterNet：目标即点（代码已开源）

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...
ICCV 2019 | SPM：单阶段人体姿态估计解决方案

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...
推理怎么又快又稳？且看我FastBERT

0. 背景题目: FastBERT: a Self-distilling BERT with Adaptive Inference Time 机构:北大.腾讯.北师大作者:Weijie Liu, ...
推荐系统里，可以用蒸馏吗？

作者:十方无论是商品推荐,还是广告推荐,都大致可以分为召回,预排序(粗排),精排等阶段,如上篇<淘宝搜索中基于embedding的召回>的图所示: 召回最重要的就是要快,高召回率,对准确 ...
知识蒸馏与推荐系统

本文概览: 写在前面: 这是一篇介绍知识蒸馏在推荐系统中应用的文章,关于知识蒸馏理论基础的详细介绍,请看我的这篇文章: 深度学习中的知识蒸馏技术(上) 1. 背景介绍 1.1 简述推荐系统架构如果从 ...
[腾讯]结合蒸馏和多任务学习的召回模型

[腾讯]结合蒸馏和多任务学习的召回模型
神经网络中的蒸馏技术，从Softmax开始说起

作者:Sayak Paul 编译:ronghuaiyang 导读从各个层次给大家讲解模型的知识蒸馏的相关内容,并通过实际的代码给大家进行演示. 本报告讨论了非常厉害模型优化技术 -- 知识蒸馏,并给 ...
英语词汇的来龙去脉3：a student teacher？

英语词汇的来龙去脉3:你知道a student teacher是什么意思?
ECCV 2018 | CornerNet：目标检测算法新思路

极市平台是专业的视觉算法开发和分发平台,加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖 ...
【模型压缩系列】一：模型替换

bert问世以来,相关研究和改进如雨后春笋般涌现,预训练模型得到了飞速的发展,并在NLP很多任务中取得了统治地位.工业界也对此产生了浓厚的兴趣,各大公司纷纷试图在搜索.推荐.分类等领域中引入bert. ...
这项技术，让指纹、人脸、虹膜都“弱爆”了！

图片来源:unsplash 破解三重物理旋转密码锁和指纹锁后,阿汤哥的搭档又得经受步态识别锁的考验--这一场景出现在2015年上映的<碟中谍5>中,至今仍令人印象深刻. 在影片中,多个摄像 ...
【AI不惑境】模型压缩中知识蒸馏技术原理及其发展现状和展望

大家好,这是专栏<AI不惑境>的第十一篇文章,讲述知识蒸馏相关的内容. 进入到不惑境界,就是向高手迈进的开始了,在这个境界需要自己独立思考.如果说学习是一个从模仿,到追随,到创造的过程,那 ...

电子科大提出“姿态蒸馏”算法-实现快速人体姿态估计

相关推荐