欢迎访问西安知识产权运营服务平台

< a href=' '>web对话
  • 一种基于视频的人体行为网络模型及识别方法
一种基于视频的人体行为网络模型及识别方法 授权有效中;
  • 专利(申请)号: CN202110219219.0
  • 专利类型: 发明;
  • 主分类: G物理;
  • 产业领域: 智能机器人
  • 专利来源: 高校;
  • 申请日: 2021-02-26
  • 申请人: 陕西理工大学
  • 当前专利权人: 陕西理工大学
  • 交易方式: 转让; 许可; 其他;
  • 其他交易方式: 产学研
  • 参考价格(元): ¥面议
  • 联系方式: 运营平台029-65666507/29

陕西理工大学机械工程学院张鹏超教授团队

陕西理工大学机械工程学院张鹏超教授团队基于视觉引导的机器人自主装配关键技术及装备技术


张鹏超 男,1977年生,工学硕士,教授,硕士生导师,陕西省工业自动化重点实验室常务副主任。主持并完成陕西省科技厅工业科技攻关项目1项、陕西省科技厅统筹创新工程计划项目1项、陕西省教育厅重点项目2项、陕西省教育厅专项项目1项;参与国家自然科学基金青年科学基金项目及其它省部级项目的研究工作。在国内外重要刊物上发表学术论文35篇,其中SCI收录8篇、EI收录8篇、CSCD收录6篇,授权国家发明专利15项。以第一完成人获陕西省科学技术二等奖 2 项、三等奖 1项,陕西省电子学会科学技术奖二等奖1项,陕西理工大学优秀科技成果奖一等奖2项。

研究方向

1.智能控制理论与应用

研究方向简介:主要研究方向有针对机械臂路径规划问题的“变参递归神经网络的研究与应用”、针对目标识别问题的“卷积神经网络的研究与应用”、针对移动机器人协同控制问题的“模糊滑膜控制理论的研究与应用”、针对多机器人路径规划问题的“多机器人避碰协调控制算法的研究与应用、针对水果采摘机器人的研究与应用。

2.计算机视觉研究

研究方向简介:主要研究方向有针对地图构建问题的“视觉SLAM算法研究与应用”、针对复杂环境下图像失真问题的“图像增强算法的研究与应用”、针对朱鹮检测算法模型参数多问题的“朱鹮检测算法轻量化的研究与应用”、针对水果识别效率低的问题的水果图像分割的研究与应用。

基于视觉引导的机器人自主装配关键技术及装备技术介绍:

研究视觉装配机器人应用中的目标检测定位技术及机械臂柔顺控制技术,提高复杂环境下装配机器人的控制精度及工作效率,主要进行了基于视觉的移动机械臂高精度定位检测技术及控制器开发;工业机器人专用高速伺服控制器研究与应用;基于卷积神经网络的零件识别与测量方法研究;面向装配机器人的机械臂柔顺控制方法研究等。系列成果先后荣获陕西高等学校科学技术二等奖、陕西省电子学会科学技术二等奖、陕西省科学技术三等奖。

本发明公开了一种基于视频的人体行为网络模型及识别方法,包括:3D卷积层、四层Block模块、全局平均池化层以及Softmax激活层。首先,所述3D卷积层,将输入的连续视频帧进行3D卷积操作,然后进入Block模块;所述Block模块主要由改进的3D残差块和SE模块构成,首先利用3D残差块对视频帧进行特征提取,然后经过SE模块,让网络自动获取每个特征通道的重要程度,从而增加重要通道的利用率;最后,将通过全局平均池化层的特征输入到Softmax激活层,输出人体行为类别。本发明的优点是:简单、快捷,且识别精度高,提高了提取时空特征的能力,解决了网络模型的参数较多以及准确率较低的问题。

【 英文摘要 】The invention discloses a video-based human behavior network model and a video-based human behavior network identification method. The video-based human behavior network model comprises a 3D convolution layer, a four-layer Block module, a global average pooling layer and a Softmax activation layer. First, the 3D convolution layer performs a 3D convolution operation on input continuous video frames, and then enters a Block module; The Block module is mainly composed of an improved 3D residual Block and an SE module, firstly, the 3D residual Block is used to perform feature extraction on the video frame, and then the network automatically obtains the importance degree of each feature channel through the SE module, thereby increasing the utilization rate of the important channel; Finally, the features passed through the global average pooling layer are input to the Softmax activation layer, outputting the human behavior class. The method has the advantages of simplicity, rapidness and high identification precision, improves the capability of extracting space-time characteristics, and solves the problems of more parameters and lower accuracy of a network model.

技术摘要(来自于incoPat)

【 DWPI用途 】

基于视频的人体行为网络模型及识别方法,应用于计算机视觉技术领域。

【 DWPI优势 】

本发明使用简单快捷,识别精度高,提高了空间特征提取能力,解决了参数多,精度低的网络模型问题。

【 DWPI新颖性 】

该模型具有配备有连续视频帧的三维(3D)卷积层。 块网络模块具有改进的剩余块和SE模块。 该改进的剩余块具有批归一化(BN)层-RELU激活函数-卷积层。 SE模块具有全局平均池逐层卷积层,RELU激活功能层和单块网络模块。 全局平均池层具有全连接层。 SoftMax激活层输出行为类型。

【 用途 】

信息通信视频视频
计算控制模型人体行为网络模型
识别方法识别方法

【 技术功效 】

技术功效句解决了网络模型的参数较多以及准确率较低的问题; 本发明简单、快捷; 提高了提取时空特征的能力; 且识别精度高
技术功效短语模型参数多; 简单; 提高提取特征能力; 快捷; 识别精度高
技术功效1级参数; 复杂性; 能力; 速度; 精度
技术功效2级参数提高; 复杂性降低; 能力提高; 速度提高; 精度提高
技术功效3级模型参数提高; 复杂性降低; 提取特征能力提高; 速度提高; 识别精度提高
技术功效TRIZ参数36-系统的复杂性;09-速度;28-测量精度;

分类号

【技术分类】

主分类号

G06V40/20;

  • G 物理

  • G06

    计算;推算或计数

  • G06V

    图像或视频识别或理解 笔记 1.本子类涵盖: 特别适用于图像或视频的模式识别或机器学习的方法或安排。

  • 2. 在本小类中,下列术语或表述的使用具有指明的含义:

  • “模式识别”是指通过获取、预处理或提取显着特征并对这些特征或其表示进行匹配、聚类或分类,对模式进行检测、分类、认证和识别,以用于解释目的或在图像或视频中推导出某种含义;

  • “特征提取”是指从图像或视频中得出描述性或定量的度量;

  • “聚类”是指根据模式的(不同)相似性或接近程度对模式进行分组或分离;

  • “分类”是指通过分配标签将对象/特征识别为属于一类对象/特征。

  • 3.在本小类中,归入G06V20/00-G06V40/00组的主题,如果识别依赖于获取或预处理阶段的特定处理,则也分别归入G06V10/10或G06V10/20组。[2022.01]

  • G06V40/00

    识别图像或视频数据中的生物特征、人类相关或动物相关模式[2022.01]

  • *G06V40/20

    动作或行为,例如 手势识别(面部表情识别 G06V40/16)[2022.01]

IPC分类号
CPC分类号G06V40/20; G06V20/40; G06N3/045; G06F18/214;
DWPI分类号T01;
DWPI手工代码T01-J04B2; T01-J10B2; T01-J16C1;

【行业分类】

国民经济行业分类

制造业信息传输、软件和信息技术服务业

国民经济行业(主)

信息传输、软件和信息技术服务业

新兴产业分类

互联网与云计算、大数据服务

知识密集型分类

信息通信技术制造业信息通信技术服务业

学科分类

工程

数字经济核心产业

数字产品制造业数字技术应用业数字要素驱动业

专利历程

  • 2021-02-26

    申请日

    CN202110219219.0(当前专利)

    申请号

  • 2021-06-11

    首次公开日

    CN112949460A

    首次公开号

  • 2024-02-13

    授权公告日

    CN112949460B(当前专利)

    授权公告号

  • 2041-02-26

    预估到期日

    计算因素

代理机构成都方圆聿联专利代理事务所(普通合伙) 51241
代理人李鹏
申请语言汉语
审查员周飞

权利要求

1.一种基于人体行为网络模型的人体行为识别方法,特征在于:所述人体行为网络模型,包括:3D卷积层、Block网络块、全局均值池化层和softmax激活函数层;其中,3D卷积层对输入的连续视频帧进行卷积以及提高维度;Block网络模块一共有四个且结构相同,都是由改进的残差块以及SE模块构成;改进残差块由BN层‑Relu激活函数‑卷积层(3×3×3)‑BN层‑Relu激活函数‑卷积层(3×3×3)‑Shortcut连接构成;改进的SE模块由:全局平均池化层‑逐点卷积层(1×1×1)‑Relu激活函数‑逐点卷积层(1×1×1)‑Sigmoid激活函数层构成;
在单个Block网络模块里,连续的视频帧先经过残差块,解决了模型退化以及梯度爆炸的问题,从而提取出有效地特征,然后改进的SE模块对残差块输出的通过进行重要度判别,从而提高重要通道的利用率,加强有用特征的提取,压缩无用特征的使用;四个模块依次叠加,加深网络,使提取有效特征的能力最大化,从而提高识别精度;全局平均池化层起到全连接层的作用,还可以有效地减少网络模型参数,同时在结构上做正则化防止过拟合;
Softmax激活层用于输出行为类别;
所述人体行为识别方法,包括以下步骤:
S1、对网络模型进行训练;
S2、将经过预处理后的连续视频帧输入到第一个3×3×3的卷积层中进行卷积操作,之后进入BN层进行归一化操作,最后进入Relu激活函数层,进行非线性变换;其中,BN层用于将每层的输出规范为标准正态分布,即将均值归一化为0,将方差归一化为1;
S3、将Relu激活函数层的输出输入到第一层Block网络模块、第二层Block网络模块、第三层Block网络模块和第四层Block网络模块进行特征提取后输入到全局平均池化层;其中,每一层Block网络模块都是按照BN层‑Relu激活函数‑卷积层(3×3×3)‑BN层‑Relu激活函数‑卷积层(3×3×3)‑全局平均池化层‑逐点卷积层(1×1×1)‑Relu激活函数‑逐点卷积层(1×1×1)‑Sigmoid激活函数层‑shortcut连接构成;
S4、所述全局均值池化层对输入数据做正则化防止过拟合后输出到Softmax激活函数层,最后输出行为类别。

2.根据权利要求1所述的人体行为识别方法,特征在于,S1的子步骤如下:
S11、采集人体行为数据并对其标注类别后制作成有效的视频数据集;最后,通过图像预处理的后,将视频数据集按照7:3的比列划分为训练集和测试集;
S12、通过网络模型提取图像的特征并对其进行向前传播得到训练类别,再由损失函数反向传播更新梯度参数;
S13、训练好网络模型后,选取测试集输入到完成训练的网络模型中,通过前向传播得到行为类别,从而获得识别准确率;
S14、结束网络模型的训练与测试。

3.根据权利要求1所述的人体行为识别方法,特征在于:视频数据集制作为:首先,对校园的异常行为进行定义,异常行为包括:打架、脚踢、跑步、吸烟和摔倒;然后将该数据集输入到网络模型中进行预测,然后,通过视频监控的方式进行视频拍摄,从而获取视频数据集。

4.根据权利要求1所述的人体行为识别方法,特征在于:在训练开始之前,将网络模型随机初始化,并使用SGD作为优化器,其中出示学习设置为0.01,然后每隔10个epochs除以10,mini‑batch设置为16,总的epochs设置为100,使用交叉熵损失函数。

×
发送意向

申请须知:申请人无需注册账号即可提交交易意向,交易意向一经提交不可查询或更改,请准确填写相关信息;平台运营人员将在3-5个工作日内查看交易意向并与您联系,感谢阅读。