都赞同大都会博物馆斯文班巴奇斯蒂芬。李,大卫•克兰德尔,陈昱
文摘
我们提出一个CNN-based技术检测,识别,分割的手在自我中心的视频,包括多个相互作用的人。为了说明一个特定的应用程序中,我们表明,手段仅可用于识别准确的活动。
手经常出现在自我中心的视频,他们的外表和姿势提供重要线索的人做什么,他们在关注什么。但现有的工作一方面检测取得了强劲的假设只适用于简单的场景,如有限的交互与他人或在实验室设置。我们开发的方法来定位和区分的手在自我中心的视频使用强大的外表与卷积神经网络模型,并介绍一个简单的候选区域生成方法,优于现有技术在计算成本的一小部分。我们展示这些高质量的边界框可用于创建准确pixelwise手地区,作为一个应用程序中,我们调查的程度细分就可以区分不同的活动。我们评估这些技术的新数据集48第一人称视频(连同进行像素级地面实况了15000手实例)的人在现实环境中进行交互。
数据集
的EgoHands数据集包含48谷歌眼镜复杂的视频,第一人称两人之间的互动。这个数据集的主要目的是使更好的理解在第一人称计算机视觉数据驱动的方法。数据集提供了
- 高质量,进行像素级分割的手中
- 可能语义区分观察者的手和别人的手,左和右的手
- 几乎不受约束的手的姿势像演员自由从事一系列的联合活动大量真实数据与15053标记的手
我们提供整个网上EgoHands数据集vision.soic.indiana.edu/egohands!
咖啡模型
新!我们提供咖啡培训模式以自我为中心的手分类/在线检测。两种模型接受输入数据层通过咖啡的窗口。第一个手和背景之间的网络分类的windows,而第二个网络分类窗口之间的背景和四种不同的语义的手(自己的左/右手和其他左/右手)。两个网络训练与训练数据从我们的“主要分裂”数据集。
- 手/检测网络分类:Prototxt文件|Caffemodel文件
- 手持式分类/检测网络:Prototxt文件|Caffemodel文件
代码窗口的建议
新!我们现在提供的MATLAB代码窗口的建议方法在4.1节讨论的论文。如果你也下载数据集从我们的数据集网站,所提供的代码将学习采样和肤色参数基于培训视频,以及演示如何应用建议的方法看不见的帧从测试视频。只需下载下面的文件并将其解压缩到同一个目录的数据集。
论文和演讲
助理条目:
@inproceedings {egohands2015iccv,
title ={贷款手:检测手和认识活动在复杂的以自我为中心的交互},
作者={都赞同大都会博物馆斯文班巴奇和斯蒂芬·李和大卫•克兰德尔和Chen Yu},
booktitle = {IEEE计算机视觉国际会议(ICCV)},
年= {2015}
}
确认
![]() |
![]() |
![]() |
![]() |
![]() |
|
| 国家科学 基金会 |
国立 健康的 |
谷歌 | 英伟达 | 礼来养老 | 国际单位数据洞察力中心 |





