贷款的手:检测手和识别在复杂的以自我为中心的交互活动

都赞同大都会博物馆斯文班巴奇斯蒂芬。李,大卫•克兰德尔,陈昱

文摘

我们提出一个CNN-based技术检测,识别,分割的手在自我中心的视频,包括多个相互作用的人。为了说明一个特定的应用程序中,我们表明,手段仅可用于识别准确的活动。

我们提出一个CNN-based技术检测,识别,分割的手在自我中心的视频,包括多个相互作用的人。为了说明一个特定的应用程序中,我们表明,手段仅可用于识别准确的活动。

手经常出现在自我中心的视频,他们的外表和姿势提供重要线索的人做什么,他们在关注什么。但现有的工作一方面检测取得了强劲的假设只适用于简单的场景,如有限的交互与他人或在实验室设置。我们开发的方法来定位和区分的手在自我中心的视频使用强大的外表与卷积神经网络模型,并介绍一个简单的候选区域生成方法,优于现有技术在计算成本的一小部分。我们展示这些高质量的边界框可用于创建准确pixelwise手地区,作为一个应用程序中,我们调查的程度细分就可以区分不同的活动。我们评估这些技术的新数据集48第一人称视频(连同进行像素级地面实况了15000手实例)的人在现实环境中进行交互。

数据集

数据集的可视化和地面真理注释。左:地面实况手分割面具叠加在样本帧的数据集,在颜色表示不同的类型。对的:一个随机子集剪裁的手据地面真理分割(大小广场纵横比为便于可视化。

数据集的可视化和地面真理注释。左:地面实况手分割面具叠加在样本帧的数据集,在颜色表示不同的类型。正确的:一个随机裁剪的手据地面实况分割子集。

EgoHands数据集包含48谷歌眼镜复杂的视频,第一人称两人之间的互动。这个数据集的主要目的是使更好的理解在第一人称计算机视觉数据驱动的方法。数据集提供了

  • 高质量,进行像素级分割的手中
  • 可能语义区分观察者的手和别人的手,左和右的手
  • 几乎不受约束的手的姿势像演员自由从事一系列的联合活动大量真实数据与15053标记的手

我们提供整个网上EgoHands数据集vision.soic.indiana.edu/egohands!

咖啡模型

新!我们提供咖啡培训模式以自我为中心的手分类/在线检测。两种模型接受输入数据层通过咖啡的窗口。第一个手和背景之间的网络分类的windows,而第二个网络分类窗口之间的背景和四种不同的语义的手(自己的左/右手和其他左/右手)。两个网络训练与训练数据从我们的“主要分裂”数据集

代码窗口的建议

新!我们现在提供的MATLAB代码窗口的建议方法在4.1节讨论的论文。如果你也下载数据集从我们的数据集网站,所提供的代码将学习采样和肤色参数基于培训视频,以及演示如何应用建议的方法看不见的帧从测试视频。只需下载下面的文件并将其解压缩到同一个目录的数据集。

论文和演讲

助理条目:

@inproceedings {egohands2015iccv,
title ={贷款手:检测手和认识活动在复杂的以自我为中心的交互},
作者={都赞同大都会博物馆斯文班巴奇和斯蒂芬·李和大卫•克兰德尔和Chen Yu},
booktitle = {IEEE计算机视觉国际会议(ICCV)},
年= {2015}
}

确认

国家科学基金会 NIH_Master_Logo_Vertical_2Color 谷歌 莉莉养老
国家科学
基金会
国立
健康的
谷歌 英伟达 礼来养老 国际单位数据洞察力中心
IU计算机视觉实验室的项目和活动资金,部分赠款和合同由美国空军科学研究办公室(AFOSR),国防威胁降低局(DTRA) Dzyne技术,EgoVid, Inc .)、电子通信、Facebook、Google、均富LLP IARPA,印第安纳创新研究所(IN3), IU数据洞察力中心,印第安那大学副教务长办公室通过一个新兴的研究领域为研究格兰特,印第安那大学的社会科学研究,礼来养老,NASA,美国国家科学基金会(iis - 1253549, cns - 1834899, cns - 1408730, bc - 1842817, cns - 1744748, iis - 1257141, iis - 1852294),英伟达,ObjectVideo,海军研究办公室(ONR), Pixm, Inc .)和美国海军。本文所包含的观点和结论是作者和不应被解释为一定代表官方政策或支持,表示或暗示,美国政府或任何赞助商。

Baidu
map