EgoHands包含48个不同的自我中心与真实进行像素级的交互的视频注释为4800帧和超过15000的手!
介绍
EgoHands数据集包含48谷歌眼镜复杂的视频,第一人称两人之间的互动。这个数据集的主要目的是使更好的理解在第一人称计算机视觉数据驱动的方法。数据集提供了
- 高质量,进行像素级分割的手中
- 可能语义区分观察者的手和别人的手,左和右的手
- 几乎不受约束的手的姿势像演员自由从事一系列联合活动
- 大量的真实数据和15053标记的手
更详细的信息,数据集的结构可以在找到固定“标记数据”下载下面提供的文件。如果你有任何问题,请联系斯文sbambach在印第安纳州[点]edu。如果你想使用这些数据在你的工作你是欢迎,只要你多引用我们的相应ICCV纸:
@InProceedings {Bambach_2015_ICCV,
都赞同大都会博物馆作者={班巴奇,斯文和李,斯特凡•克兰德尔,David j . Yu,陈},
title ={贷款手:检测手和认识活动在复杂的以自我为中心的交互},
booktitle = {IEEE计算机视觉国际会议(ICCV)},
月= {12},
年= {2015}
}
下载
| 的名字 | 描述 | 文件类型(大小) | 链接 |
| 带安全标签的数据时 | 这个档案包含所有标签帧为JPEG文件(720 x1280px)。有100个标签帧的每个48 4800帧的视频。真实的标签包含为每个手持式和提供进行像素级的面具Matlab文件,我们提供一个简单的API。更多的信息包含在一个固定文件。这对大多数应用程序下载应该是你所需要的! | Zip归档(1.3 GB) | 下载 |
| 视频文件 | 所有48个视频MP4 h264视频文件。每个视频都是90秒长,而且分辨率为720 x1280px 30 fps。 | Zip归档(2.2 GB) | 下载 |
| 所有的帧 | 所有48个视频每一帧中提取为JPEG文件(720 x1280px)。帧提取30 fps,这样每个视频(90秒)包含2700帧。这是一个非常大的文件!你可能只是想下载这个如果你是有趣的在应用框架跟踪方法。你也可以自己提取帧基于上面的视频文件,但这里的帧保证符合我们的真实数据,从这些文件将匹配即frame_1234.jpg frame_1234.jpg如上提供真实的数据。 | Zip归档(8.2 GB) | 下载 |
咖啡模型
新!我们提供咖啡培训模式以自我为中心的手分类/在线检测。两种模型接受输入数据层通过咖啡的窗口。第一个手和背景之间的网络分类的windows,而第二个网络分类窗口之间的背景和四种不同的语义的手(自己的左/右手和其他左/右手)。两个网络训练与训练数据“主要分裂”。
- 手/检测网络分类:Prototxt文件|Caffemodel文件
- 手持式分类/检测网络:Prototxt文件|Caffemodel文件
代码窗口的建议
新!我们现在提供的MATLAB代码窗口的建议方法在4.1节讨论的论文。如果你也下载上面的数据集(带安全标签的数据时)中,所提供的代码将学习采样和肤色参数基于培训视频,以及演示如何应用建议方法从测试视频的看不见的帧数。只需下载下面的文件并将其解压缩到同一个目录的数据集。
例子视频
嵌入的下面是一个列表的四个例子视频数据集,一个为每个活动(拼图、卡片、叠叠乐,象棋)。视频还展示手(类型)分割结果从我们ICCV纸,只是单独应用于每一帧。