Deepdiary:自动字幕生活实录图像流

Chenyou风扇和大卫•克兰德尔

生活实录镜头捕捉日常生活从第一人称的角度来看,但生成这么多数据,很难让用户浏览和组织有效的图像集合。在本文中,我们建议使用自动图像字幕算法来生成这些集合的文本表示。我们开发和探索新的技术基于深度学习为个人图像生成标题和图像流,使用时态一致性约束创建概要,都是更紧凑,不吵了。
我们评估技术与定量和定性的结果,和字幕应用于图像检索应用程序寻找潜在的私有映像。我们的结果表明,自动字幕算法,虽然不完美,可能足以帮助用户管理工作生活实录图片集。本文的扩展版本是可用的在这里。

full_captions
图1:样例说明字幕生成的技术与多样性的监管。

lstm_model

图2:LSTM模型生成标题

论文和演讲

JVCI 2018年的论文

2016年的史诗篇论文

2016年技术报告

助理条目:

@article {deepdiary2018jvci,
杂志={}《视觉传达和图像表示,
title = {Deepdiary:生活实录图像字幕和总结},
作者= {Chenyou风扇和Zehua张和大卫Crandall},
年= {2018},
体积= {55},
月= {8},
页面= {40 - 55}
}

@inproceedings {deepdiary2016eccvw,
title = {DeepDiary:自动字幕生活实录图像流},
作者= {Chenyou风扇和大卫Crandall},
booktitle ={欧洲计算机视觉国际研讨会以自我为中心的观念,互动,和计算(EPIC)},
年= {2016}
}

@techreport {deepdiary2016arxiv,
title = {{DeepDiary:}自动生成标题为生活实录图像流},
作者= {Chenyou风扇和大卫Crandall},
年= {2016},
机构= {arXiv 1606.07839}
}

下载

海报。
Github代码存储库这个存储库咖啡对生活实录数据的实现图像字幕。有关更多信息,请检查我们的论文和库readme如何使用这个包产生有趣的和多样化的句子为自己的照片。
生活实录数据集这个数据集包含图像VGG期间收集的特性和人类标签我们这个项目。github网站有详细说明如何使用数据文件来训练人工标注模型。
AMT数据集我们用照片列表数据集的一个子集,我们发表在公共标识亚马逊土耳其机器人。

确认


国家科学基金会	谷歌	英伟达	礼来养老	国际单位普遍技术研究所	为研究IU副教务长

国际单位计算机视觉实验室

Deepdiary:自动字幕生活实录图像流

论文和演讲

助理条目:

下载

确认