Deepdiary:自动字幕生活实录图像流

Chenyou风扇和大卫•克兰德尔

生活实录镜头捕捉日常生活从第一人称的角度来看,但生成这么多数据,很难让用户浏览和组织有效的图像集合。在本文中,我们建议使用自动图像字幕算法来生成这些集合的文本表示。我们开发和探索新的技术基于深度学习为个人图像生成标题和图像流,使用时态一致性约束创建概要,都是更紧凑,不吵了。
我们评估技术与定量和定性的结果,和字幕应用于图像检索应用程序寻找潜在的私有映像。我们的结果表明,自动字幕算法,虽然不完美,可能足以帮助用户管理工作生活实录图片集。本文的扩展版本是可用的在这里

full_captions
图1:样例说明字幕生成的技术与多样性的监管。

lstm_model

图2:LSTM模型生成标题

论文和演讲

助理条目:

@article {deepdiary2018jvci,
杂志={}《视觉传达和图像表示,
title = {Deepdiary:生活实录图像字幕和总结},
作者= {Chenyou风扇和Zehua张和大卫Crandall},
年= {2018},
体积= {55},
月= {8},
页面= {40 - 55}
}

@inproceedings {deepdiary2016eccvw,
title = {DeepDiary:自动字幕生活实录图像流},
作者= {Chenyou风扇和大卫Crandall},
booktitle ={欧洲计算机视觉国际研讨会以自我为中心的观念,互动,和计算(EPIC)},
年= {2016}
}

@techreport {deepdiary2016arxiv,
title = {{DeepDiary:}自动生成标题为生活实录图像流},
作者= {Chenyou风扇和大卫Crandall},
年= {2016},
机构= {arXiv 1606.07839}
}

下载

  • 海报
  • Github代码存储库这个存储库咖啡对生活实录数据的实现图像字幕。有关更多信息,请检查我们的论文和库readme如何使用这个包产生有趣的和多样化的句子为自己的照片。
  • 生活实录数据集这个数据集包含图像VGG期间收集的特性和人类标签我们这个项目。github网站有详细说明如何使用数据文件来训练人工标注模型。
  • AMT数据集我们用照片列表数据集的一个子集,我们发表在公共标识亚马逊土耳其机器人。

确认

国家科学基金会 谷歌 莉莉养老
国家科学
基金会
谷歌 英伟达 礼来养老 国际单位普遍技术研究所 为研究IU副教务长
IU计算机视觉实验室的项目和活动资金,部分赠款和合同由美国空军科学研究办公室(AFOSR),国防威胁降低局(DTRA) Dzyne技术,EgoVid, Inc .)、电子通信、Facebook、Google、均富LLP IARPA,印第安纳创新研究所(IN3), IU数据洞察力中心,印第安那大学副教务长办公室通过一个新兴的研究领域为研究格兰特,印第安那大学的社会科学研究,礼来养老,NASA,美国国家科学基金会(iis - 1253549, cns - 1834899, cns - 1408730, bc - 1842817, cns - 1744748, iis - 1257141, iis - 1852294),英伟达,ObjectVideo,海军研究办公室(ONR), Pixm, Inc .)和美国海军。本文所包含的观点和结论是作者和不应被解释为一定代表官方政策或支持,表示或暗示,美国政府或任何赞助商。

Baidu
map