这个「多模态视频人物数据集」里,藏了杨幂、吴亦凡和鹿晗丨资源
爱奇艺最近公开了一个数据集,名叫iQIYI-VID。
公开这个数据集的爱奇艺官方给它确认的类别名字叫“多模态视频人物数据集”,翻译成人话,就是有很多人,每个人用不同的“姿势”拍视频,收集起来攒成的数据集。
只不过,这些人相对比较有名,有杨幂、吴亦凡、鹿晗……
5000个明星艺人
整个数据集非常庞大,包含5000个艺人,近60万条视频,每条视频长1~30秒。
数据集中的每个视频片段都经过人工注释,错误率低于0.2%。
其中收录了一些同一个艺人都的不同造型,比如,有发型别致的吴亦凡

还有发型比较常规的吴亦凡

有穿红衣服的杨幂

还有穿蓝白衣服的杨幂

以及穿同样衣服的鹿晗和……抱歉,脸盲的量子位认出鹿晗已经是极限了。

整个数据集中,大部分明星都拥有10~50个视频,有50~100个视频或100~300个视频的也不少,但只有少量头部艺人拥有300个以上的视频。

而根据年龄来看,主力军竟然是30多岁的明星艺人,其次才是40多岁的明星,30岁以下的明星只有不到600个。原来年纪大了也可以出道啊?

最后,大部分视频都是在5秒钟以内,非常简短,节省计算资源。

有什么用
不过,把这些明星艺人的视频搜集到一起,究竟能炼什么丹呢?
主要可以做三件事:
第一,人脸识别
5000个人呢,辨认一下谁是谁。不过人脸识别实在是太普遍了。
第二,说话人识别
基于音频的说话人识别,训练机器听声音,判断是谁在说话。
目前这方面的资料不是很多,这方面最大的免费数据集是VoxCeleb和VoxCeleb2;另外美国国家标准技术研究院(NIST)曾经做过一些工作,但是那些数据集不是免费的。
第三,基于身体特征的人员重新识别
根据身体特征,判断不同镜头中的人是否为同一个人,目前主要还是用单帧的方法,从视频中抽取单帧图像,通过图像切割、骨架点定位、姿态校准进行比较。
综艺节目再利用
至于这些视频是哪儿来的嘛,自然是要感谢爱奇艺作为视频网站的老本行。

这些视频片段是从40万小时的电影、电视剧、综艺、新闻视频中剪出来的,内容源自爱奇艺网站上TOP 50万的热门视频。
将这些热门视频按照分镜头剪开后,不到一秒的视频因为信息不足被丢掉,超过30秒的视频考虑到计算负载过大也被删掉了。
之后,去掉噪声,根据每个人的衣服或人脸特征来归类,匹配到爱奇艺的名人数据库,从而生成针对每个不同人物的视频数据集。
传送门
论文 https://arxiv.org/abs/1811.07548
数据集地址(需要登录下载) http://challenge.ai.iqiyi.com/detail?raceId=5afc36639689443e8f815f9e
— 完 —
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-11-22
,如有侵权请联系 [email protected] 删除
网址:这个「多模态视频人物数据集」里,藏了杨幂、吴亦凡和鹿晗丨资源 https://mxgxt.com/news/view/1024135
相关内容
流量明星消亡史:留给鹿晗、吴亦凡的时间不多了吴亦凡和鹿晗关系好吗 吴亦凡和鹿晗谁人气高
鹿晗吴亦凡合作背后的真相揭秘?鹿晗吴亦凡亲密互动为了挽救人气
明星带货谁最强?吴亦凡、易烊千玺、鹿晗居前三
鹿晗吴亦凡,杨幂赵丽颖,蔡徐坤,走偏门求子的二哈男星 最新八卦汇总
牛鹿是指吴亦凡和鹿晗?俩人为什么装不熟?牛鹿CP的来源
鹿晗和吴亦凡什么关系
鹿晗叫吴亦凡老吴上热搜 吴亦凡和鹿晗的关系解冻了?
离开EXO三年,吴亦凡PK鹿晗,谁的发展更好?
拿下杨幂鹿晗后,留给其他品牌的当红偶像不多了
随便看看
- 武汉女饲养员与棕熊“打架”引热议,回应:为了它以后更好融入大熊区,有意识地训练
- 嘻嘻姐cz:武汉野生动物王国饲养员与棕熊“打架”的视频在网络上走红。00后的女孩蔡如婷和棕熊“崽崽”也不知道什么原因起了“冲突”,一人一熊在动物园上演全武行,两位是打的来有回的。不过还是饲养员厉害,一招“锁喉”,把崽崽治服! 咱们也都知道,动物园里的饲养员是跟动物相处时间最多的人,但问题来了,人和熊“打架”这事儿咋火了?说到底,还是因为猎奇和反差。00后小姑娘和棕熊,怎么看都不像一个量级的对手...
- 熊攻击狼窝捕猎幼崽,成年狼为何不敢去救,熊狼谁更强?
- 武汉野生动王国首例成功人工饲养棕熊幼崽即将百天
- 美国最老野生熊妈妈被拍到带4只幼崽过马路

