640?wx_fmt=gif

640?wx_fmt=jpeg

作者 | 神经小姐姐

责编 | 郭芮

本文经授权转自HyperAI超神经(ID:HyperAI)

前几日,微软静悄悄地删除了一个公开的名人图片数据集。这个本为世界上最大的公开人脸识别数据集,现在已经不能通过微软的渠道访问。

这个数据集包含了 10 万张名人面部图像,常被用来作为人脸识别的训练。对于微软删除的真实原因,我们不得而知,但其背后牵扯到的数据隐私问题,包括人脸识别技术的安全规范,都值得一番深思。

在这次「静默」删除行为背后,又牵扯到了哪些问题呢?

 

640?wx_fmt=png

微软想解决的麻烦:MS Celeb 名人数据集

 

MS Celeb 1M 数据集,最早是微软在 2016 年发布,其中共包含了 10 万个名人,近 1000 万张面部图片,而这些数据都是从网络上搜集而来。

从网络中 100 万个名人中,根据受欢迎程选出 10 万个,然后利用搜索引擎,跳出每个人的大约 100 张图片,就得到了这个庞大的数据集。

640?wx_fmt=jpeg

MS Celeb 数据集中的 Jobs 图片,其中绿色是年轻时代的图片,红色是合成图像

而这个数据集最初是用来服务比赛的。MSR IRC 是世界上最高水平的图像识别赛事之一,MS Celeb 1M 数据集最初就是这个赛事所用。

MS Celeb 1M 常被用来做面部识别的训练。但对于这些图片均来自网络,所以也曾受到了质疑。而微软则表示,是根据「知识共享许可 C.C 协议」,来抓取和获得这些图像的。

根据协议,可以将照片重新用于学术研究,(照片中的人物并不一定授权许可,而是版权所有者授权。)但微软发布数据集后,却并不能掌管它的使用。英国「金融时报」进行了一项深入调查,结果表明数据被大量的用在了多个企业测试中。

包括 IBM,松下,阿里巴巴,Nvidia 和日立等公司,都存在使用这个数据集的情况。

而这就涉及到了数据集使用的一些规范性问题,一位研究人员还指出,这涉及到人脸识别图像数据集的伦理,起源和个人隐私等问题。

 

640?wx_fmt=png

删除原因:负责该数据集的员工离职?

 

微软已经在线上默默地删除了MS Celeb 1M,并没有特别的说明。

640?wx_fmt=png

Github 上数据集的下载页面已经变成了 404 

在金融时报的报道中,微软表示「该网站主要目的是用于学术」,而删除它的原因是,「负责运营这个项目的员工离职了,不再与微软合作,所以进行了删除。」

我们都相信肯定有其他原因,可能也有数据集图片存在的问题。虽然微软称数据集均来自于公众人物的照片。但其中还包括少量非知名人物。这部分人脸照片的所有者,对微软使用他们的名称和图像信息,曾提出过质疑和批评。

还有技术人员推测,微软可能会因违反欧盟《通用数据保护条例》(GDPR)而删除数据,该法规于去年生效,旨在建立起数据安全的保护措施。

640?wx_fmt=png

GDPR对个人信息的保护及其监管,达到了前所未有的高度

但微软表示,它们没有涉及到 GDPR 的条款,数据集相关网站退役只是因为,「曾经的竞赛已经结束」。

当然,此次微软移除 MS Celeb 数据集,并不妨碍它在学术研究等途径的正常使用。那些用于处理数据库的工具,现在也可正常访问。

 

640?wx_fmt=png

常用公开数据集,也可能有隐私问题

 

在英国「金融时报」调查之后,还有另外两个学术单位也删除了相关的数据集:分别是杜克大学的 Duke MTMC 监控数据集,和斯坦福大学的 Brainwash 数据集。

关于数据集和隐私问题,这不是第一次进入人们的视野。在今年 1 月底,IBM 发布了百万级别的无偏见「人脸多样性」数据集,就曾引发了广泛的争议。

虽然 IBM 强调此举是为减少面部识别中的「偏见」问题,但数据集的来源,人物的是知情度等问题,都引发了不少质疑声。

有媒体还报道, IBM 表示会按照被摄影者的意愿,删除数据集里的相关照片,但都只是一面之词,并没有实际的行动。

640?wx_fmt=gif

今年 5 月,旧金山曾颁布法令,禁止政府机构使用人脸识别技术

对于数据集的采集和使用规则,还是一个很不太明确的区域,尤其是网络便利之后,很多机构都能轻易地获得大量图片,用于面部识别等用途。

其实,对于数据集涉及的隐私问题,解决方案可以很简单:关乎到用户个人隐私信息时,应保证用户的知情权,确保用户是否愿意贡献数据。

但似乎缺少的从来都不是方法,而是意识。

5G之后,中国的人工智能发展趋势如何?

https://edu.csdn.net/topic/ai30?utm_source=csdn_bw

 

【END】

640?wx_fmt=jpeg

6月29-30日,2019以太坊技术及应用大会特邀以太坊创始人V神与以太坊基金会核心成员,以及海内外知名专家齐聚北京,聚焦前沿技术,把握时代机遇,深耕行业应用,共话以太坊2.0新生态。扫码即享优惠购票!

640?wx_fmt=jpeg

 热 文 推 荐 

他是浙大 19 岁大一新生,三个月斩获 WWDC 19 奖学金!

TIOBE 6 月编程语言排行榜:Python 势不可挡,或在四年之内超越 Java、C

无良老板拖欠程序员工资,一怒开源冲上 GitHub TOP1

☞ 9 年前他用 1 万个比特币买了两个披萨, 9 年后他把当年的代码卖给了苹果,成为了 GPU 挖矿之父

17 岁的程序员告诉你关于编程的 7 个重要教训!

Bert时代的创新:Bert在NLP各领域的应用进展 | 技术头条

Lambda 表达式有何用处?

Python编写循环的两个建议 | 鹅厂实战

漫威金刚狼男主弃影炒币了?

☞“是!互联网从此没有 BAT!”

640?wx_fmt=png你点的每个“在看”,我都认真当成了喜欢

Logo

20年前,《新程序员》创刊时,我们的心愿是全面关注程序员成长,中国将拥有新一代世界级的程序员。20年后的今天,我们有了新的使命:助力中国IT技术人成长,成就一亿技术人!

更多推荐