淘客熙熙

主题:273- Martyn Thomas:你是顾客还是产品? -- 万年看客

共:💬9 🌺51 🌵1
全看分页树展 · 主题
家园 273- Martyn Thomas:你是顾客还是产品?

https://www.youtube.com/watch?v=LUW9Zv7vebw&t=785s

过去的夏天是一个发生了很多大事的夏天。姑且不论英国脱欧、英镑市场波动以及政治动荡,我认为在网络安全领域同样了发生很多大事。我们最近经历了史上规模最大的一次登录数据泄密。然后在几周之前我们又见识了互联网问世以来最大规模的拒绝服务攻击。遭受攻击的对象是一个网络安全博主兼业内专家,此人帮助抓捕了很多罪犯,所以遭到了报复。此人名叫布莱恩.克雷布斯(Brian Krebs),他的网络安全教育网站遭到了每秒1T数据的攻击。尽管他设立了各种防御,但是全都被压倒了。真正有趣的地方在于用来攻击他的机器是闭路电视加上其他摄像头,这些设备的主人们将它们连上网之后却并没有修改默认用户名和密码,于是形成了一张僵尸网络。这是依靠物联网的雏形发动攻击的典型案例。如果你正在运行带有默认用户名和密码的设备,我建议你把它们都改掉,因为收罗此类设备发动攻击所使用的代码已经公布了,所有这些默认用户名和密码都已经暴露。只要稍微升级一下这套代码就能用来攻击你想要攻击的特定系统,所以肯定会有人这么做。如果你的联网设备有默认密码的话,建议你立刻修改。有人认为,这种程度的攻击,再加上未来还会有更多的设备连入物联网,将会为互联网带来某些积极改变。有人甚至认为这是关系到互联网的生死存亡的问题。所以说这是个很有趣的夏天。

今天我想讨论针对个人数据的控制。人们都说如果你在互联网上并不花钱买服务,那你就不是客户而是产品。我想看看这句话对不对。我接下来主要采用推特、脸书以及谷歌的例子,但是我所说的很多内容都可以用在很多其他网站,比方说亚马逊网站出于很多原因也需要个人数据。所以我并不是在特意批评社交媒体网站,不过他们是很好的例子。先来看看脸书的公开数据:2016年第二季度,脸书的收入是63.47亿美元,利润27.66亿美元,每月月活17.1亿人,市值高于3500亿美元。换算一下,每个用户的价值大约等于200美元股票,并且每三个月可以带来1.5美元的利润。相比之下推特要差不少,同期月活只有3.13亿人。我要说一下这里数据的来源:估算月活的方式很多,不同的市场营销组织采用不同的测量方式,只需换一个出处——比方说看看《金融时报》周末版——就会看到不同的数据。我这里用的都是我自己找来的数据,信与不信都随你。但是我要着重指出,即便每位推特用户非但无法产生利润,反而每三个月都要让推特付出0.33美元,但是对于推特股东来说每个用户依然值得38美元的股票。

过去几年这些公司的交易价格都以十亿美元为单位,而月活则是为这些公司估值的重要因素。这些公司得到的估值远远高于一般收购为了员工、知识产权软件或者其他有形与无形资产支付的成本,是用户创造了这些公司的价值。原因之一在于网络效应,用户越多就越能得到更多的用户,因为用户互动导致了指数增长。人类天性喜欢聚集在一起,因此在社交媒体领域才会出现两三个通吃大赢家,其他网站则只能一命呜呼。

如果你花了这么多的钱来购买用户,那么你肯定要设法把用户转换成利润,这就是变现,主要方式往往是广告。网站向广告客户销售接触用户的机会,广告客户也会花钱购买接触顾客的机会,但前提是他们能够因此而赚钱。广告客户需要人们看了广告之后采取行动,否则广告费就白花了。因此针对性广告对这些公司的估值来说至关重要。你要让最具针对性的广告面向精心挑选的群体投放,唯此才能赚钱。我举一个好例子来说明脸书怎样做针对广告。脸书告诉广告客户,如果你选择在脸书投放广告,那么你可以获取脸书用户的住址与工作地址,他们的所在国家与邮政编码,甚至还可以看到你的门店所在地周边区域的脸书用户;你可以针对特定人口群体打广告,分类标准包括年龄、性别、兴趣以及语言,在兴趣一栏足有上百种选项供你选择;你可以通过用户行为来分类,专门针对他们所做的事情,例如购物习惯,用什么牌子的手机,想不想购买特定商品;你可以接触到具有特定偏好的人们,还可能进一步接触到与他们差不多的人们,尤其是他们在社交媒体上的联系人;最后,在脸书投放广告也就意味着与脸书的若干商业伙伴达成了合作关系,例如以Experian为代表的市场调研组织,从而利用这些机构通过公开或者私密来源收集的数据,使得针对性广告更加有效。

脸书按照广告效果收费,广告客户与脸书约定愿意为一次点击花多少钱,为一个点赞或者其他任何行为花多少钱。这些都是脸书为广告客户提供的、可以用来收钱的条目。脸书的收入来自将正确的广告显示给最受针对的用户,因此他们需要尽量延长用户在线时间,好让用户不断看到广告,不断有机会为脸书带来收益。那么作为脸书用户你会看到什么广告?能让广告客户和脸书实现利润最大化的广告。你大概希望这些广告也是最让你感兴趣的广告,但是广告的实际底层动机总是在于尽可能创造利润。所以脸书的算法会计算每一条广告的价值。每当用户打开脸书页面,网站后海就会实时展开一场拍卖,竞拍方是所有可以展现给你的广告,竞拍的赢家则会展现在用户面前。照理来说这些广告最可能促使这位用户采取行动。

谷歌的做法也一样,他们的手段是Google AdWords。这套机制让谷歌可以选择最恰当的广告展示给你。使用谷歌就要输入关键词。只要输入一个关键词,谷歌就会为你推荐一整套相关关键词。好比说我输入“网络安全”,然后就会出现一系列相关关键词,而且谷歌还会估计在一月之内查询这些关键词的人数。广告客户由此确立了当某人点击广告时他们愿意付给谷歌的费用——当然他们还设立了每天最高广告预算,以免某一天的广告效果过于成功,导致自己突然破产。与脸书同理,每一次谷歌搜索的背后都是一场实时拍卖,结果决定了哪些广告可以展现在哪些页面上。谷歌的解释宣称:

“当用户搜索时,AdWords会找到所有关键词符合搜索内容的广告。在这些广告当中,系统会排除那些不合适的广告,例如在其他国家做的广告或者内容已经遭到否定的广告”——谷歌的过滤机制会排除掉包含猥亵内容或者试图在某个国家销售特定非法商品的广告——“在剩余广告当中,只有排序足够高的广告才能得到展示。”排序标准结合了广告客户为这个关键词的出价,根据算法与人工检视来衡量的广告质量,以及其他广告内容可能造成的影响,然后他们进行实时拍卖。在不到几分之一秒的时间里,在谷歌处理搜索结果、构建搜索页面的时候,这个过程就发生了。所以他们需要这么多强大的服务器,因为他们要满足大量的高速处理要求,这是非常令人惊叹的技术。

他们如何确定目标?他们会估计某个广告针对某个用户的效力有多大。因此基于个人数据显示针对性内容对于谷歌来说也很重要。他们使用了你的搜索关键词,因为他们掌握了你的搜索历史。你们或许记得我在上一讲“论匿名”当中提到,美国在线网站向研究人员开放了用户搜索历史数据,让人们意识到搜索历史究竟能够在多大程度上揭示一个人的兴趣、心理状态、日常活动等等。所谓个人数据包括你浏览的网站,你看的视频,你的所在地——别忘了谷歌地图详细记录了你的行程,IP地址,Cookie数据,设备信息,以及其他各种你使用谷歌时提供的数据;还有你用谷歌邮箱发送与接受的电子邮件,你上传的照片与视频,你存在谷歌网盘上的各种文档、图片与表格。谷歌直言不讳地承认,他们会扫描所有这些文件。他们对此毫不遮掩,完全公开,只要你仔细看看他们的隐私政策就能发现——尽管每个人都会看也不看地直接将隐私政策页面拉到底点击对钩:“是的,我们非常高兴接受你的条件与要求。”但是这也就意味着你分享的一切都会遭到彻头彻尾的分析,并且以各种各样的方式遭到利用——但是话说到这里就超出本次讲座的范畴了。

社交媒体会收集多少个人数据?有一位澳大利亚法律学生们麦克斯.史莱姆斯(Max Schrems)目前正在欧洲法院打官司,他强迫脸书提供所有脸书掌握的关于他的信息。这场官司起始于好几年前。脸书一共拿出了1200页PDF,全都是关于他的数据,包括删掉的对话记录与他没有回应的邀请请求。这些数据依然存在这一点令他非常不满。据说这1200页的数据仅仅包含23个数据类别,而脸书为用户建立的全部数据类别足有84个。我之前说过,脸会向广告客户提供上百种数据类型,所以大概还有更多的数据被保留下来。如果你向脸书提交数据获取请求,你大概也能看到这些数据。

所以说究竟是谁拥有所有这些数据?总体来说,网站的隐私政策主张你上的网站可以任意使用你的个人数据,而你则毫不深究地点击“同意”,一个字都懒得读——99%的互联网用户都是这个德性。你或许觉得上述程度的个人信息网站用了也就用了,大家都觉得没问题。但还有另一层个人信息值得提一句,也就是死者的个人信息。遗属们想要获取死者的数据往往十分困难。某人去世之后,他们的个人相册就打不开了,因为家人们没有登录密码。掌握这些照片或许对于遗属来说很重要。更何况死者除了照片之外还很可能留下电子版本的法律文件等等数据。就连社交媒体公司的高管们都没办法在现行体制下直截了当地获得此类信息。许多社交媒体网站都正在设定特殊政策来处理此类要求,尽量为遗属们创造方便。

如果你想探索脸书在最高层面上对你有多少了解,那么不妨登录一下facebook.com/ads/preferences。这个页面列举了一系列类别,其中很多类别都有子类别。如此详细的分类全都是为了应对特定的个人类型。此外,脸书不仅关心如何让广告针对你的兴趣,而且还越发关心如何让广告针对你目前的感受,因为广告客户意识到人们在特定情绪的影响下更倾向购买特定商品,特定广告也会在针对特定情绪时最有效。画面上展示了一批苹果公司的专利技术,这表明了大型公司正在资助这些技术来探索不同的情绪变现方式。他们正在主张要通过随身佩戴装备收集情绪数据,这些设备往往与手机相连,测量心跳和血压等等。行为特征也是新近涌现的数据收集领域,衡量的是你与设备互动的方式。一系列信息都可以用来实时确定你目前的情绪。Spotify正在关注情绪信息,谷歌也在申请专利应用,这款应用似乎打算使用谷歌眼镜或者类似科技让他们向广告客户销售用户的眼神。在谷歌眼镜里打广告的付费标准是用户的视线。只要你看一眼广告,广告客户就要花钱。通过侦测人们正在看什么,或许还要采用运动感知信息,谷歌的应用可以确定广告对你的影响,由此来推断出你的情绪状态,让广告客户得以衡量自己广告的成功与否。当前的技术可以确定某人看广告时的间多长以及看完一遍之后会不会再回来看第二遍。研究一下这些技术确实很有趣,因为我们由此可知大型科技公司至少已经想到了这些问题,并且认定为了能在市场上站稳脚跟,很有必要申请此类专利。

如果情绪很重要,而且监控情绪确实能带来商业回报,那么或许公司会企图操纵你的情绪,让你陷入对广告客户有利的情绪。这当然是有可能的。最近有一项试验引发了很大的纷争。《华盛顿邮报》这样报道了脸书的实验:

“在2012年1月的一周当中,他们针对脸书总用户的0.04%——或者说69万8003人——调整了新闻推送算法,使得其中一半用户看到的正面贴文少一些,另一半人看到的负面贴文少一些。为了评估这一改变对于人们情绪的影响,研究人员追踪了受试者在这一周的个人状态更新当中使用的积极词汇与消极词汇数量。结果表明两者之间存在非常显然的因果关系。”研究结果发布了在一份同行审议的心理学期刊上。论文当中解释了为什么应当认为两者之间具有显著相关性。

显然公司可以操纵人们的情绪,而且他们也很有兴趣这么做。这似乎说明在当时的脸书内部至少有些人认为这一切值得通过实验来验证,从而确定接下来可以做到什么程度。很多人都没有意识到脸书的新闻推送其实是高强度编辑的产物。《华盛顿邮报》发现:“你的好友以及你的订阅页面的新发表内容当中足有72%根本根本不会在你的新闻推送当中露脸。”当然脸书很有理由这么做,而且你自己的订阅内容你自己不关心也怪不得别人。但是即便在特别擅长使用互联网的学生群体当中,大多数人也都没有意识到脸书推送会经过过滤,自己看到的页面都遭受过编辑。

再看看美国人从哪里获得新闻。九零后零零后与我这样的婴儿潮世代老年人相比,主要新闻来源的差别极大。年轻人们越发倾向于从社交媒体获得新闻,而不是更传统的新闻来源。而科技公司创造了这样一种环境:人们对世界的观点基本由新闻推送决定,而推送内容又由算法决定——绝不是说每天都有成千上万人忙着编辑每一位用户的推送:“类似新闻上次把他气得不轻,这次别给他看了。”但是算法是完全保密的,不会很快改变,也不会经常改变,或许还嵌入了一部分机器学习的因素,而机器学习又很不擅长解释它们怎样得出了某个结论,以至于就连开发人员也不太清楚算法的屏蔽标准究竟是什么。

这就造成了所谓的过滤泡泡。社交媒体希望人们高兴,希望人们保持在线,希望提供让用户感到高兴的服务。他们的做法则是展现越来越多用户想看的内容。假如你对某些内容感兴趣,就会更多地点击这些内容;网站记录了你的点击,这份记录则会影响你接下来将会看到的东西,因此你看到的内容进一步加强了你早就拥有的观点;而且网站会更多地向你展示你的好友喜欢的内容,于是你身边就聚拢了一大批共享同一套观点而且相互加强彼此观点的人们。因此有人主张社交媒体在社会当中创造了意料之外的、而且未必总是良性的效果。这场正在进行的大型社会试验不过是完全商业化运营的某种副作用——至少我们姑且假设它是完全商业化的。

这一切很重要吗?研究人员关注了谷歌搜索“BP”这个关键词之后的情况:两个不同的用户,一个人看到了BP公司最近的投资新闻,另一个人看到了BP原油泄漏事故的报道。这暗示着这些内容可以在相当程度上左右人们的态度。《麻省理工科技评论》认为“这是一个极其凶险的问题”,很可能导致全社会两极分裂。我们或许应当对此感到小心,或许更应该在一定程度上保护自己,至少得设法确定万一我们当真落入这样的陷阱,心里总得清楚这究竟是怎么回事。当然所谓的过滤泡泡无论怎样都会发生。即便在纸媒时代,每个人买报纸的时候也都会购买与自己观点相近的报纸,因此这种程度的相互强化本来司空见惯。《卫报》读者不会逼着自己阅读《每日邮报》,仅仅为了获得关于社会与世界的观点。

那么你究竟可以在多大程度上掌控你的个人数据?如果你存心想要这么干的话可以怎么办?你确实可以采取某些措施。比方说我个人的做法如下:我之前说过,我的惯用搜索页面是starpage.com,这个页面虽说也要利用谷歌引擎进行搜索,但是两者之间隔了一层代理,所以谷歌只能看到starpage.com在搜索,联系不到我身上,也就无法生成我本人的搜索关键词清单;我会用代理链接来打开网站,这样就不用担心你的电脑会因为你打开这个网站而被强行装上什么软件;我惯用的浏览器是Firefox,设定为私密浏览模式,每次浏览后都会清除掉我所有的浏览历史与cookie,这样网站就很难知道我是否反复浏览了同一个网站;我安装了若干广告拦截软件,尤其是Ghostery和Privacy Badger;最后我还停用了JavaScript,仅仅在我信任的网站上运行脚本。

有些人认为我有点小题大做,或许我确实小题大做了,但是大多数网络安全专家都会撕一块胶布糊住自己笔记本的摄像头。对网络安全特别看重的人都用胶布贴着摄像头,因为他们知道透过摄像头看到对面有多么容易。你给他们一个U盘,他们立刻就扔到垃圾桶里。我曾经在某个会议室里见到有1%的参会人员这么做,我就是其中之一。那是一场在柏林举行的大型金融会议,安格拉.默克尔到场发言,让-克洛德.容克到场发言,台下坐了三百名高级金融主管,然后——信不信由你——用来向参会人员分发幻灯片文件的所有U盘都是中国生产的。

大多数年轻美国网民都使用广告拦截软件,只有36%根本不用。1/3的年轻美国网民用在笔记本上,1/3用在手机上,还有14%两边都用。人们正在逐渐意识到广告拦截软件很有用。两个礼拜之前出了一件事。反病毒公司卡巴斯基遇到了一些针对安卓用户的无端暴力,这些用户在浏览最喜欢的新闻网站时往往会不慎下载窃取账户信息的木马。这个恶意软件安置在广告里,通过谷歌广告来传播。为了下载木马从而窃取银行数据——假如你惯于用手机办理银行业务的话,我反正认为这样做很不明智——你只需要打开广告页面,你甚至都不需要点击广告本身,只要打开页面就足以让恶意软件破坏你的手机。只要打开一个装有恶意软件的网站就足以渗透你的手机。

个人数据不仅可以用来做广告,还会影响你看到的商品价格。你在网上调查酒店客房,比较各家网站,一边看一边注意哪里有你感兴趣的房间,哪里的房间比较便宜。找了一圈之后,你回到先前列出便宜房间的网站页面,结果发现刚才看好的房间涨价了。或许他们确实只剩一间房,就像网站所说的那样,“16个人正在寻找这一房型,其中14人在刚才两秒钟预定成功。”或许他们说得是实话——我反正不信,但是并非没有可能。不过很多情况下,网站意识到你走了又回来了,现在打算订这间房,换句话说你大概已经不想再找了,愿意多花一点钱。所以他们就稍微抬点价钱,多赚一点。某些在线购物网站也会应用这种算法。他们利用你的IP地址推测你目前的线下所在地,然后搜索在你的步行范围以内有没有正在打折的店铺,最后根据搜索结果来确定商品价格。显然,这种算法歧视了居住在特定地点的人们。将来的机器学习算法肯定会发现与愿意多花钱的顾客相关的特点,并且借此宰他们一刀。或许未来的法律会保护这些个人特点,公开使用这些特点将会犯法,但是网站本身未必就一定意识到了他们的算法正在基于他们不该使用的标准非法歧视特定类别的用户。

个人数据正在被越来越多的商业网站获取,并且被越来越多地用于商业目的。我想特别指出,就算上述某些例子看起来完全是良性的,未来的发展也未必会一直保持良性。最后我们来看看你的数据对于罪犯值多少钱。画面上列举了罪犯愿意为良善公民的个人数据开出的价码。根据Avast 公司的统计,一个信用卡号加上后三码最多能卖到20美元,驾照扫描件20美元一张,邮箱附带密码2.3美元一套,社保号码1美元一个,要是舍得出1.25美元还可以专门收购特定某个州的号码。当然这些数字波动极大。每当某个大型网站遭到黑客入侵或者大量信用卡信息泄露,市场都会遭到淹没,相应信息的价格自然也会下降。过去几天就有新闻报道曝光了大量店铺使用的某款在线销售软件感染了恶意Java脚本。这款脚本专门在顾客结账时收集信用卡信息。三四天之前我在BBC上看到这则报道,然后就开始追踪进一步报道,然后找到了进行诈骗的人,再然后在Github上面看到了报道当中的脚本。诈骗人员发现了这段特征鲜明的脚本,然后将这段脚本扔进搜索引擎,搜索出了一百多个使用这段脚本的网站。然后我继续研究哪些英国网站使用这套代码,最起码也发现了一百多个。

我曾经惯于使用某个网站订购酵母和面粉,因为我想亲手做面包。所以我的信用卡信息也被盗了,有人盗用我的信用卡信息购买世界杯门票,还订购了机票与住宿。万幸的是银行赔偿了我的损失。然后我换了一张新卡,不出两个礼拜新卡也出问题了。这一来我确定了问题就出在这个网站上。我联系了他们,他们解决了问题,现在我又能高高兴兴地从他们那里买东西了。有趣的是,围绕着信息失窃存在着非常严重的问题,许多商业店铺都遭到了侵入,沦为了盗窃此类信息的陷阱。这个问题并没有消失,我们只能希望全新的全国赛博中心能够显著化解这一威胁。

所以总而言之,你的时间与个人数据对于商业公司都非常重要,因为它们可以被变现。而且这些公司收集的数据量早已经非常大了,这一点增加了他们的权力。他们如今拥有了前所未有的、针对目标市场的能力。针对目标市场的理念并不新鲜,网络时代之前人们就会将广告放在特定的杂志上,因为他们觉得想要购买特定颜色的法拉利跑车的特定群体人会阅读这些杂志。但是大数据分析意味着你可以针对共同具有某些特定兴趣的一小群人。正如我所说,这一点可以用于相当良性的广告宣传目的。但是眼下这一点正在逐渐被用来针对政治运动当中的选民。美国的情况尤其严重,英国的情况也正在恶化。这创造了有趣的现象,因为免费引擎我们每天都在用,但是免费引擎也总得花钱。一旦我们全都使用广告拦截软件,挤压了搜索引擎的收入,他们又要怎样提供免费搜索服务?目前我们还没能解决这个难题,因为互联网发展得太快,将立法监管与政府行为远远甩在了后面。所以我刚才所说的一切都只是暂时现象。唯一可以确定的是,五到十年之后的互联网将会与今天的互联网全然不同,将会发生显著变化。

我最后想鼓励大家参与政治对话。上下两院正在讨论两个法案,一个是数字经济法案,另一个是调查权法案。关于政府部门应当如何利用与公开个人数据的问题,关于动机各异的各种机构应当如何获取这些数据的问题,这两个方案都包含了不少有趣的主张。如果我能促使你们去读一下法案的草稿,并且稍微改变一下你们的观点,那么我今晚的工作就算没有白费。谢谢大家。

通宝推:唐家山,桥上,普鲁托,十里铺基干民兵,TyphoonDoksuri,
全看分页树展 · 主题


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河