注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

世界的瞭望哨

认识自己 认识世界

 
 
 

日志

 
 

互联网的新金矿:窥探并出售个人隐私  

2011-06-13 09:46:12|  分类: 互联网 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
一个小小的文件,匿身于比蒂(Ashley Hayes-Beaty)的电脑,帮着搜集她的个人信息,所有这些信息将以0.1美分的价格出售。

  该文件只有一行代码——4c812db292272995e5416a323e79bd37——隐秘地标识出她是一位住在田纳西州纳什维尔的26岁女子。

  这代码知道她最爱的电影有《公主新娘》、《初恋50次》和《我最恨你的十件事》,知道她喜爱看《欲望都市》连续剧,还知道她常浏览娱乐新闻并喜欢参加智力测验。

  “哎呀,我想着能留些秘密给自己,但是这下全没了!”当知道这一小段代码所泄漏的关于她的信息时,比蒂小姐感叹道,“这份个人资料真是出奇的准确。”

  监视着比蒂小姐的是纽约的Lotame Solutions公司,该公司使用一种称为“beacon”的精妙软件来捕捉人们在网站上的输入信息——他们的电影评论、发言或者对育儿与怀孕的兴趣。 Lotame公司并不给出人名,只是把这些数据打包成个人资料,然后将其出售给寻觅客户的公司。比蒂小姐的爱好信息既可以成批出售(每千个电影爱好者值1 美元),也可以定制出售(《50次初恋》的26岁南方影迷)。

  “我们能将这些数据一直细分到人。”Lotame的首席市场官波雷斯(Eric Porres)如是说道。

  《华尔街日报》的一项调查发现:窥探互联网用户是互联网上发展最迅猛的交易之一。

  日报进行的这项调查广泛全面,对公司施加于互联网用户的多种cookie及其他监视技术均做了评价与分析。它揭露出:除了少数行业先驱有所认识之外,对用户追踪的范围之广、侵入之深已然超乎其他所有人的想象。

  ? 调查发现:在大多没有警告的情形下,全国50大网站在访问者电脑上平均安装了64项追踪技术。12家网站安装了100项以上。而非营利性的维基百科(Wikipedia)一个也没装。

  ? 追踪技术更加智能,侵入也更深。过去的监视主要限于用“cookie”文件记录人们访问的网站。日报发现的新工具却可以实时扫描人们在网页上做什么,随即便能估定出位置、收入、购物兴趣乃至医疗状况。有些工具甚至可以在被用户设法删除后又偷偷再生出来。

  ? 这些个人资料是不断刷新的,在过去18个月里,类似于股票市场的买卖个人资料的交易场所如雨后春笋般涌现。

  新技术正导致互联网经济的转型。广告商以前主要在特定网页上购买广告——轿车网站上的轿车广告。而现在,广告商额外付钱在互联网上跟踪人们,不管他们去哪,都会有针对性很强的市场消息紧密相随。

  在互联网用户与广告商之间,日报鉴别出100个以上的中间人——追踪公司、数据代理者与广告网络——都在争着满足日益增长的个人行为及兴趣的数据需求。

  例如,比蒂小姐观影习惯的数据,正在一家新生的数据交换场所BlueKai公司被销售给广告商。

  “这是行业工作模式的彻底性改变。”BlueKai的CEO塔瓦科尔(Omar Tawakol)说道,“广告商想买的是接近人们的机会,而不是网页。”

  日报调查了50家最受欢迎的美国网站,它们约占美国人网页浏览量的40%。(日报也测试了自己的站点WSJ.com。)之后分析了由这些站点下载到测试计算机上的追踪文件及程序。

  整体而言,50大站点在日报测试机上共计放置了3180个追踪文件。将近三分之一的文件是无害的,只是用来记住访问最爱站点的密码或标记最热文章。

  但是由131家公司所安装的超过三分之二的追踪文件(2224个)都有问题,这些公司中的不少都涉足此类交易:追踪Web用户以建立可供售出的海量用户资料数据库。

  据日报的发现,此类技术的最佳“展所”是IAC/InterActive公司旗下的Dictionary.com。对这个在线字典站点的一次访问就致使234个文件或程序下载到测试机,其中223个都是来自追踪Web用户的公司。

  公司搜集的信息是匿名的,实际上,互联网用户都以一个分配给其计算机的数字,而非具体人名来标识。例如,Lotame就称其不知道比蒂小姐之类用户的名字——而只知道用代码数字标识的他们的行为和属性。那些不愿被追踪的人可以将其从Lotame的系统上删去。

  而行业人士声称数据是无害使用的。摩尔(David Moore)是WPP PLC旗下广告网络公司24/7 RealMedia的董事长,他就说追踪会给互联网用户带来更优质的广告。

  “一条广告目标正确的话,它就不再是广告了,而成为了重要信息。”他如是解释道。

  追踪并不新鲜。但是技术发展到如此强劲,如此普遍,乃至于有些美国最大站点说,若没有日报的告知,他们自己还不知道在访问者计算机上安装了入侵文件。

  日报还发现,微软广受欢迎的Web门户站点MSN.com所植入的追踪文件中还被塞进了数据:据创建该文件的追踪公司Targus Information所言,不仅有对网上冲浪者的年龄、邮政编码和性别的预测,还有一段代码包含对收入、婚姻状况、小孩年龄和房屋所有权的估计。

  Targus和微软都说他们不知道该文件流入到了MSN.com,而且补充说该工具并不含有“可辨认的个人”信息。

  追踪都是由一些称为“cookie”、“Flash cookie”及“beacon”的小文件和程序完成的。它们在用户访问网站时植入其电脑。据美国法院已有裁定,部署最简单类型的cookie是合法的, 这就像有人打电话时允许会话中的朋友聆听一样。法院尚未对更复杂的追踪器作出裁定。

  侵入最深的监视来自于业界熟知的“第三方(third party)”追踪文件。其工作原理如下:用户第一次访问某个站点时,就会安装一个追踪文件,该文件给计算机分配一个唯一性的ID号。此后,当用户访问与 同一追踪公司合作的另一站点时,文件就会记录用户以前在什么地方,现在又在什么地方。凭借这种方式,久而久之,公司便能建立起一份完备的个人档案。

  Yahoo公司的广告网络就是此类生态系统中的一员,它通过在网站上投放目标化广告来收取费用。Yahoo的网络就知道刚毕业的高中生瑞德 (Cate Reid)的不少事情,“她是一位对减肥颇有兴趣的13-18岁女子”便是其中一件。记者给她展示了一个Yahoo网站上鲜为人知的功能——广告兴趣管理 器(Ad Interest Manager),它显示出一些Yahoo已搜集的关于她的信息,当瑞德小姐看到这些时,她确认就是如此。

  瑞德小姐那时17岁,Yahoo的记录可谓命中要害:她确实曾担忧自己的体重相对于5.6英尺高的身材可能多了15磅。她自称经常网上研究减肥。

  “每次上互联网,”她称减肥广告就出现在眼前,“我都对自己的体重感到不自在,”瑞德如是说(应其父亲要求,不给出她的家乡)。“我竭力不去想它…然而[广告]又勾起我想它的念头。”

  Yahoo的女发言人沃曼(Amber Allman)称Yahoo不会故意瞄准18岁以下人群做减肥广告,但确有瞄准成年人的此类广告。

  “有可能这位用户接收到的是非目标化的广告,”沃曼女士说道,“也可能瑞德小姐所看到的瞄准她的广告来自于其他追踪公司。”

  人们在线活动所泄露出的瞬时性想法和行为的信息,很快就被转手交易。访问eBay.com或Expedia.com的几分钟内,Web冲浪者活动的详细信息可能就被拿到BlueKai(创立于西雅图)运营的数据交易场所竞价出售了。

  每天,BlueKai要售出5000万份类似于这样具体个人的浏览习惯信息,每份价格低至0.1美分。一旦网站被访问,拍卖就立刻上演。

  eBay和Expedia公司的发言人都称BlueKai卖的个人资料是匿名的,而且人们不会被标识为他们站点的访问者。BlueKai则称旗下网站给用户提供了一种简便的方法,可供他们查看监视到的内容。

  追踪文件上传到网站,然后又以几种方式下载到计算机。通常,公司只需付款给站点以分发他们的追踪文件。

  不过有时追踪公司会将其文件隐藏到提供给网站的免费软件中,或者隐藏在其他追踪文件或广告中。如果是这样的话,网站经常察觉不到他们在访问者计算机上安装了文件。

  有些追踪公司通常会配备“宽客(quant)”[译注:金融工程师],或者数量分析方面的数学专家,他们使用概率算法来尝试将所知某人的在线行为与家庭收入、地理位置和教育等等的离线数据源进行配对。

  其目标是为了实时作出精准的推定——夏季度假计划、偿贷可能性——并售出这些推论。

  有些金融公司正开始使用这种方案,基于对访问者收入和教育程度的推定,将全然不同的页面呈现给他们。

  Byron Udell & Associates公司下属的人寿保险站点AccuquoteLife.com上月测试了一套系统,“对于那些确定来自郊区、大学教育程度的婴儿潮一代 [译注:在美国,指1946-1964年生育高峰时期出生的人群]访问者,默认保单数额为200-300万美元,”Accuquote主管切尼(Sean Cheyney)说道,“而一位来自乡村、工薪阶层的老年人可能会看到一份数额为25万美元的默认保单。”

  “我们正驱使人们各行其道。”切尼先生如是说。

  用户追踪是在线广告经济的基石,去年,该项经济的广告花费累计达到230亿美元。追踪活动呈爆炸式增长。AT&T实验室和伍斯特理工 学院(Worcester Polytechnic Institute)的研究人员去年秋天发现:1000家流行网站的80%都使用了追踪技术,而2005年这些站点的使用率还只有40%。

  日报还发现了收集健康和财务敏感数据的追踪文件。在大英百科全书(Encyclopaedia Britannica)公司的字典类网站Merriam-Webster.com上,来自广告网络公司Healthline Networks的一个追踪文件会扫描用户浏览的页面并投放与其所看内容相关的广告。因此,如一个人查询抑郁症相关的单词,就会在该页看到 Healthline的抑郁症治疗类广告——而且在其他站点访问后续页面时也是如此。

  Healthline称其不允许广告商在互联网上追踪那些浏览了敏感性话题,如艾滋病、性传播疾病、饮食失调和阳痿等的用户。据其市场宣传资料,公司确实允许广告商追踪那些浏览了躁郁症、膀胱过动症和焦虑症的人。

  目标化广告可能造成人身攻击。去年,德州奥斯丁的32岁教育软件设计师普雷斯顿(Julia Preston)在线研究了子宫病。随即,她开始留意到生育力广告在其访问的站点上显现。即便她现在知道自己没患子宫病,广告仍然照发不误。

  “真叫人坐立不安!”她说道。

  自从cookie这种小文本文件被引入早期浏览器Netscape Navigator,追踪在1994年便成为可能。那时的意图是为了用户方便:记住Web购物车里的内容。

  过去,在线广告几乎不存在。第一条网幅广告出现于同一年(指1994年)。伴随着1990年代后期.com的繁荣,在线广告也开始起步,广告商基于内容相似度来购买广告——在时尚站点投放鞋子广告。

  但.com的泡沫破灭引发了在线广告的权力转移——由网站转移到了广告商手里。广告商仅当有人点击广告时才付费。于是乎,站点和广告网络开始大肆使用cookie,以期把广告展示给最可能点击它们的人,由此才能得到报酬。

  目标化广告能获得溢价。根据3月份广告行业发起的一项调查,去年目标化广告的平均价格是每千浏览者4.12美元,而非目标化广告每千浏览者只有1.98美元。

  日报调查了三类追踪技术——基本cookie、更强大的“Flash cookie”和小段软件代码“beacon”。

  在日报所调查的站点中,超过半数安装了23个或更多“第三方”cookie。Dictionary.com安装最多,竟达到了153个。

  追踪公司主要靠cookie来建立特定计算机访问页面的清单。而更新型的技术beacon可以看到更多活动。

  beacon也称为“网络爬虫(Web bug)”和“像素”,是可以在网页上运行的小段软件。它们可以追踪用户在页面上做什么,包括用户的键盘输入或鼠标移动。

  日报调查的多数站点至少植入了7个来自外面公司的beacon。Dictonary.com的41个是最多的,其中几个来自追踪健康状况的公司,还有一个据称可以按几十项要素,包括邮政编码和种族来瞄准用户。

  Dictionary.com的董事长哥利(Shravan Goli)将出现如此多的追踪工具归咎于该站点曾与大批广告网络合作过,每个广告网络都会放置自己的cookie和beacon。在日报与该公司联系之 后,他们削减了在用网络的数目,并增强了隐私政策以更完整地揭示其行为。

  广泛使用的Adobe System公司的Flash软件可拿来在网上播放视频,却也提供了另一种追踪人的机会。Flash cookie本是用来记住用户的偏好,例如在线视频的音量设置。

  但是数据搜集者也可以使用Flash cookie来重装被用户删除的常规cookie,这样就让用户避免被网上追踪的努力消解于无形。Adobe对此类行为予以谴责。

  日报调查的大多数网站都没有安装Flash cookie。但Comcast.net安装了55个。

  这项发现令该公司感到惊诧,他们对此毫无察觉。随后,Comcast公司确定曾用过Clearspring Technologies公司的一个免费软件来在Comcast.net上播放一组明星照幻灯片。据Comcast说,这些Flash cookie正是通过该幻灯片在Comcast站点上安装的。

  位于弗吉尼亚州麦克林(McLean)的Clearspring公司称这55个Flash cookie是一个误会。他们已不再使用Flash cookie进行追踪了。

  首席执行官拉德法(Hooman Radfar)说,Clearspring免费提供软件和服务给网站,作为交换,他们会搜集用户的数据。他们计划最终将这些搜集到的数据卖给广告商,按他 的话说,这样站点用户就能看到“不令人讨厌的”广告。Clearspring称Comcast的数据将不再使用。

  不管是不是有意,人们为其在网上获得的信息和服务付出了隐私缩减的代价。那家含有最多追踪文件的站点Dictionary.com就是一例个案分析。

  据美国证监会(SEC)档案,这家站点的年收入在2009年大约为900万美元,这意味着该站点太小不足以支撑一个庞大的广告销售团队。因此它需要依赖全国的广告植入网络,而这些网络的商业模式就是建立在追踪上的。

  Dictonary.com的主管们称这种取舍对他们的用户而言是公平的,他们免费获得了字典和辞典服务。

  “不论是1个还是10个cookie,对客户的体验并无多大影响,而且我们揭示了此项行为。”Dictionary.com的发言人格拉汉姆(Nicholas Graham)说道,“这样到底怎么了?”

  据一些行业资深人士所言,问题在于:现在有如此多的用户数据拿来出售,却没有在法律上限定这些数据该怎样使用。

  直到最近,许多大型互联网广告公司才认为拿健康或财务状况瞄准用户是应予禁止的。现在,有些公司打算凭借窃听在线社交网络来将目标化提升至新的水平。

  日报在3家网站上发现了Media6Degrees公司的技术,该公司正向银行推销他们的数据,以便基于社会联系考量用户。其理念就是物以类聚、人以群分(信誉好的与信誉好的在一起,赖账的与赖账的在一起)。

  “这项技术的应用可以十分强大。”Media6Degrees的CEO菲利普斯(Tom Phillips)说道,“谁知道我们能让它发展至何种程度?”

  评论这张
 
阅读(433)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017