是的,根据来自欧洲顶尖研究型学术院校——荷兰拉德堡德大学、洛桑大学、鲁汶大学的三位科学家的最新研究,全世界前10万排名的网站中,有近5000个门户网站都有过这样的行为,如福克斯新闻、商业内幕(business insider)、时代(Time)等网站。
通过研究人员自制的爬虫脚本可以看到,在某一网站的登录界面输入邮件地址,鼠标移动到下一个输入框后,网站后台就已经准确抓取到了已输入数据:
用研究人员的话来说,就是“当点击下一个字段时,它们会收集前一个字段”,包括用户每一次修改的数据,甚至是账号密码。
那么,这样的抓取行为到底是如何做到的?
事实上,很多常见的登录窗口都是表单网页,这是HTML中的一种概念,可以使网页和用户之间进行交互,并将用户填写的数据发送给服务器端。所以这些网页也可以被看作是一张或多张表格,用户名、密码、邮件地址等输入信息就是表格中的一行行数据。
不仅为了满足基本的网页交互需求,还出于其他要求——比如检查键入的数据是否符合要求——用户的所有在线活动,包括鼠标点击和键入数据,对于网页来说都是“透明”且“可抓取”的。
于是,很多网站便会使用一些第三方追踪器来监测用户,用于提供服务、广告、营销活动。
这些活动的合法与否,就在于网页只是暂时抓取数据进行合法的交互,还是进行了行跨网站、跨平台和持久的识别。
以Meta为例,它曾开发过一款第三方的网站事件管理/收集工具,Meta Pixel。
Meta Pixel有一种叫做“自动高级匹配”的功能,可以自动从网页的表单数据中收集个人标识符,通过这一身份认证,就可以锁定同一用户在不同平台上的操作,进而测量广告的转化率和成效。
同时,官方文档里也写明:在用户提交表单时,Meta Pixel才会触发数据收集。
但研究人员在调查中发现,Meta Pixel脚本在没有识别到提交按钮,或者监听(表单)提交事件时,也会触发数据收集机制。
也就是说,安装有这一追踪器的网站,在用户点击提交按钮,甚至放弃表单关闭网页之前,就已经收集到了个人数据。
研究团队统计发现,有超过1.5万个网站可能通过Meta Pixel泄露了信息。
此外,另一个较为出名的第三方网站事件管理工具,TikTok Pixel也有和Meta Pixel同样的问题,涉及了上百个网站的信息泄露。
研究人员分别选出了美国和欧盟地区的十大泄露信息次数最多的网站,可以看到,其中的第三方网站事件管理工具除了上述两家,还有taboola、Bizible等广告商。
据了解,三位研究人员Asuman Senol、Gunes Acar、Mathias Humbert从去年开始调查,共爬取了10万多个网站。在发现问题后,团队已经在今年3月份向Meta提交了一份错误报告,该公司很快指派了一名工程师处理这个案件,但自那以后,就再也没有收到过更新报告。而TikTok在得到通知后,也并没有进一步的回应。
研究团队表示,针对上述问题,他们已经开发了一款检测网页非法表单的插件,并将在今年8月份的Usenix安全会议上展示他们的发现,包括调查结果和爬虫程序的构成。
采写:南都见习记者杨博雯