本文来自微信公众号:果壳 (ID:Guokr42),作者:沈知涵,编辑:卧虫,头图来自:unsplash


你和朋友坐在一起聊天,随手把手机扔桌上。你问他,家里暖气不热怎么办?夜晚,你便在小红书的信息流里刷到“教你给暖气放气”。你人一惊,心想“难道又被手机窃听了?”因为你从未主动搜索过类似话题。


如果确实存在“App 监听谈话”,那其目的大多是为了各种应用平台信息、商品、广告的精准推送,但这却是个人信息(或隐私)获取的众多方式中,最为敏感,也最不“划算”的一种。它被反复提及,原因是用户总能发现“巧合”,却难以对其证实。相关商业公司也只是否认,拿不出反驳证据。


如果 app 真的通过麦克风一直监听我们,到底可不可行?


语音助手先遭质疑 


人们的确曾抓到过智能音箱和语音助手的把柄,亚马逊 Alexa 曾因为错误理解指令,把“偷听”来的谈话录音发给用户通讯录里的好友,证明麦克风偷听并非臆想。


2018 年,一对住在俄勒冈州的夫妇突然接到朋友电话,被朋友告知,收到了他们家 Echo 智能音箱发来的聊天录音。确认了谈话细节,他们这才相信,被偷听了。


他们找到亚马逊讨个说法,对方出面解释道,有一种可能是当事人在对话中某个发音很像“Alexa”,由此唤醒了它。在随后的谈话过程里,Alexa 错误地以为听到“发送语音信息”的请求,又错误地听成是某位联系人。亚马逊说,这种事情发生的概率极小,但也有意外。


如果不是麦克风一直在听,智能音箱怎么知道用户喊它了?乍一听,好像有点道理。


2020 年,一位产品经理在 hackernoon(一个技术分享社区)写过一篇文章专门解释这个困惑。他拿 Siri 举例,说 Siri 确实在“听”,但它“听不懂”,直到被“Hey Siri”触发后,它才开始理解你的指令


Siri 确实在“听”,但它“听不懂”丨图片来源 Giphy<br label=图片备注 class=text-img-note>
Siri 确实在“听”,但它“听不懂”丨图片来源 Giphy


因为 Siri 只是听懂你在喊它,就已经耗费很多“力气”。落到麦克风上的声音会以 0.01 秒为一帧,每次 20 帧(0.2s),被输入到深度神经网络,进行本地计算。深度神经网络将这些声音转换成概率密度函数。当函数值达阈值,主处理器被激活。在主处理器激活之前,处理声音做这些事情的是协处理器。


所谓协处理器可以理解为,具备有限的功能和电量消耗的辅助处理器,允许用户在屏幕关闭时,访问一些“始终开启”的功能。比如它帮助分担处理来自加速度计、陀螺仪等的数据,改善手机续航。(不然,你的运动步数是如何统计的?)“Hey Siri”功能推出后,它就帮着 Siri 处理声音。Siri 理解,你不想让它听的声音,它就“左耳进右耳出”。


那 app 会不会跟语音助手一样呢?如果它“左耳进”,但“没右耳出”呢?


“Hey Siri”可被看作是苹果的“底层应用”,是写在系统内部的,相比之下,iOS 系统之上的应用,调用系统权限的时候,用户不会那么“无感”。


技术上可以,但算不过账来 


2019 年,国内的一个开发者团队写了一个安卓 app,在演示中,app 获取“录音”权限后,锁屏在后台监听。开发者对麦克风说,“今晚吃什么?”服务器端就收到 app 上传的语音转文字后的信息。他们为了证明,抛开所有限制条件,仅从技术角度来说,“app 在后台监听到用户说什么”是可行的。


为什么强调“仅从技术上”?因为想要完全绕过用户的注意,实现“偷”听,难度可就大了。2017 年,Facebook 广告负责人 Antonio García Martínez 在《连线》上撰文。他说,如果 Facebook 通过麦克风记录听到的所有内容,在功能上等同于用户和 Facebook“一直通电话”。


如果 Facebook 通过麦克风记录听到的所有内容,在功能上等同于用户和 Facebook“一直通电话”丨图片来源 Giphy<br label=图片备注 class=text-img-note>
如果 Facebook 通过麦克风记录听到的所有内容,在功能上等同于用户和 Facebook“一直通电话”丨图片来源 Giphy


有人做了实验,录音一小时(采样率 48khz,比特率 256kbps),文件大小达 112.39M,消耗电量 6%。低功耗长时间的录音,耗电量不是很大。如果多个 app,多个 SDK 同时使用该方式,手机会变得又热又烫。


如果你手边正好有一台 iPhone 6,打开 Siri 设置会发现,那时“Hey Siri 只有在充电时才能用”。得益于低功耗的 M9 协处理器,苹果在 iPhone 6s 推出时,才首次加入始终聆听“Hey Siri”功能。


低功耗长时间的录音,耗电量不是很大,如果十个一起呢?丨图片来源 hackernoon<br label=图片备注 class=text-img-note>
低功耗长时间的录音,耗电量不是很大,如果十个一起呢?丨图片来源 hackernoon


你难以想象“实时传输”能产生多少用户数据。Martínez 假设用户每天使用手机时长为半天,以当时来计算,“网络通话”的单向传输速率平均 24kbps,每人每天传输数据大约 130MB。当时 Facebook 仅在美国的日活是 1.5 亿,每天产生大约 20PB 数据。Facebook 数据库中存储了 300PB 的数据,每天处理的数据量大约 600TB。这样一算,监听所产生的音频数据就是每天要处理的 33 倍了。即便公司体量如 Facebook,也难承其重。


如果使用语音压缩技术,再分段传给服务器存储,再去处理呢?


以 iLBC 语音编解码器为例,采用 20ms 的帧格式,语音数据经过编码之后的速率为 15.2Kbps,每分钟数据 112KB。即便每天只监听用户 1 个小时,每年产生的数据,也会用掉用户 2.5GB 内存。


也许有人仍有疑问。既然这条路行不通了,手机、app 厂商可以在本地将“语音转文字”,过滤后提取有价值的信息,再上传到后台服务器。抛开这样做后台运算会“吞噬”CPU,造成手机性能下降不说,担负的成本也不低。


Google 以 0.006 美元/15 秒向第三方出售其“语音转文字”服务。(一个用户)每天转写 24 小时的成本是 12614 美元,即便每天转写 1 小时也得 525 美元。


2021 年初,时任(中国)App 治理工作组技术专家何延哲在做了实验和检测之后称,目前还没有发现哪款 app 有把语音信息上传之后的偷听行为


来,我们简单测试下 


根据各个平台的隐私政策,获取麦克风权限,淘宝是为了与 AI 客服对话,抖音是为了拍摄短视频作品,百度是为了语音搜索。


我做了一次从个人消费者出发的测试,想去证实两个怀疑,这三款主流的 app 有没有在无感知(没有启用麦克风)的情况下,录下我的对话;并将此用于 app 的个性化推荐和广告系统。


为此我尽可能规避其他变量,用一台抹掉所有内容和设置,并升级到 iOS15 以上的 iPhone 7 Plus 进行测试。并且注册了以上三款 app 的新账户。


先将淘宝获取麦克风权限,置于前台,连续两天,每次 30 分钟以上对麦克风“输入”与乒乓球有关的音频和对话。再将 app 放在后台,重复以上操作。对抖音,百度重复上述操作。


两天测试之后,我开始检验。首先,一旦我试图在三款 app 中,启用麦克风(无论进行语音搜索,还是录视频),在手机状态栏都有麦克风启动提示。


在淘宝的推荐页面下,我下滑 100 个页面(标准版,每个页面大概四个推荐结果),没有推荐与乒乓球相关的商品和广告;在抖音的推荐页面下,我连续刷 100 个视频,没有出现与乒乓球有关的视频内容;同样在百度的前 100 个推荐结果里,没有出现与之相关的新闻标题。


至少在这次实验中,app 调用麦克风时无法不被察觉,也没有将我的谈话内容,和周围环境声音,“转化为”个性化推荐。


以为麦克风在偷听,是我的问题吗? 


就像开篇提到的“供暖”例子,基于社交媒体对用户的了解,你可能已经被准确打上“年轻女性”、“北漂”标签,恰好“北京供暖”这个话题搜索热度高。帖子可能被推给了 10 万打着同样标签的人,其中恰好包括你,你理所当然地认为自己被监听了。


这可能是证实偏差(confirmation bias)在作祟。证实偏差是一个心理学上的概念,它就像脑中的过滤器,留下你认为正确的。而把那些与需要不相关的其他信息无意识地过滤掉,选择性注意。它也被称“视网膜效应”,或“孕妇效应”。


证实偏差就像脑中的过滤器丨图片来源 Giphy<br label=图片备注 class=text-img-note>
证实偏差就像脑中的过滤器丨图片来源 Giphy


类似例子非常常见。2008 年美国大选时期,研究者发现支持奥巴马当选的选民购买了更多正面描写奥巴马的书,反对者则是那些批评奥巴马书籍的主要买家。很多时候我们不可避免地带入这种“主观性”,它是影响我们大脑做出正确判断的主观因素。


你与男朋友在外散步,讨论起最近搬家,话中谈及买什么牌子的投影仪好。结果你晚上回家刷手机,不仅在社交媒体上被推荐中介看房,淘宝还给你推送了新款投影仪。这时候,你刚准备跟男朋友炫耀“我就说,手机一定在窃听我们。”等等,冷静了一下,回忆起自己出门根本没带手机。


这种情况之所以发生,也许是你的男朋友已经在网上浏览过搬家,如何挑选投影仪。而你们因为在网络上互为好友,被监测到相互转发等行为,已经被广告系统标注为“有共同兴趣”。


所以广告系统已经这样成熟了吗?


没必要,真的没必要


至少在商业消费领域,通过“偷”听来获得的用户数据,质量不见得高,但需要付出的成本极其高昂,公司没必要为此买单。


2018 年,今日头条在被质疑通过麦克风获取个人隐私时回复,他们的做法是“除非用户明确点击授权,否则无法收到用户的语音信号。”


几乎所有主流 app 都表明类似立场。因为对于第三方 app 来说,它们想不为用户发觉,或突破系统权限进行监听几乎不可能。iOS14(Android12)升级后,只要麦克风启动,就会在下拉状态栏的屏幕上方有所提示。


比起用麦克风窃听,商业公司有更成熟的“画像”方法。那些你看到的精准推送,可以基本上归因于大数据分析的结果。


如果投影仪厂商想投放广告,它可能会找任意一家互联网平台投放,后者根据在授权信息中出现“投影仪”、“电影”等相关标签的用户来推送。整个投放过程通过程序化广告系统自动完成。


那这些相关标签是如何建立的呢?


App 获取的第一个信息,就是移动设备标识号,在安卓手机上叫 IMEI,在 iPhone 上叫 IDFA。这跟注册、登陆该 app 无关,即便没有,用户的行为数据一样会被采集。这些行为数据里,你做了什么(观看、评论、购买等),停留时长,是一时兴起还是长期需求等,被赋予不同权重,构成一个兴趣模型的基本组成部分。


那些你看到的精准推送,可以基本上归因于大数据分析的结果。丨图片来源 Giphy<br label=图片备注 class=text-img-note>
那些你看到的精准推送,可以基本上归因于大数据分析的结果。丨图片来源 Giphy


经过一段时间对你的观察,模型就能给你的某个“兴趣标签”打分,并通过多个兴趣标签值,刻画出一个越来越“立体”的你。商业公司将无数个“你”进行分类,把同样的广告推给和你一样的人。让你有了平台好像比你更懂自己的“错觉”。App 可以根据你的 IDFA 跟踪你在其他 app 上的行为。这就是你为什么刚在淘宝上搜索“投影仪”,就在刷抖音的时候,看到淘宝的投影仪广告了。


今天的广告系统还能通过“依存关系”给你推荐。出于对隐私保护,iOS13 新增如果想要获取 Wi-Fi 名称,需要在调用接口前获得用户的定位权限。因为通过 Wi-Fi 信息可以定位到用户地理位置。但不代表不给定位权限,app 就没法锁定你了。App 还能通过同一局域网下的设备来跟踪。


因此 iOS 14 中新增了“本地网络”权限。App 想要访问同一局域网下的其他设备,需要经过你的授权(在此之前不需要)


通过获取设备的 MAC 地址(唯一的网络标识),获知某个局域网下,连接的电子设备型号,以及你的“关系链”。如果几个用户每晚都连同一个 Wi-Fi,那么 app 判断他们大概率是一家人。在“大数据”的加持下,能找到 MAC 地址,与 IMEI 号的对应关系,给你和家人推送的内容就会交叉共享。


其实,app 偷偷摸摸收集大家信息的行为,都不来自于“听”。


2020 年,来自浙江大学、多伦多大学、加拿大麦吉尔大学等学者展示了一项研究成果,手机 app 可在无用户授权下,利用内置加速传感器采集声音的震动信号。这种不通过麦克风等收、录声设备,而是通过其他传感器,比如陀螺仪、加速计,再通过深度学习等技术恢复语音数据的技术,被称为侧信道还原技术。


同样不易被人察觉的还有 SDK,嵌入在 app 内提供特定功能,方便开发者开发而存在。“当 app A 和 app B 都采取了同一家广告 SDK 时,那么 A 和 B 内收集的数据都可能上传至这一家 SDK 上,A 与 B 之间天然形成了数据共享。你在 A 上的搜索记录和使用习惯有可能就会被反映在 B 上。”浙江大学计算机科学与技术学院周亚金教授称。今年工信部检测出 13 款 app 内嵌第三方 SDK 存在违规收集用户设备信息的行为。


2021 年,网信办发布了对 33 款 app 违规收集使用个人信息情况的通报,一些耳熟能详的输入法产品也在其中。


商业公司如果真的企图获取用户的信息,麦克风监听性价比实在太低丨图片来源 Giphy<br label=图片备注 class=text-img-note>
商业公司如果真的企图获取用户的信息,麦克风监听性价比实在太低丨图片来源 Giphy


这些违法违规的信息收集手段,都会让我们产生被“监听”的错觉。商业公司如果真的企图获取用户的信息(甚至窃取用户的隐私),有很多方式。相比之下,麦克风监听性价比实在太低。


那我的担心能解决吗? 


手机厂商在尽量打消人们对于“用麦克风窃听”的顾虑和误解。


如上文提到,iOS14(Android12)升级后,只要麦克风启动,就会在下拉状态栏的屏幕上方有所提示。App 几乎不可能突破移动操作系统限制,直接调用硬件功能,实现用户无感的录音操作。利用系统漏洞、安装恶意程序等方式,技术难度和法律成本都极高。


麦克风启用提示丨图片来源手机截图<br label=图片备注 class=text-img-note>
麦克风启用提示丨图片来源手机截图


首部个人信息保护法出台。它规定,处理个人信息,应在事先充分告知的前提下取得个人同意,不得误导、欺诈、胁迫等。


同时,对于个人信息的收集,应当限于实现处理目的的最小范围,不得过度收集个人信息。处理个人信息应当遵循公开、透明原则,公开个人信息处理规则,明示处理的目的、方式和范围。这规范拿到的语音数据,放在哪里,如何处理。


苹果之前对于通过“Hey Siri”发送到服务器的语音,表示会按照隐私政策来处理,相当于给一个随机设备标识符,用完即“扔”。iOS15 更新后,希望将 Siri 语音处理本地化(目前国内还不支持)


如果用户想打消“被偷听的顾虑”,我们自己在客户端还能做些什么?


用户最先安装 app 时,可以拒绝调用麦克风的权限。对于已经在使用中的 app,安卓用户可以在“设置—应用设置—应用管理—某 app—权限管理—录音”路径下,关闭 app 对麦克风的获取;iOS 用户通过“设置——隐私与安全性——麦克风”,查看请求访问麦克风的应用,并关闭。


个性化广告已经成为了互联网广告的一种比较常见的模式,发生推荐结果也并不意味着 app 实施了监听。


iOS14.5 更新后,IDFA 的开关状态由“默认开启”改为“默认询问”。如果你此前没有关注到这一点,可以在“设置—隐私与安全性—跟踪”下,查看哪些 app 使用标识符来跟踪你,并且关闭它。


关闭程序化广告,广告相关度会降低丨图片来源 Giphy<br label=图片备注 class=text-img-note>
关闭程序化广告,广告相关度会降低丨图片来源 Giphy


当然看到 app 里的个性化广告时,你总不免焦虑,时常担心到底哪一个行为暴露了自己的信息和喜好。现在你可以手动关闭它们。


2019 年,澎湃新闻的记者发现,在今日头条 app 中关闭程序化广告后,用户看到的广告数量保持不变,但广告相关度会降低。南都在 2020 年的《个人信息安全年度报告》中对 50 款头部 app 测评,发现六款没有提供个性化推荐关闭选项。两年之后,这些头部 app 均已增加了这一选项。


个性化推荐选项一般在 app 各自的设置里,拿淘宝举例,通过“我的淘宝——设置——隐私——推荐管理——关闭个性化推荐”。


好了,这下手机不会“抢答”了。


参考文献

[1] https://hackernoon.com/how-does-hey-siri-work-without-your-iphone-listening-to-you-at-all-times-827932do

[2] https://mp.weixin.qq.com/s/lXqmU97nVBcKxklqYCpbhQ

[3] https://www.wired.com/story/facebooks-listening-smartphone-microphone/

[4] https://cloud.google.com/speech-to-text/pricing

[5] https://www.guokr.com/article/4935/

[6] https://sspai.com/post/61223

[7] https://www.androidauthority.com/your-phone-is-not-listening-to-you-884028/

[8] https://www.ndss-symposium.org/wp-content/uploads/2020/02/24076.pdf 

[9] https://mp.weixin.qq.com/s/X5sVzp7nY-MoY542Uep61g


本文来自微信公众号:果壳 (ID:Guokr42),作者:沈知涵,编辑:卧虫