Group of Software Security In Progress

GoSSIP @ LoCCS.Shanghai Jiao Tong University

Understanding Worldwide Private Information Collection on Android

作者:Yun Shen, Pierre-Antoine Vervier, Gianluca Stringhini

单位:NortonLifeLock Research Group, Boston University

会议:NDSS 2021

论文链接:Understanding Worldwide Private Information Collection on Android

摘要

移动手机可以收集唯一标识符(例如电子邮件地址)、用户位置、短信等大量隐私信息。在本文中,作者对Android进行了最大的隐私信息收集(PIC)研究。利用从流行的移动安全产品的客户那里收集的匿名数据集,作者分析了210万个独特应用生成的敏感信息流,发现其中87.2%所有设备都将隐私信息发送到至少五个不同的域,并且活跃在不同区域的参与者有兴趣收集不同类型的信息。美国和中国是收集最多隐私信息的国家。作者的发现提出了有关数据监管的问题,并将鼓励政策制定者进一步监管公司如何使用私人信息并在公司之间共享私人信息,以及如何真正确保责任制。

介绍

随着移动设备在用户的计算体验中变得越来越重要,与隐私信息收集相关的威胁也在增加。移动设备可以提供大量的敏感信息,第三方可能会出于恶意目的使用此信息来投放目标广告、监控受害者的位置进行跟踪,甚至窃取文本消息破坏双因素认证。

要获得移动应用程序收集信息的全面视图非常困难,以前的研究: (1)依靠在沙盒环境中运行应用程序或分析网络流量来监视泄漏的信息,但是: * 复制真实用户的地域是一项挑战 * 应用程序可以到检测沙盒环境,行动与实际设备不同。

(2)从ISP收集网络数据,仍存在地理偏差。 (3)招募参与者在手机上安装应用程序,但吸引足够庞大且多样化的用户群体仍是一项艰巨的任务。 (4)之前的研究主要关注设备的识别信息收集(IMEI号码、SIM卡信息),或由第三方收集的有限类型的敏感信息(生日、用户名/口令、联系人、媒体文件等)。

数据集

数据收集方法:

使用的数据集

工作流Workflow

  • 使用移动应用程序活动数据(❶)来识别来自200个国家和地区的1,730万个设备上安装的213万个应用程序(650万个SHA2)中的隐私信息收集活动。
  • 使用移动应用程序信誉数据(❷)和VirusTotal(VT)报告(❸),以识别潜在有害的应用程序(PHA)。
  • 使用域和IP Whois以及被动DNS(❹)提取域所有者信息、IP和域地理位置(❺)来确定发送数据的国家/地区以及IP和域黑名单(❻)。

遥测数据收集

使用由安全公司的移动安全产品收集遥测数据,然后通过具有静态和动态分析的管道来分析这些apk。 * 静态分析管道可以识别apk是否直接调用任何可疑和敏感的API(包括反射,动态代码加载,本机代码等)。 * 动态分析管道通过在不同条件下运行apk (例如,UI自动化,输入生成,apk模糊测试等)产生的不同执行时间,来捕获其在不同上下文中的活动。 * 同时使用从管道生成的功能构建了几种机器学习模型。

安全公司以指纹识别应用程序活动的痕迹,为收集隐私信息的应用程序开发签名。然后将这些签名部署在移动设备上的安全产品中,以标识隐私信息收集的已安装应用。

移动应用活动数据❶

从遥测数据中提取元信息:匿名设备标识符、设备国家/地区代码、时间戳、应用程序SHA2、应用程序包名称、访问的隐私信息的类别以及此类信息发送的域。

本研究中使用的22种隐私信息:

移动应用信誉数据❷

使用来自该安全公司的移动应用信誉数据来识别潜在有害应用(PHA),总共340万个PHA SHA2。

VirusTotal❸

查询VirusTotal扩充PHA数据集。如果VirusTotal至少返回六次检测结果,则将应用程序视为PHA;如果没有反病毒公司对其进行标记,则视为良性文件。结合步骤❷,作者确定了350万个PHA SHA2。

域/IP所有者组织 ❹

(1)利用域名Whois来识别已注册的域名。然后,通过识别这些组织拥有的所有公共IP地址,从Internet路由注册中心(IRR)中提取组织的IP足迹。另外,作者还使用Rapid7的被动DNS来识别域解析的IP地址,并发现由组织控制的其他域。

(2)来构建关系图。执行基于图的标签传播,将域映射到其最可能拥有的组织。

总体而言,数据集包含76,471个PIC 全限定域名,对应于40,851个(二级)域。

域和IP地理位置 ❺

首先尝试从与国家/地区相关的顶级域名(例如,比利时的.be)中定位每个域名。如果不行,将恢复基于该域的IP级托管基础结构对该域进行地理定位。

域和IP黑名单❻

查询大型域和IP黑名单,包括发送垃圾邮件、托管恶意软件、网络钓鱼和欺诈网站。

道德与数据隐私

在首次使用移动安全产品时,将向用户显示许可协议中遥测收集的目的,以及隐私策略。每个设备的匿名设备标识符在此研究中仅用于计算设备普及率,处理后将丢弃。

移动生态系统中隐私信息收集(PIC)的全景

A. PIC在移动应用程序中的普遍性

应用程序将收集到的隐私信息发送到平均2个唯一的PIC域。 * 超过175K的应用程序将收集的数据发送到至少5个独特的PIC域。 * 超过156K的应用程序收集至少5种不同的隐私信息类别。 * 数据集中所有设备的73.8%具有至少一个这样的应用程序,该应用程序收集至少5种独特的隐私信息类别并将其发送到至少5种独特的PIC域。

移动应用程序中的隐私信息收集是普遍的,同时也是多样化的。

B. PIC域: App状态研究

图3显示了在全球范围内被最多的应用程序联系的前20个PIC域。作者将这些PIC域归为三个功能:度量/分析(M),广告(A)和开发(D)。 * 大多数PIC域提供广告服务。 * 排名前20位的PIC域中有8个提供度量/分析(M)服务。 alog.umeng.com(属于阿里巴巴集团),是全球应用程序规模最大的领域,有79,402个应用程序与该域联系

  • 排名前20位的域收集了各种各样的隐私信息(例如,有14个收集通话记录信息,有13个收集SMS信息)。
  • 排名靠前的10,000个PIC域聚集了三种类型的隐私信息:设备、sim卡和位置信息。
  • 排名前100位的PIC域专注于收集更多类型的隐私信息并建立用户的整体档案。

PIC域的地理差异

图4a,4c和4e分别显示了在北美,欧洲和亚洲区域应用存在量最多的前20个PIC域。 某些PIC域具有较高的区域存在性。 * poseidon.mobilecore.com和seattleclouds.com在北美的应用程序占有率很高 * 总部位于俄罗斯的初创公司startup.mobile.yandex.net(1,832个应用程序和mysearch-online.com分别在欧洲和亚洲拥有很高的应用程序份额。

关于这种区域存在现象,作者推测这是由于这些公司通过专注于区域市场而采用的商业模式。

在区域上: * 北美前20个PIC域(图4b)主要收集设备信息和sim卡信息,而只有3个PIC域收集地点信息。 * 欧洲(图4d)和亚洲(图4f)的PIC顶级域名收集了更多种类的隐私信息。

C. PIC域: 设备渗透率研究

设备普及率排名靠前的PIC域

较高的应用程序存在率并不一定会导致较高的设备渗透率(向PIC域发送信息的用户数量)。全球设备渗透率前3的PIC域(settings.crashlytics.com,graph.facebook.com和ssl.google-analytics.com)分别覆盖了8.03M,7.8M和4.5M设备。

PICs地理差异

图6:热图说明了PIC域收集的主要信息类型。

  • 设备渗透率高的前20个PIC域着重于收集四种类型的隐私信息:设备、SIM卡、位置和设置信息。
  • 某些PIC域从设备中持续收集多种类型的私人信息,这可能使它们能够更系统地跟踪终端用户。

隐私信息目的地

PIC域地理位置

美国和中国是托管PIC域的最大两个国家。 * 美国拥有44%的PIC域名,与之前的文献一致。 * 中国拥有26.1%的PIC域名。这个数字是以前报道的三倍。 * 其他国家/地区拥有的PIC域要少得多。

全球隐私信息流

作者进一步研究了从移动设备到PIC域的全球隐私信息流。结果如图8a所示。 * 在美国托管的PIC域收集了全球隐私信息流的62%。 * 在中国托管的PIC域从全球459万个设备中收集了7%的隐私信息流。 * 托管在新加坡的PIC域收集了全球私人信息流的6.53%(主要来自印度)。 * 其他国家/地区收集的隐私信息要少得多。

欧洲隐私信息流与GDPR的影响

GDPR(欧盟通用数据保护法规)要求,如果将数据传输给第三方和/或在EU28之外,必须明确告知数据主体有关数据收集的范围、处理个人数据的法律依据以及保留数据的时间。

根据该法律,作者测量GDPR生效日期前后来自欧盟国家的隐私信息流,并检查GDPR是否有效对私人信息收集产生现实影响。

发现如图8b和8c所示。有趣的是,欧洲的隐私信息收集总体上不受GDPR的影响。无论GDPR的实施情况如何,这些PIC域(以及因此托管它们的国家)收集的隐私信息的比例都保持稳定。

数据预处理与控制

概览 图9显示了排名前25位的数据处理器和控制器。这25个数据处理器和控制器从1390万个设备中收集隐私信息(占本研究设备的80.2%)。 * Facebook和Alphabet是两个主要的数据控制器,分别从9.3M和9.1M设备中收集隐私信息。 * AppsFlyer是第三大数据处理器/控制器,可从3.4M设备中收集信息。 * 6家中国公司:阿里巴巴、百度、CloudMobi、MobVista、腾讯和Intsig (上海)总共从455万台设备(设备总数的26%)中收集隐私信息。

顶级数据处理和控制的操作

在前25个数据处理器和控制器中,总共有16个具有不超过21个PIC域。 * 大多数数据控制器更喜欢通过多个API网关控制数据流。 * 百度、腾讯和Adobe更喜欢使用许多松散耦合的服务来收集数据,因为它们的运营策略依赖于云基础架构。

跨境转移、非欧盟数据处理和控制及其对数据保护的影响.

排名前六位的中国公司正在从455万台设备中收集隐私信息。 * 百度有210个PIC域托管在中国境外,主要是因为* .duapp.com PIC域托管在AWS(美国)中。 * .mobvista.com托管在Amazon Web Services(AWS)和 .cloudmobi.net中,在美国和新加坡拥有混合托管环境。

一些中国公司拥有的许多PIC域不在中国托管,这种操作策略导致了对数据保护的不良影响。

对于如何保护和审核在这些公司拥有的PIC域终止的此类数据流的使用,以及向隐私政策中明确规定第三方国家的数据传输,仍然是一个悬而未决的重要问题。

PHA隐私信息收集的特征

PHA收集的隐私信息

  • PHA主要收集等跟踪信息,例如设备信息、SIM卡、位置等。
  • 116K PHA收集运营商信息,63K PHA也收集全球规模的运行中的应用程序信息,该方法更具攻击性。

主动式PHA的大多数都安装在北美的设备上,作者还确定了1,549个PHA(4,930个SHA2)从4,461个设备中读取/发送了SMS。

与恶意域的通信

只有少量的PHA与已知的恶意主机和域进行通信,并且此类域的设备覆盖范围有限。

总结

本文介绍了迄今为止有关Android上私人信息收集的最全面的衡量研究。证明了PIC在Android上很普遍,并且收集了各种类型的信息,并且在不同地理区域运营的参与者对不同类型的信息感兴趣。尽管大多数信息流都在美国终止,但作者观察到的信息流中有7%是流向中国的。作者还发现,像GDPR这样的数据监管法律在限制流向欧盟以外第三国的个人信息量方面并不有效。