研究文章|开放获取
马里亚诺·马蒂诺,彼得•Quax Wim可能, ”敲IPs:确定为不加增值税HTTPS网站流量”,安全性和通信网络, 卷。2020年, 文章的ID7285786, 14 页面, 2020年。 https://doi.org/10.1155/2020/7285786
敲IPs:确定为不加增值税HTTPS网站流量
文摘
零利率是一个互联网服务提供商(isp)的技术允许消费者使用一个特定的网站没有收取他们的互联网数据计划。实施零利率需要一个精确的网站识别方法,也是有效和可靠的应用对实时网络流量。在本文中,我们检查现有的网站和应用零利率的目标识别方法。此外,我们证明这些方法的无效率等现代加密协议加密SNI和DNS / HTTPS,因此表明,互联网服务供应商无法维持当前零利率方法在即将到来的未来。要解决这个问题,我们提出“Open-Knock”,一个新颖的方法,能够准确识别一个不加增值税的网站,可以防止搭便车的袭击,并日益加密网络上是可持续的。此外,我们的方法不需要明文协议或前期预处理的指纹。最后,我们的实验分析揭示,我们能够将每个IP地址转换成正确的域名Tranco排名前6000的网站列表中为每个网站的准确性达50.5%,因此比当前最先进的方法。
1。介绍
网络中立的辩论有着长期的历史学者和工业强国。这个问题建立了互联网服务提供商(isp)是否合法授权区分不同类型的网络流量,用户消费。即使讨论正在进行,许多isp技术实现警察网络流量,以提高性能,降低财务成本,或提高客户体验(1]。这类方法之一,被称为“零利率”技术的网络流量产生的使用某些网站或协议不被消费者数据计划,因此允许他们花了几乎无限数量的互联网流量。2014年,零利率了吸引力,因为它会导致许多倡议内容提供商(CPs)和互联网服务提供商,比如Twitter零(2维基百科),零(3),t - mobile暴(4]。采用深度包检测(dpi)工具,零利率的适应没有技术障碍需要克服,虽然后来提出的挑战对于确定不加增值税网站符合成本效益的方式,同时仍然保持准确和安全。实施新协议零利率很少是一个可行的选择,因为它需要支持各种网络组织从浏览器到web服务器,即使这些一直直言不讳地批评这种方法(5- - - - - -7]。因此,零利率大多被集成到现有的体系结构从明文协议中提取信息,这样不加增值税HTTPS网站可以有效地从技术以及业务的角度8]。尽管他们的效率,主要的方法零利率容易搭便车的攻击,消费者能够规避零利率的实现,因此,不收取正常non-zero-rated交通(9]。另一方面,消费者的情况下访问一个不加增值税网站同时充电,交通也出现错误10]。由于这个原因,一个准确和安全的HTTPS网站的识别是必要的为了维持零利率功能在即将到来的未来。
类似的方法部署零利率也适用于各种网络内容分发网络(cdn)等演员其他网络分类问题。在过去的十年里,这些网络参与者能够分析网络流量的协议如平原DNS或普通HTTP,例如,获得洞察消费者的网站使用的是(11),遵守执法情况下,或保护未成年人利用家长控制软件(12]。然而,揭露隐私的滥用在过去几年已经上升到一个广泛的增长等HTTPS级别的加密协议加密服务器名称指示(ESNI)和DNS / HTTPS(哎)。很明显,这些协议提供者使它更难以有效地进行这些分析没有CPs的积极支持和浏览器(13,14]。解决这个问题在以前的研究中已经探讨了网站/网页的指纹,在这一个网站是基于加密的网络流量识别样本。然而,这样的方法是不积极使用在实践中由于一些局限性15,16]。
然而,无法推断出哪些网站用户访问,一起可能性当前零利率实现大规模的滥用,将会不可避免地导致重大经济损失或对isp和DPI供应商商业模式的转变。为了解决这些问题,我们需要一个方法,该方法能够准确地识别不加增值税网站加密网络流量,同时防止滥用搭便车的攻击。
本文提出了以下贡献:(我)我们讨论和总结现有零利率HTTPS网站的识别方法。(2)为了演示这种方法固有的局限性,搭便车攻击是检查,这可能会导致大量的滥用,多数视为isp容易受到这种攻击。(3)此外,我们提出“Open-Knock”,一个小说网站识别方法专门为零利率的目的。在这里,我们能够识别一个HTTPS网站基于一个IP地址而无需预处理指纹或预选网站前期,呈现我们的方法可伸缩的网络流量。可选地,提高准确性,我们的方法是能够应用网页指纹加密流量(WPF)技术,而解决方法之前出现在WPF限制。(iv)最后,我们模拟“Open-Knock”技术在Tranco [17排名前6000的网站。在本实验分析,我们证明了这是可行的识别,因此,零利率HTTPS网站的50.5%基于给定的IP地址。精度可以增加到56.6%,如果一个网络流量跟踪网站的访问是可用的。特此,我们比以前先进的工作的准确性和适用性。作为额外的结果,实验表明通过ESNI加密域名的一些性质,哎明显减弱,取决于建筑网络选择由这些网站。
我们实验的数据集和一个在线演示工具也提供了为了提高再现性这一主题和未来研究计划(https://open-knock.com/openknock.php)。
2。背景
为了更好地理解我们的分析现有的零利率实现和我们建议的方法,我们首先澄清几个概念为HTTPS通信TLS握手。开始部分2.1,我们将讨论服务器名称指示(SNI)和加密的变体,ESNI扩展。此外,部分2.2描述了证书的使用TLS握手,最后,部分2.3讨论的主要概念和WPF技术的局限性。
2.1。(加密)服务器名称显示在HTTPS和DNS
服务器名称指示(SNI) [18)是一个扩展的TLS协议,指定主机名(例如,网站)浏览器或任何其他客户想连接。添加此扩展的TLS握手(更确切地说在ClientHello记录)使目标web服务器能够处理多个网站(因此证书)在同一IP地址和只提供证书,通过SNI客户机请求。由于IPv4地址空间的稀缺和世界范围内部分对IPv6协议的支持,更有利于服务器提供者使用SNI作为一个潜在的解决方案,因此,限制IPv4地址已经购买的数量和维护。此外,它也不是不寻常的共享主机提供商分配一个IP地址的所有或大部分的客户网站,从而共享同一TLS证书与发布商(通常情况下19]。因此,SNI今天现代web上的广泛支持的扩展。
作为初始RFC(草案18这个扩展的已经出版于2003年,所有现代客户支持SNI通过发送请求的网站的域的握手。尽管TLS≤1.2提供了加密(TLS 1.3 ServerHello加密记录后,所以SNI仍以明文发送),但最后的握手,因此发送SNI明文。因此,任何中间人(MitM)能够提取明文从网络流量域名,反过来,是用于广泛的工业和学术著作,我们将展示部分3.1。
因为隐私倡导者发现SNI扩展消费者隐私的问题,一个新的扩展名为“ESNI”[20.)是在2018年推出,加密对称密钥来自原始SNI,例如,以前的DNS通信。更具体地说,客户端请求的ESNI记录给定域名从ESNI-enabled DNS解析器。diffie - hellman交换然后得到一个对称密钥设置DNS解析器,它可以用于加密原始SNI和ClientHello的一部分发送。还包含了一个散列的ESNI扩展关系的公共keyshare ClientHello扩展本身。为此,ESNI不能使用另一个ClientHello,防止一个MitM重现同样的用自己的ClientHello ESNI。显然,DNS解析器和web服务器必须支持ESNI SNI避免潜在的回退标准。然而,额外的需求完全遵守ESNI保证保护域名:(i) TLS 1.3加密ServerCertificate记录设计选择在TLS 1.2中没有实现。这是重要ESNI表明证书发送,这意味着一个明文的证书可能间接泄露域名。(2)ESNI记录必须要求通过身份验证和加密通道(例如,DNS / HTTPS)客户机和DNS解析器之间,防止MitM提取记录。截至2020年6月,Firefox和Chrome已经实现ESNI等几个组织Cloudflare和谷歌也有ESNI-enabled DNS解析器可被公众使用(21,22]。注意,最近更新ESNI(草案20.]介绍了一些技术变化相关加密ClientHello记录和也更名为ESNI完成回声(23]。
最后,哎24)是一种协议,它允许客户端安全通信DNS请求和响应在HTTPS使用一个中间DNS解析器。明文DNS /端口53相比,该协议通常运行在端口443和加密所有DNS沟通。2019年6月以来,卫生署一直支持Mozilla Firefox和Chrome。尽管哎明文DNS解决一些固有的问题,意见有分歧集中所有DNS通信是否默认一个中间解析器将提高整个终端消费者的隐私25]。
2.2。x在TLS替代名称
在客户端可以与web服务器/ HTTPS, TLS握手必须首先被执行。在握手,ServerCertificate记录通常为客户端提供了一个x公钥证书(26证明了web服务器的身份。选择哪一种证书提供客户端通常是要么基于客户请求的IP地址是或SNI小节中提到的2.1。中包含的身份的名字普通的名字的证书,客户来验证它是否匹配的域名网站,它想访问。然而,以防多个域名,颁发的证书普通的名字字段不能适应所有领域,从而证明中的一个额外字段名为主题选择的名字(SAN)介绍。该字段包含所有的域名证书控件,使多个网站背后的一个IP地址更容易管理。
此外,圣领域甚至是必要的为老客户,不支持SNI因为他们并没有提供一个方法来显示域名在TLS握手。non-SNI支持客户端就能够自由地选择域名要访问的san。虽然SNI扩展被广泛支持的所有现代浏览器(例外:例如,IE 6.0 pre-Windows Vista和Android 1. x - 2. x),通常可以作为non-SNI客户端,因此接收SANs的列表,这表明一些或所有域名的IP地址或底层web服务器可以处理。之前的工作执行存在这样的提取(27),但尚未探索的零利率上下文。
2.3。网站上的指纹
在HTTPS通信时,url和HTTP的身体数据等敏感数据加密,从而防止敌对mitm。然而,元数据通常不被认为是敏感的时机和规模HTTP数据包在TLS记录仍可测的对手。通过利用正是这样的元数据的特点,MitM能够区分不同的网页或网站,因为它可以观察模式在客户机和服务器之间的通信。这些模式的检测奠定了基础的网页或网站指纹(WPF)。程和Avnur28)是第一个考虑的可能性,指纹识别网页/ HTTPS。在过去的十年里,相当数量的作品建立在这个最初的概念,设计了新的技术来进一步提高实用性和准确性(29日- - - - - -31日]。一个广泛的概述WPF攻击/ HTTPS提出了以前的工作,因此本文的范围。
相反,我们讨论了一般考虑需要理解的概念应用于我们的论文。深入研究这些问题提出了相关的华雷斯et al。16]。首先,(我)之前的工作主要是集中在指纹识别每个网站的主页,而不是收集多个网页/网站。因此,这样一个WPF分类器是无法准确预测其他网页中包含相同的网站。此外,(ii)网页的集合指纹之前必须建立能够预测特定网页被访问。例如,如果敌人感兴趣预测所有网页从维基百科,它首先必须multisample在维基百科上每一个网页为了构建必要的指纹,在大多数情况下这是一个不切实际的任务。最后,(iii)的各种现代客户很重要,导致网络流量的不同从而导致WPF攻击大幅减少在精度上执行客户(例如,浏览器)没见过。
此外,这些研究的目的通常不是提供零利率的功能,而是揭示的可能性绕过某些协议或Tor或vpn等对策。因此,现实的WPF已知模型的精度远低于零缺陷是可以接受的。事实上,零利率,显然,识别给定的网站或网页应该有极低的假阴性,防止问题的消费者使用零利率的网站,同时还被指控在他们的数据计划由于潜在的错误分类。
3所示。相关工作
追踪和分析用户的行为模式通过使用明文DNS和SNI等领域被广泛探讨了在以前的作品(32- - - - - -34]。度和ESNI介绍了在2018年,小的工作已经从一个安全和隐私的角度进行的。帕蒂尔和鲍里索夫35)执行一个互联网测量实验,Alexa网站爬前1米,每个产生的IP地址的唯一性进行了分析。在他们的工作,他们证明一个域名可以推断出从48%的网站在一个封闭的世界场景(场景,只有大量的预选或预处理网站可以确定)。测量生产1米的网站,这意味着如果一个人想保持所需的精度,他们应该定期重启爬行过程更新结果集的IP地址。此外,餐馆等。36)提出了一个n元模型来预测域名从DoH基于数据包的大小和时间。他们实现F1-score 70%在1500年的一个开放的世界场景监控网页和演示健壮性填充等对策。在这里,他们承认他们得到的分数是敏感客户的位置和DNS解析器,因此大大减少当执行在不同的设置。
3.1。网站的识别方法
虽然网站专门为零利率识别方法研究在学术文献中,没有多少研究了零利率的实际实现由isp和CPs [1,9]。许多专利,将零利率已由DPI供应商,isp, CPs如Facebook (37],t - mobile [38)和思科(39]。尽管重大金融努力投入这些技术,我们不过展示他们有相同的技术局限和漏洞,我们观察在学术文献。这些限制之一是无法自动检测或阻止搭便车的攻击,攻击者可以修改自己的网络流量,这样它就像一个不加增值税服务或网站。另一个担忧是,大多数当前的方法是不可持续的在不久的将来,因为他们不支持新崛起的加密协议,我们认为最终会消除许多现有的方法。
在本节中,我们详细讨论这些网站识别方法和分析是否适合检测交通不加增值税。此外,我们探讨实际问题和搭便车行为攻击的可能性,最后,研究这些方法的长期性能。为了更好地解释这些方法,流的平均消费者浏览网页如图1我们将在本节中引用这个数字。总结现有的网站提供了识别方法表1这个表和列的解释如下:(我)HTTPS:该方法能操作与HTTP / TLS流量。(2)支持:目的地的方法需要支持web服务器或客户端(例如,安装某些软件在客户端)。(3)带内:该方法不需要积极带外沟通正确操作。例如,可以使用被动MitM,它只读取网络流量,但不修改,下降,或者附加额外的流量。(iv)ESNI度:这个方法是可行的,在网络流量ESNI和卫生署协议。(v)搭便车我:这个方法是健壮的搭便车攻击额外MitM部署(例如,一个web代理)。(vi)搭便车II:方法是健壮的搭便车攻击而不需要额外的MitM网络节点。(七)打开设置:该方法不需要初步了解可能的网站可以被识别。
我们的方法“Open-Knock”也列在表和讨论部分4。(1)非- - - - - -HTTPS。确定网站非http流量很容易实现,因为它是未加密的。Kakhki et al。9]表明,t - mobile等一些isp解析HTTP头信息以识别网站。例如,提取“主机”头可能表明所使用的网站,而“内容类型”头指定类型的网络流量。通过解析这些每个HTTP请求和响应头,ISP能够准确零利率特定类型的流量从一个特定的网站。然而,作为一个客户端可以修改这些头,绕过这个方法很简单。截至2020年6月,排名前100万的网站的85%和85%的互联网页面加载默认使用HTTPS (44,45),从而使其无法解析明文的HTTP头信息,大多数的这些网站。(2)白名单“诱导多能性”。白名单IP地址对应于一个给定的网站是最早的方法零利率HTTPS交通(3]。在这里,一个CP ISP提供IP地址的列表,其中每个IP地址使用的是不加增值税CP的网站。ISP因此能够识别所有数据包注定或来自这些IP地址通过部署一种IP匹配的规则(可能在执行c1 -c2在图1)。虽然这种方法难以规避,是这样,但是,需要合作的CP通常是不切实际的收集所有可能的IP地址的列表,不加增值税网站可能使用。CP通常没有控制从供应商所托管的外部IP地址(例如,cdn或者网络分析服务),因为他们可能会引入新的IP范围,恕不另行通知。维基百科基金会等组织公开提供IP范围的列表,可以利用零利率他们维基百科网络流量(3),它已经部署了isp在南亚和非洲地区。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
“≈”表示依赖于所使用的特定零利率实现。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
4所示。零利率的Open-Knock:一个网站识别技术
4.1。上下文
说明我们的方法的细节之前,我们首先制定一个实际的场景,在该场景中,我们的方法是利用。我们的环境由图中相同的政党1。ISP,目前作为MitM,想确定不加增值税的消费者使用一个网站,这样可以正确地应用相应的零利率政策。为了预测网站的域名,ISP可以提取的IP地址的所有TCP连接消费者的网络流量。通过提供这些IP地址我们的方法,输出一个结果列表,匹配每个IP地址与网站的域名访问的特定的消费者。
因此,我们提出我们的新方法的细节确定HTTPS网站零利率,称为“Open-Knock。“在这里,一个HTTPS网站的域名是确定基于最初的IP地址我,从网络跟踪。此外,我们的过程也由一个(可选的)步骤,适用于网页指纹,完整的元数据T从所有TCP连接的IP地址我是必需的。Open-Knock的部署,使得我们能够逃避主义的一些保护特性ESNI并能延长之前作品的实用性的提取是基于明文域名DNS和SNI等。提出了一种Open-Knock的总结如下:(1)提取从san和执行反向DNS域名,IP地址我(2)过滤器的所有域名不可到达的,证书检查失败,或者不接受一个HTTPS请求(3)扩大通过爬行现有域名列表从相应的网站,寻找新的可访问的域名(4)利用DNS代表团特征过滤域名不是由IP地址我(5)预测可能的域名(s)(6)可选的:如果离开了多个域名,然后实时指纹剩下的域名(应用元数据T),创建一个WPF模型来产生最终的预测
每一个时间步的过程是由一个分段表示。输出每一步的域名列表是下一步的输入列表,其中每个输出列表R。在过程的结束,名单R将包含匹配的域名可能最初的IP地址我和网络跟踪(可选)T。给定一个IP地址我,Open-Knock可以产生一个预测相对较高的确定性或产生任何预测。在零利率的情况下,我们认为,生产没有预测远比生产低确定性的预测作为一个ISP通常已经有大量可用的网络流量,因此,更准确、定性输出数据定量输出数据申请其零利率政策。
4.2。提取的域名
我们建立了一个DPI-like MitM监测交通流从客户机到目标web服务器。为每个目标TCP连接,客户端在端口443上启动一个未知的IP地址,IP地址我保存DPI和用作输入元素来确定相应的域名。
这个过程的第一步开始当一个新的IP地址保存。这里,MitM启动4新带外TCP连接的IP地址在端口443和1.1执行TLS握手。这个握手发起以下4个选项:(1)执行一个TLS握手与有效的参数和一个有效的SNI扩展,是任何现代浏览器实现。(2)执行一个TLS握手射程2006年以前的密码套件和添加一个SNI扩展值设置为“example.com”。这个模拟客户端支持SNI但不是任何的密码SNI后被引入。(3)执行一个TLS握手射程2006年以前的密码套件和添加一个SNI扩展与空值和设置长度为0。虽然允许空SNI RFC6066 [18),很多实现显示当遇到这种奇怪的行为。(4)执行一个TLS握手射程2006年以前的密码套件没有SNI扩展。这个模拟的行为不支持SNI的老客户。
取决于背后的服务器实现IP地址,每个单独的选项可能会返回不同的域名SANs的TLS服务器证书记录。我们的分析表明,选择1和4组合将返回大约96%的域名。所有提取圣域名选择的选项是收集并作为初始输入列表R下一步的流程。除了域名从无聚集,我们还通过IP的反向DNS请求PTR记录我并将接收到的域名添加到初始输入列表R。减少搭便车攻击的风险,需要部署一个额外步骤来阻止可能的危害web服务器诡诈的像拥有一个特定的域名。这一步由验证是否收到受信任的CA签署的证书和目标服务器是否已经获得证书的私钥。为了这样做,TCP带外连接完成TLS握手为每个域和验证证书的正确性。
4.3。过滤器遥不可及的领域
与输入列表R递归域名,我们要求每一个根域名的记录(例如,域名“help.example.com”将导致根域“example.com”)通过DNS。检查每个返回的记录和相应的域名R随后从列表中移除,i.f.f.记录为空,这样我们过滤掉所有域名无法访问外部。接下来,从这些剩下的通过记录的IP地址,我们把第一个IP的每个域和执行一个HTTPS请求在端口443上的SNI将域名。如果请求失败或如果它不返回一个状态码200年至400年,然后我们也删除完整的记录和相应的域名从列表中R。为此,所有域名都不可能达到通过这个IP地址被删除。最后,可能HTTP重定向捕获从剩下的域名和原始列表中的域名将被取代的根域名重定向。
4.4。增加爬行域
在这一步的过程中,剩余背后的HTTPS网站的域名可能含有其他网站的链接不同的域Y,但背后的服务器的IP地址我也能提供证书吗Y。例如,溢价的主页共享托管提供商通常包含url的网站为客户开发的,其中的一些客户网站接受SNI值的其他客户网站由于共享背后的证书或CDN-type服务器托管提供商的IP地址。利用这些信息,每个剩余网站的主页R爬,直接捕获url指向其他域名。捕获的url然后再次访问通过最初的IP地址我通过执行一个完整的HTTPS请求与SNI将域名从捕获的URL,以确认是否可以和一个有效的证书是可用的。可获得该域名,如果相应的HTTPS请求不失败,收到HTTP状态代码是在200年和400年之间。根域名的访问url提取并添加到列表中R。
例如,我们从一个托管提供商拥有网站开始一个和B,但只有一个是在R。通过网站的主页爬行一个返回域名B和C。对于这两个域,我们发起一个TCP连接IP我,设置SNI ClientHello到对应的域名的网站(一个和B),最后请求根网页的网站。只有域名的请求将被添加到成功R。
4.5。利用DNS负载均衡和代表团
尽管目标在一个共享web服务器可以提供大量的无证书或它选择一个基于IP地址,它并不意味着所有这些域名的DNS请求导致相同的IP地址。例如,域X和域Y共享相同的证书提供的IP地址的TLS握手我,而DNS记录请求域X和域Y可能都返回一组不同的IP地址,无论地址吗我包括在内。在一般情况下,我们观察到有两个场景中,这种行为可能发生:(i) DNS负载均衡分布目标web服务器的工作负载转移的循环或参数化的方式返回的IP地址。(2)预先分配的IP地址来确定域名,因此DNS解析器简单地返回一个主要为每个域组固定的IP地址,无论如何构建相应的TLS证书。
场景(i)的目的是很难预测的“平衡”等参数可能取决于服务器的计算能力或位置。然而,场景(ii),相反,相对可预测的结果。检查如果CP (ii)实现了场景,我们执行以下步骤为每个域名d在R:(我)首先,我们发出一个递归的DNS请求域d并保存响应的IP地址P0(d)(2)接下来,我们介绍一个延迟问秒(问= 10,默认情况下),然后补发相同的DNS请求域d并保存的IP地址P问(d)(3)最后,我们数值命令集P0(d),P问(d)和比较这两个命令集;如果命令集是相等的,那么我们说域d是匹配
现在,我们考虑CP的IP地址预先分配i.f.f.超过一半的域匹配,小矛盾在返回的IP地址是可能的。例如,CP可能执行额外的负载平衡通过移除IP地址从DNS记录当时无法访问或通过只显示一个随机子集的IP地址分配给域名。在CP IPs是预先分配的实例,我们将删除每一个匹配的域d从Ri.f.f IP地址。我不包括在P0(d)或P问(d)。如果不预先分配IP地址,我们继续用同样的列表R是由前一步。
4.6。识别指纹
到目前为止,列表R可能任何一个域名左(或多个域名的根名称相同)与不同的根名称或多个域名。在前一种情况中,Open-Knock将预测的域名R这个过程结束。在后一种情况下,我们不能进一步降低列表,因此,无法预测一个域名。然而,指纹识别其余域名做出最后的预测可能是有的,但可能不会达到预期的精度被部署在零利率的环境。例如,如果对应的域名的网站包含很多页,很难指纹的网页数量的权利。然而,我们将讨论所有剩余的指纹识别过程域零利率政策这样的指纹识别方法是理想的。
在这个指纹识别过程中,我们认为每个域是一个功能的网站,现在就需要一个流量跟踪T(只包含TCP连接与IP我)网站的客户端访问期间的问题。加强这种附加信息,我们将指纹其余网站实时列车现有WPF模型,最后,应用我们的交通痕迹T该模型以产生一个最终的预测。首先,我们必须捕获每个网站的固体视图构建一个精确的指纹。在工作之前,每个网站的主页的通常被认为是给一个完整的视图website-an假设是不准确的15]。因此,我们的方法捕获多个网页在多个浏览器为了创建一个更健壮的指纹,在实际的工作环境。创建我们的列表为每个网站网页,我们第一次爬行网站的主页与一个固定的爬行深度和保存每个URL链接到相同的域d和HTML内容类型”文本\html”许多h随机的url然后选择。如果少于hurl是可用的,然后选择所有url。选择一个大h将生成一个更健壮的网站上的指纹,但增加网络带宽和训练时间。url的列表后,我们样品每个网页进行下面的流程与两个不同的浏览器:(1)我们通过浏览器访问每个选择URL使用硒(https://www.seleniumhq.org/),捕获所有TCP连接启动IP地址我(2)对于每个捕获的TCP连接,每个TLS的大小应用程序数据记录服务器客户端存储在样品吗(3)我们按时间顺序每个样本的大小元素,基于相应的TLS记录时间戳
在我们的研究中,我们使用最新的桌面版本(2020年6月以来)的Firefox和Chrome浏览器。因此,总的来说,2h为每个网站捕获样本。所有样品在这个过程被认为是捕获训练数据为我们的WPF模型。此外,我们输入训练数据到WPF模型提出的Liberatore和莱文56)和规范化等提出的(57]。这个模型使用朴素贝叶斯分类器,每个类代表一个网站。最后,我们的网络跟踪过程T类似于我们所做的与我们的训练数据和提供加工样品TWPF模型并使用它的输出类作为我们的最终预测。虽然我们可以选择任何WPF模型这一步,我们的初步观察表明,该模型不需要大量样本的准确识别一个网站通常就是这样与最近的模型(58,59),和当前使用的模型是专门设计了培训只在TLS记录大小的特性,这样的模式基于时间差异是消除。
4.7。结果
我们进行一个实验Tranco排名前6000的网站列表,我们将我们的Open-Knock方法应用到一个IP地址对应于每个Tranco网站。为了做到这一点,我们首先执行一个DNS请求每个网站(域名)Tranco列表并使用第一个响应中的IP地址作为我们的初始输入方法。类似于之前的工作,所有的网站列表中,没有根路径上首页,有无效的TLS证书,没有在欧洲(non-GDPR兼容的网站经常拒绝访问欧洲消费者),或负载超过20秒,从列表中被删除,导致3474年的网站。例子是网站不支持HTTPS web请求或那些阻止我们重复某种类型的防火墙。尽管规避这些问题是可能的,我们没有试图这么做因为伦理问题。我们每个IP域进行分类预测正确的,不正确的,或未知的。我们的结果显示在数据的划分2和3。在这个图表中,我们观察到50.5%的网站可以发现仅仅基于IP地址。此外,9.2%的IP地址,一个不正确的预测是,往往由于网络提供者(例如,WordPress)。事实上,这些提供者只支持SNI-capable浏览器,因此没有SNI的所有请求重定向到的默认主页提供商。这样的问题的另一个例子是,一些网站有多个证书部分无相同,这也会在不同的ip负载均衡,使我们的方法很难作出准确的预测。剩余的40.3%的网站(未知的预测),我们的方法不可能最终决定选择哪一个域名,因此,产生任何预测。Open-Knock不能产生一个预测的原因在这些情况下解释如下:(我)空无(19.4%)。当提取SANs的域名(部分4.2),没有域名返回。这些网站可能不支持non-SNI浏览器能力。因此,可以执行任何进一步措施。(2)不正确地过滤无(1.5%)。从无返回正确的领域,但我们的后续步骤不正确地过滤掉,正确的域名。(3)正确地过滤圣(10.9%)。一个或多个域名从无返回,但这些表示正确的域名。我们的方法过滤掉这些域名,导致空R。(iv)多个无左(8.5%)。SANs之一包含正确的域名,但Open-Knock无法过滤所有其他剩余的域名。
有趣的是,只有3.4%的IP地址在前6000名返回PTR记录等于对应的域名,而1.9% (35]。对所有的未知的有两个或多个域名的预测R(11.0%),我们申请一个网站指纹识别方法(部分4.6)在每个相应的网站域名。然而,请注意,可以正确的域名是不正确地过滤掉R另一个步骤的过程,也就是说,WPF模型(即可能永远不会生成正确的预测。,网站是fingerprintable i.f。f的结果列表R不是空的,不管中包含正确的域名是吗R)。虽然WPF模型的相对精度64.2%的错误率35.8%,也就是说,假设正确的域名总是包含在R,WPF模型应用到我们的实际数据结果的准确性为55.4%。为参数h截面4.6,我们已经将这个变量设置为6,导致共12样本网站每个浏览器(2)。
最后,结合IP地址我和车辆跟踪T将导致正确的和不正确的预测,分别为56.6%(包括我们的WPF模型的结果)和网站的9.6%,表现优于以前的先进的工作(35]。然而,一定要注意,推断从单个IP(单个域35)是基于预处理的数据集网站Alexa前1米,而我们的实验不需要这样的设置和执行方法直接在相应的IP地址。相比之下,猜测域名随机从所有无将导致一个正确的预测19.4%的网站。最后,图3也显示了列出的所有类型的线性增加,这意味着Open-Knock不受影响的排名(0 - 6000)域名。
一个有效的考虑我们的实验后,我们立即开始识别过程获得的IP地址DNS的回应。然而,ISP可能只处理这么多数据在任何给定的时间,并可能因此提取IP地址和运行流程过了一段时间已经过去了。证明我们的方法仍将实现可接受的结果在这种情况下,我们重新运行试验相同的IP地址(没有WPF模型),但经过一段时间的14天。这里,正确预测的数量只有稍微从50.5%下降到47.9%,而错误的预测仍几乎相等的数字(9.2%到9.1%)。IP地址,返回一个空圣的数量(从29.3%到31.8%)下降的主要原因是正确的预测。我们得出结论,14天的时间对结果的影响较小。比较这些结果和以前的工作的35)是很困难的,因为他们的数据集生成2小时内,不公开。因此不清楚的数据集35)成立后14天,IP DNS负载平衡器的旋转是常见的。
我们实验的数据集和一个在线演示工具Open-Knock供公众使用。
5。限制
我们假设不加增值税服务由多个独特域名只用于特定的服务,这是有时并非如此。一些现实的例子是Facebook和Instagram, 2与众不同和独特的服务,但是Facebook的手机应用程序所使用的IP地址有时使用的桌面版Instagram,反之亦然。这很难选择一个特定的域或IP应该不加增值税。然而,这并不完全败坏我们的发现的多数大型商业网站和手机应用程序有自己的独特的域名解析为一组独特的IP地址。此外,部署发布商的局限性也出现在许多当前实现零利率的isp,因此今天仍然是一个尚未解决的问题。
在零利率的环境中,我们也承认隧道的存在,消费者通过不加增值税服务器交通隧道。例如,消费者可能建立一个web代理使用不加增值税网站作为一个平台与目的地non-zero-rated交流网站。实际用例的方法总是依赖于不加增值税平台。例如,在Twitter上,微博生TLS记录自定义客户端发送的数据,而另一个web代理提取这些tweet的数据及变更到适当non-zero-rated网站。尽管network-expensive执行这种搭便车的攻击,它仍然允许消费者使用不加增值税低带宽通道。除了Open-Knock,这个限制也出现在所有先前的研究中讨论表1。
6。未来的工作
重要的是要注意,虽然我们只使用san和反向DNS Open-Knock方法作为输入,附加域名也可能从其他来源中提取。举例来说,我们可以从旧缓存域名查询或使用可选的precrawled域名等(35]。此外,组合DoH指纹识别工作的36]可能有益的结果Open-Knock的准确性。最后,更多的网页样本(h节)4.6或更长的延迟问节4.5可以大大增加我们的方法的准确性,尽管未来实验测量的影响将是有用的。
7所示。结论
全面检查现有的零利率方法isp和DPI供应商和显示,由于搭便车的大多数方法是不可持续的攻击和加密协议(如ESNI (ECHO),哎。基于工业专利和学术研究,我们严格讨论当前的问题和缺陷零利率实现和提出解决方案来解决这些挑战。更具体地说,我们提出Open-Knock,这种方法能够将一个IP地址转换成一个域名,这样它可以有效的应用于零利率政策。我们的实验分析表明,Open-Knock优于以前的最先进的方法,当比较性能和精度。此外,它试图保护isp搭便车攻击同时现代加密协议依然完好无损,因此保留消费者的隐私。尽管许多先前的局限性被挫败,还有开放的问题需要解决,如隧道的使用和共享TLS证书。我们相信,未来的研究应该在结合现有的WPF技术以达到改善结果零利率的实现。
数据可用性
生成的数据集来评估我们的零利率过程的研究一直是沉积在Open-Knock网站(https://open-knock.com/OpenKnock_dataset.zip)。源代码用于支持本研究的发现可以从相应的作者。
的利益冲突
作者声明没有关于这份出版物的利益冲突。
确认
这项研究的部分资金由Bijzonder Onderzoeksfonds特大学(转炉)。最后,作者感谢Balazs Nemeth和Pieter robyn深入分享他们的知识。
引用
- f·李,a . m . Kakhki d . Choffnes·吉尔和a·梅丝洛夫”分类器未分类:一个有效的方法来揭示ip流量分类规则,”2016互联网测量研讨会论文集,IMC的16ACM,页239 - 245年,圣塔莫尼卡,CA,美国,2016年11月。视图:出版商的网站|谷歌学术搜索
- 佩雷斯,“Twitter的“零”免费服务让新兴市场的推特,“2014年,https://techcrunch.com/2014/05/29/twitters-emerging-market-strategyincludes-its-own-version-of-a-facebook-zero-like-service-calledtwitter-access/。视图:谷歌学术搜索
- 维基百科0,2019,https://foundation.wikimedia.org/wiki/Wikipedia零。
- 无限的视频流与狂欢™,2019,https://www.t-mobile.com/offers/binge-onstreaming-video。
- 网络中立规则保护开放的互联网被拆除的危险,2019年,https://www.google.com/takeaction/action/net-neutrality/。
- d·迪克森,”Mozilla发布研究结果:零评级不是作为一个连接到互联网,”2017年7月,https://blog.mozilla.org/blog/2017/07/31/mozillareleases-research-results-zero-rating-not-serving-ramp-internet/。视图:谷歌学术搜索
- g·罗伯逊,“为什么网络中立的秋天会扼杀创新,“2017年12月,http://www.nginx.com/blog/fall-of-net-neutrality-will-smother-innovation/。视图:谷歌学术搜索
- d . r . Choffnes、p·吉尔和a·梅丝洛夫“实证评价部署dpi造成,对决策者的影响,”2017年,https://www.semanticscholar.org/paper/An- Empirical-Evaluation-of-Deployed-DPI-Middleboxes-Choffnes c6d870b994896515d5de7b292d1143e3f482b -吉尔/ 904。视图:谷歌学术搜索
- a . m . Kakhki f·李,d . Choffnes e . Katz-Bassett和a·梅丝洛夫“Bingeon在显微镜下:理解t - mobile零利率实现,”学报2016年研讨会QoE-based分析和管理的数据通信网络,爵士。Internet-QoE的16页43-48 ACM,弗洛,巴西,2016年8月。视图:出版商的网站|谷歌学术搜索
- k . v . der城市“Onbeperkt dataverbruik van favoriete应用索姆托克aangerekend门foute metingen(荷兰),”2019年8月,https://datanews.knack.be/ict/nieuws/onbeperkt - dataverbruik vanfavoriete -应用-索姆-托克aangerekend -门- foute metingen/articlenews - 1503265. - html。视图:谷歌学术搜索
- n·韦弗,c . Kreibich诉帕克森,“将DNS广告和利润。”疫源地,卷2,2 - 3,2011页。视图:谷歌学术搜索
- k . Borgolte t将挑战:Feamster et al .,“DNS / HTTPS是如何重塑隐私、性能和政策在互联网生态系统,”性能和政策在互联网的生态系统,2019年。视图:出版商的网站|谷歌学术搜索
- “Ukisp组名mozilla”互联网恶棍DNS-over-HTTPS“支持”,“2019年7月,2019年7月,https://www.zdnet.com/article/uk-isp-group-names-mozillainternet-villain-for-supporting-dns-over-https/。视图:谷歌学术搜索
- g .•“Dpi盲目随着加密采用增加,”2016年6月,https://www.vectra.ai/blogpost/dpi-goes-blind-as-encryption-adoption-increases。视图:谷歌学术搜索
- m . Di马蒂诺,p . Quax和w·可能“实际指纹在HTTPS交通,社会媒体网页”学报》第14届国际会议上的可用性、可靠性和安全性,阿瑞斯2019年2019年8月,英国坎特伯雷,ACM,。视图:出版商的网站|谷歌学术搜索
- m .华雷斯美国Afroz g . Acar c·迪亚兹和r . Greenstadt”网站的关键评估指纹识别攻击,”学报2014 ACM SIGSAC计算机和通信安全会议上,CCS的14ACM,页263 - 274年,斯科茨代尔,阿兹,美国,2014年11月。视图:出版商的网站|谷歌学术搜索
- 诉Le Pochat t . Van Goethem s Tajalizadehkhoob m . Korczynski和w·Joosen”Tranco:研究型高级强硬地反对操纵,网站排名”学报》第26届年度网络和分布式系统安全座谈会(nds 2018),1 - 15页,网络社会,圣地亚哥,美国,2018年2月,http://arxiv.org/abs/1806.01156。视图:谷歌学术搜索
- d .东湖牌”,传输层安全性(TLS)扩展:扩展定义,“网络请求评论,RFC编辑,RFC 6066, 2011年1月,http://www.rfc-editor.org/rfc/rfc6066.txt第三节。视图:谷歌学术搜索
- a Delignat-Lavaud k . Bhargavan,“基于网络的起源混乱攻击HTTPS虚拟主机,”《24日国际会议在万维网上,ser WWW的15,页227 - 237,国际万维网会议指导委员会,佛罗伦萨,意大利,2015年5月。视图:出版商的网站|谷歌学术搜索
- e . Rescorla k .总裁:沙利文,c .木”加密的服务器名称指示TLS 1.3,“工作草案,Internet-Draft draftietf-tls-esni-04, 2019年7月,http://www.ietf.org/internet drafts/draftietf - tls esni - 04. - txt。视图:谷歌学术搜索
- “DNS-over-HTTPS(度)”,2019年6月,https://developers.google.com/speed/public-dns/docs/doh/。
- m .王子”加密SNI:解决的一个核心网络错误,”2018年9月,https://blog.cloudflare.com/esni/。视图:谷歌学术搜索
- “加密服务器名称指示TLS 1.3工作草案,IETF秘书处Internet-Draft draft-ietf-tls-esni-06, 2020年3月,http://www.ietf.org/internet - drafts/draft ietf - tls - esni - 06. - txt。视图:谷歌学术搜索
- p·霍夫曼和p·麦克马纳斯,”DNS查询/ HTTPS(哎),”2018年10月,网络请求评论,RFC编辑器,RFC 8484。视图:谷歌学术搜索
- n . Sullivan“DNS-over-HTTPS将推出在默认情况下(twitter: grittygrease),“2019年9月,https://twitter.com/grittygrease/status/1170077782417666048。视图:谷歌学术搜索
- d·库珀Santesson,法雷尔,s . Boeyen r . Housley和w·波尔克,”互联网x。509public key infrastructure certificate and certificate revocation list (CRL) profile,” Internet Requests for Comments, RFC Editor, RFC 5280, May 2008,http://www.rfc-editor.org/rfc/rfc5280.txt。视图:谷歌学术搜索
- r·霍尔兹、l·布劳恩n . Kammenhuber g·卡尔,“SSL景观:x的深入分析。509 PKI使用主动和被动测量”学报2011年ACM SIGCOMM互联网测量会议,会议上IMC的11,页427 - 444,计算机协会,柏林,德国,2011年11月。视图:出版商的网站|谷歌学术搜索
- h . Cheng和r . Avnur流量分析SSL加密的网页浏览,”1998年,https://pdfs.semanticscholar.org/1a98/7c4fe65fa347a863dece665955ee7e01791b.pdf。视图:谷歌学术搜索
- k . Al-Naami钱德拉,a·穆斯塔法et al .,“自适应加密流量与双向依赖指纹,”第32届会议程序计算机安全的应用程序ACM,页177 - 188年,洛杉矶,美国,2016年12月。视图:出版商的网站|谷歌学术搜索
- b·米勒,l .黄公元约瑟夫和j·d·泰格,“我知道你为什么去了诊所:风险和实现HTTPS流量分析,”隐私增强技术e . De Cristofaro和s . j .默多克。,pp. 143–163, Springer International Publishing, Cham, Switzerland, 2014.视图:谷歌学术搜索
- a . Panchenko和f . Lanze“网站互联网规模的指纹,”《24日年度网络和分布式系统安全座谈会(nds 2016)圣地亚哥,互联网协会,美国,2016年2月。视图:出版商的网站|谷歌学术搜索
- j·l·Garcia-Dorado j·拉莫斯·m·罗德里格斯和j . Aracil“web浏览分析DNS加权的足迹,”网络和计算机应用》杂志上卷。111年,35-48,2018页。视图:出版商的网站|谷歌学术搜索
- m . Kirchler赫曼·d·j·林德曼,m . Kloft”跟踪无影无踪:通过无监督学习的模式连接会话的用户在他们的DNS流量”学报2016 ACM人工智能与安全研讨会,AISec 16页,23-34 ACM,维也纳,奥地利,2016年10月。视图:出版商的网站|谷歌学术搜索
- a·克莱因和b . Pinkas“DNS cache-based用户跟踪”美国27日年度网络和分布式系统安全座谈会(nds 2019)圣地亚哥,互联网协会,美国,2019年2月。视图:出版商的网站|谷歌学术搜索
- 帕蒂尔和n·鲍里索夫,“你可以从一个ip吗?“在程序的应用网络研究研讨会,ANRW 19页45-51 ACM,蒙特利尔,加拿大,2019年7月。视图:出版商的网站|谷歌学术搜索
- 美国餐馆m .华雷斯,c·迪亚兹n . Vallina-Rodriguez和c . Troncoso”加密的DNS⇒隐私?流量分析的角度来看,“在《网络和分布式系统安全(nds)研讨会2020美国圣地亚哥CA, 2020年2月。视图:出版商的网站|谷歌学术搜索
- 即Duvdevani和d s Naar”方法和系统处理请求关于零利率,“US2018/0048729A1(专利),08年,2016年,https://worldwide.espacenet.com/publicationDetails/biblio?CC = US&NR = 2018048729 a1&kc = A1&FT = D #。视图:谷歌学术搜索
- r . Al-Kabra r . Sinha p . k . Bodiga艾哈迈德。——j·莫罗,“识别用户意图从加密浏览活动,”t - mobile USA, Inc,贝尔维尤,佤邦,美国,2019年,US2019/0130036(专利)。视图:谷歌学术搜索
- 马纳尔g和l . Meixing”验证代理服务器名称的设备连接请求使用域名,“US2017/0374017A1(专利),2016年。https://worldwide.espacenet.com/publicationDetails/biblio?%20CC=US&NR=2017374017A1&KC=A1&FT=D。视图:谷歌学术搜索
- z柴、a . Ghafari和a . Houmansadr”的重要性encrypted-SNI (ESNI)审查规避,”第九届USENIX学报》研讨会上自由和开放的互联网通信(病灶19)USENIX协会,圣克拉拉、钙、美国,2019年8月,https://www.usenix.org/conference/foci19/presentation/chai。视图:谷歌学术搜索
- l·迪克森,t . Ristenpart和t .谢里姆敦”网络流量模糊和自动化的网络审查,”IEEE安全与隐私,14卷,不。6,利润率达到,2016页。视图:出版商的网站|谷歌学术搜索
- c . Cimpanu“哈萨克斯坦政府现在拦截所有HTTPS流量”,2019年7月,https://www.zdnet.com/article/kazakhstan-government-isnow-intercepting-all-https-traffic/。视图:谷歌学术搜索
- x·德·卡恩de Carnavalet和m .甘露聚糖被代理:分析问题TLS拦截软件,”《24日年度网络和分布式系统安全座谈会(nds 2016)圣地亚哥,互联网协会,美国,2016年2月。视图:出版商的网站|谷歌学术搜索
- “网页加载的比例通过firefox使用HTTPS,”2019年7月,https://letsencrypt.org/stats/。
- Statoperator”, HTTPS使用统计上1米网站,“2019年7月,https://statoperator.com/research/https-usage-statistics-on-top-websites/。视图:谷歌学术搜索
- r·杜宾a . Dvir o·贝利,o .哈达尔发现,“我知道你看见最后minute-encrypted HTTP自适应视频标题分类”IEEE取证和安全信息,12卷,不。12日,第3049 - 3039页,2017年。视图:出版商的网站|谷歌学术搜索
- f·李,a . Razaghpanah a . m . Kakhki et al .,“解放(n):库暴露(trafficclassification)规则,避免它们有效,”2017互联网测量研讨会论文集,IMC的17岁ACM,页128 - 141年,伦敦,英国,2017年11月。视图:出版商的网站|谷歌学术搜索
- w·m·Shbair t . Cholez j .弗朗索瓦和Chrisment,“SNI-based HTTPS安全监测、改善”学报2016年IEEE第36届国际分布式计算系统研讨会会议(ICDCSW)奈良,页72 - 77年,日本,2016年6月。视图:出版商的网站|谷歌学术搜索
- 美国Katti y Yiakoumis, n .部“中性网络中立,”学报2016年ACM SIGCOMM会议,SIGCOMM 16ACM,页483 - 496年,弗洛,巴西,2016年8月。视图:出版商的网站|谷歌学术搜索
- d·巴尔,“公共DNS操作和配置错误,”互联网要求评论,RFC编辑,RFC 1912, 1996年2月,http://www.rfc-editor.org/rfc/rfc1912.txt。视图:谷歌学术搜索
- i . n .贝穆德斯m . Mellia m·m·穆纳佛r . Keralapura和a . Nucci”DNS救援:辨别内容和服务在一个错综复杂的网络,”2012互联网测量研讨会论文集,IMC的12ACM,页413 - 426年,波士顿,MA,美国,2012年11月。视图:出版商的网站|谷歌学术搜索
- h·f·艾伦和j·考尔,”客户HTTPS页面指纹,多样性因素”学报》第九ACM数据和应用程序安全会议上和隐私(CODASPY 19)ACM,页279 - 290年,理查森,TX,美国,2019年3月。视图:出版商的网站|谷歌学术搜索
- m·艾曼尼m . s .拉赫曼,m·莱特”网站指纹防御,敌对的痕迹”学报2018 ACM SIGSAC计算机和通信安全会议上,CCS的18岁ACM,页2225 - 2227年,多伦多,加拿大,2018年10月。视图:出版商的网站|谷歌学术搜索
- k . Al-Naami a . El Ghamry m . s .伊斯兰教et al .,“双压电晶片零件:双向破裂指纹识别攻击,防御网站”IEEE可靠和安全的计算,p . 2019。视图:出版商的网站|谷歌学术搜索
- g .智天使,j·海耶斯和m . Juarez”网站指纹防御在应用程序层”,程序对隐私增强技术,卷2017,不。2、186 - 203年,2017页。视图:出版商的网站|谷歌学术搜索
- m . Liberatore和b . n . Levine“推断加密的http连接的来源,”《13 ACM计算机和通信安全会议上,CCS 06年ACM,页255 - 263年,亚历山大,弗吉尼亚州,美国,2006年10月。视图:出版商的网站|谷歌学术搜索
- c . v .莱特、s e . Coull和f . Monrose”交通变形:一个有效的防御统计流量分析,”《网络和分布式系统安全座谈会(nds 2009)圣地亚哥,互联网协会,美国,2009年2月。视图:谷歌学术搜索
- 诉轮辋,d . Preuveneers m .华雷斯,t·范·Goethem和w·Joosen“自动化网站指纹通过深入学习,”诉讼的2018网络和分布式系统安全座谈会美国圣地亚哥CA, 2018年2月。视图:出版商的网站|谷歌学术搜索
- p . Sirinam m·艾曼尼m .华雷斯,m·莱特”深指纹:破坏网站指纹与深度学习防御,”学报2018 ACM SIGSAC计算机和通信安全会议上,CCS的18岁ACM,页1928 - 1943年,多伦多,加拿大,2018年1月。视图:出版商的网站|谷歌学术搜索
版权
版权©2020马里亚诺·马蒂诺et al。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。