可以收集有关“网站第三方”的哪些信息?

时间:2020-07-16 02:14:45

标签: selenium cookies httprequest tracking privacy

我已经收集了网站提出的所有请求,目的是通过网站提出的请求来识别第三方。我用selenium和WebDriver来做到这一点。

这些请求可以由网站源代码中的JavaScript发出,也可以由广告中的网页动态调用,也可以由Google或DoubleClick或Facebook发起。这些请求有助于跟踪在未经用户同意的情况下这些网站共享的数据。

当浏览器要在以下excel文件中加载以下网站时,您可以看到请求的示例:www.focuscamera.com/

https://drive.google.com/file/d/16wNA0dFUehrjPww31TAIj8GZUZ05LsIU/view?usp=sharing

我的问题是:

1-如果我倾向于收集有关第三方的信息,可以使用哪种HTTP标头字段进行分析?我的目标是区分和区分第三方行为!

例如,请求中的字段 content-length 指示实体的大小。那么, content-length 更高的请求意味着第三方接收并收集了更多数据/信息?

2-内容长度确切表示什么?确切地说,“ HTTP请求正文数据”包含什么?

3-如果我要区分和区分第三方行为,是否还有其他HTTP头字段可以使用? (我收集的字段列表可以在我之前共享的excel文件的sheet1中找到)

4-如果我打算区分和区分第三方行为,互联网上还有其他信息可以使用吗?例如,我使用cookiepedia.co.uk来了解第三方提供的服务类型?是功能,性能还是定位/广告?

1 个答案:

答案 0 :(得分:0)

听起来您可能在这里重新发明了轮子。看看https://webbkoll.dataskydd.net;他们在您喜欢的任何站点上提供大量安全性和隐私分析。使用https://requestmap.webperf.tools生成漂亮的视觉请求图:

Focuscamera image map

尝试在wired.com和forbes.com等网站上使用该工具,看看它会变得多么糟糕!

要专门回答您的问题:

  1. 标头并不是很有用,因为它们在每个请求中都是 (更有趣的是请求本身),但是从隐私角度来看,重要的是RefererSet-cookie。内容长度确实可以告诉您请求主体的大小– GET请求中的请求主体始终为0,因此通常会省略–大的post请求表明正在传输更多数据,但这可能是由于效率低下而不是其他原因

  2. Content-length表示POST请求正文中的数据长度(以字节为单位)。 HTTP请求正文可以包含任何种数据:文本,图像,视频,音频,格式化数据。

  3. 有一些,但是大多数标头是功能性的而不是语义的,与使请求实际起作用有关。有趣的是,请求发生的次数 远大于请求的内容

  4. 您不一定可以从请求本身中判断出第三方正在提供哪种服务,但是它们将要使用的域会更有趣。例如,由于该域已知用于该域名,因此doubleclick.com上的所有内容都将与广告和跟踪相关(Webbkoll将其称为“已知跟踪器”);因此,您是正确的,像cookiepedia这样的网站可以帮助您了解特定服务的功能。功能/性能/配置文件之间的区分主要是由广告公司来构成的,以它们的行为为借口,您不能告诉他们它们正在使用数据的目的,仅是他们是否正在接收数据以及他们正在接收什么数据(因为您可以查看他们使用浏览器开发者工具发出的请求中的内容)。需要说明的是-网站可以收到您的全名和地址,但绝对不做任何事情;但是您不能通过查看已发送的数据来分辨这一点。用隐私术语来说,最好总是假设最坏的情况(因为广告公司绝对 不能被信任!),因此,如果他们正在接收数据,则假定它将被滥用。

相关问题