开发人员的开源生产数据?

时间:2009-02-13 20:28:33

标签: security open-source privacy

我正在构建一个开源,用户提供的内容类型的网站,我认为如果开发人员可以访问夜间生产SQL转储,他们更有可能查看来自github和它一起玩。

根据这个想法,我正在考虑:

  • 根本不收集私人用户信息,使用帐号的open-id并大量使用memcache进行会话身份验证等。
  • 在发布前匿名化敏感数据

有时候我会被带走“如果......会不会很酷?”想法,所以我希望在这里进行健全检查。这两种方法都有明显的缺陷吗?这是一个理智的想法吗?

3 个答案:

答案 0 :(得分:2)

一般来说,我认为你应该做到这两点。您收集的任何私人数据都只是您的责任,而不仅仅是因为您打算发布您的数据库。你收集的越少越好。

然而,出于同样的原因,您可能会发现它不仅仅是敏感的ID和密码。还记得the AOL search data leak吗?还是Netflix数据库出版物?即使没有ID people managed to figure out the real identities的某些帐户,也只需拼凑用户行为的踪迹,并将其与其他地方的数据相对应。有些人对他们的搜索历史和电影租赁感到尴尬。去图。

因此,我认为一般规则应该是尽可能少地收集,并对剩下的内容进行匿名化。即使您没有存储与某个帐户对应的人员的身份,您也可能想要加扰各种登录所做的事情。

另一方面,在某些情况下,您根本不关心这种隐私。例如,在维基百科中,无论如何,您在网站上可以做的一切都是公开的。至少,记录在数据库中的所有内容。如果该信息已通过API提供,则无需将其隐藏在数据库下载中。

答案 1 :(得分:1)

除了收集更少的数据匿名化数据,您还可以为用户添加位/标记,以选择他们的数据是否为包含与否。您可以将其作为CC许可证标志,以便在满足您需求的同时为用户提供温暖的颜色。

答案 2 :(得分:0)

听起来很不错。不过要注意的一件事是安全性,因为黑客会知道数据库的确切模式。虽然这不是不可能处理的,但只看大多数开源项目。但是你需要更加强调安全性,因为现在可以更容易地注入SQL注入。

另一件事是要确保敏感数据是匿名的。此外,有些人可能(错误地)尝试并声称他们对用户提交的内容的版权遭到侵犯,因此您可能需要指定CC许可证或其他东西,以使一切更加清晰,并防止未来的头痛(即使您仍然正确)。