leechael.orgHome

意外泄漏的个人资料

上一个周末和家人说话的时候,提及我老爸曾经以我的名字作为关键字在百度上搜索,居然发现在某个站点上找到近五年前在那站点购买东西时留下的个人地址。接下来,我使用 百度 以我的名字进行搜索,居然能在百度快照里面,找到学校站点上的一个文件、包括我在内的数百人的个人资料。当然,这个文件现在已经不存在了,可快照中的数据还存在。再针对我所在的学校进行搜索,好些包含学生个人信息的文件被百度所索引。

这般的文件肯定是学校站点的低劣而造成的。即使是校内(教师之间、学生之间)用于交换的文件,不经验证以及登录,就可以随意下载;更不说禁止外网 IP 的访问了。且外,使用 Robots.txt —— 或许对于某些流氓爬虫无效——禁止对那些存放敏感文件的目录的索引,这是 SEO 以外的使用,亦算是一种安全策略吧。

学校站点程序和网络管理的低劣不说,现在说一说百度。我尝试使用 Google 来进行搜索,是的,神奇的百度能够搜索到比 Google 更多的东西,Google 的索引中并没有发现这些涉及个人信息的文件。不过我很希望百度可以提供一个类似 Google Webmaster Center 的服务,让各位站长有机会申请删除索引。或许这般做还是存在着弊端,不过至少可以:

  • 提高索引质量。单凭在 404 页面的应答,怕是百度爬虫本身——也忘记这些页面的存在,不会验证这些页面是否继续存在。
  • 屏蔽敏感文件的索引。如我在上面所说的,包含大量个人信息的文件被索引了,得给我们一个亡羊补牢的机会。