什么是big data?

Big data”(大数据)的称呼已经火了很长一段时间了。今天我查阅了一些资料,记录一下自己的理解。“Big data”应该包含以下两个方面的含义:

(1)数据量本身很庞大。现在一款几亿人使用的社交软件可以聊天,上传图片,推送文章,发语音信息,等等。一个人可能一天就要产生几M到几十M的信息,那么几亿人一年会产生多少?真是一个非常大数量级的数据。

(2)伴随处理这些大数量级的数据所产生的技术。我们传统处理数据的方法已不再适合处理这些大规模数据了,所以要不断探索和解决这些技术难题。例如:如何存储这些数据,如何寻找特定的数据,如何从这些数据中挖掘出一些有用的信息,等等。

但是,每个问题都有两面性,“Big data”也不例外。一个显著的问题就是用户的隐私。你的社交软件知道了你的太多信息:你的手机号码,你的联系人,你喜欢看什么,等等。也许它比你还了解你。。。

参考资料:
(1)big data
(2)A (very) short history of big data
(3)Big Data

什么是sandbox?

stackoverflow上的一个帖子很好地解释了在计算机领域出现频率较高的“sandbox”的含义:

Sandbox的来源:国外的家庭在自家院子里圈出个地方,堆上沙子,让孩子在里面玩。由于这个小圈子和外界环境隔离开来,所以小孩子不会受到外界环境干扰,比较安全。这个环境就被称之为“sandbox”或“sandpit”。

在计算机领域,sandbox也是同样的含义。可以把sandbox看做计算机内部运行的一个独立环境,sandbox会对在其内部运行的程序(可以看做小孩子)做一个限制,这样即使程序会对计算机系统有破坏,它也跑不出sandbox这个环境。