人工智能大数据分析从数据收集到信息挖掘 我们该看重什么?

 说到人工智能、深度学习,大家总会第一时间想到算法和模型,再然后就是最根本的、提供动力源的数据。由于人工智能技术的飞速进步与广泛应用,我们对待数据的方式已从收集为主转变为以获取信息为主。

如果你不把存储的数据转化为可用的信息,那么这些数据——狭隘点说——就只是一堆字节而已。而完成这个转化的过程之前,有时也需要多年时间来收集足够的数据,比如医学方面新工艺、药物或设备的试验;基于不常发生的外部因素的群体行为;气候变化。
说到人工智能、深度学习,大家总会第一时间想到算法和模型,再然后就是最根本的、提供动力源的数据。由于人工智能技术的飞速进步与广泛应用,我们对待数据的方式已从收集为主转变为以获取信息为主。 
 
人工智能.jpg
 
如果你不把存储的数据转化为可用的信息,那么这些数据——狭隘点说——就只是一堆字节而已。而完成这个转化的过程之前,有时也需要多年时间来收集足够的数据,比如医学方面新工艺、药物或设备的试验;基于不常发生的外部因素的群体行为;气候变化。
除保持数据活性外,合规性同样重要
许多需求基于你所拥有的信息和数据类型。例如,一些可能涉及使用所谓DAR(Data Encryption at Rest,空闲时数据加密),它会对存储设备进行加密,这样如果从系统中删除,数据几乎是完全不可能访问的。(其困难程度取决于加密算法和大小、复杂性等)。我们可以将这种类型的需求归纳为“可操作性需求”,即数据在发挥价值的整个过程中会对架构、设备等产生的硬性需求,以确保满足业务运行所需的性能、可用性和数据完整性,为保持数据和信息的活性,所有这些问题都需要得到解决。
除此之外,你的数据或信息也应该基于你所在行业的最佳实践或地区的法规条例,如最近欧盟出台的GDPR(通用数据保护条例)。也就是说,你对数据的使用需要始终保持合规性。由此产生的体系结构或过程方面的变化,也是需要架构师来处理的一类重要事务。
 
大数据可视化.jpg
 
最后的想法
要做到合规并不容易,而且也不便宜。决定其成本的因素有很多,但是在计划和搭建好体系架构之后试图强制遵从,总是比事前做的代价要高。
笔者认为,在定义合规性需求时,你应该着眼于未来,而不是只看现在,因为事后硬塞东西的成本和挑战会更多。这意味着,我们需要不断地研究行业中的合规性需求,以及最佳实践。数据在未来只会变得更加重要,我们始终会面对挑战,何不先定好应对方案。
 
 

人工智能大数据分析从数据收集到信息挖掘 我们该看重什么?

扫一扫手机访问