发布网友 发布时间:2022-04-24 13:30
共1个回答
热心网友 时间:2023-10-14 12:42
我认为这其中最大的一部分是来自于社交媒体的移动平台产生的数据和海量的电子邮件。据InformationWeek报道,英特尔估计到2015年,全球至少有25亿人会频繁使用互联网,产生的数据量必将越来越多,我们需要更多的资源用于存储和处理这些数据信息。这一观点引发了数据分析师纷纷开始研究非结构化数据的潜力;例如,谷歌的阿维纳什考希克就公开声称“非结构化数据的*将至。” 在此,我希望与您分享一些您可以用来处理非结构化数据的方法: 在云计算在分发数据,只储存更多的非结构化数据,希望您能利用先进的大数据分析与预测分析平台看到有用的数据模式。 开发更强大的分析引擎以便分析数据,其中大部分将在云中实时进行。 将暗数据/暗社交和紫外数据转化为可用的结构化数据信息,您能从中获得见解,正如我曾经提及的*分析角度。 将尽可能多的数据合并为大型数据文件,奥巴马团队在2012年的选举在所做的准备工作就是一个很好合并的例子,合并几个不同的数据库,可以使得数据分析和预测见解更容易。 清洁数据:这是假设非结构化数据是脏的,或者说是对目前的分析状态没有有用的。您可以清除重复的信息,确保实体命名的一致性,清空稀疏的数据集。考虑检查Saleforce Data.com的关键社交数据,这关系到客户数据记录到社交媒体帐户和网上在线内容的帐户。