大数据分析一般用什么工具分析?

网友解答: 大数据分析工具有很多,不过绝大多数是自己开发,或在某工具上进行二次开发。大数据业务有很多环节,大致为:1. 数据搜集:借助工具对研究对象进行数据采集,可以是人工采集——如街头

网友解答:

大数据分析工具有很多,不过绝大多数是自己开发,或在某工具上进行二次开发。

大数据业务有很多环节,大致为:

1. 数据搜集:借助工具对研究对象进行数据采集,可以是人工采集——如街头调查、电话采访、现场统计……,也可以是软件采集——如网络爬虫、GPS轨迹、企业ERP历史数据……;

2. 数据清洗:对采集到的数据按研究价值进行整理和归类,如:那些数据是无效数据,那的数据是被污染(被刻意篡改)……将这些数据剔除,减少干扰。数据清洗的工具同样也有人工和软件,甚至同时使用。

3. 数据加工:对清洗后的数据按研究意图进行整理和归类,如价格(将出厂价、零售价、批发价、开票价、税率、促销价等价格信息进行归类)、品种(按颜色、行业规格、适用环境、质地等进行归类)、日期(将年龄、生日、期间起始日期、库龄等日期相关的归类)……

4. 数据统计:对加工过的数据进行预测,发现数据规律。对加工过的数据进行人工抽样(小样本),借助简单的工具来发现一些规律,寻找一些蛛丝马迹,建立数学统计模型和分析算法。

5. 大数据分析:对原始数据(或加工过的数据),通过第4步建立的分析算法,进行“大数据”自动分析,分析过程中,还需要不断修正算法,可能重新回到上述第3步,将原算法推倒从重来。

——结论——

大数据分析是一个系统工程,是对某种社会行为和自然现象(如购物、交易、人流、设备运转、舆情、气候等)进行分析,需要分析人员掌握很多综合知识,然后借助计算机的运算能力,帮助分析。

从题主的提问来揣测,可能题主认为大数据就是计算机行业,其实不然。大数据分析人员的知识结构大致为:非计算机知识占80%,计算机使用能力占20%,同时还要随时跟上计算机工具的版本更新或更迭。

最后,回答本提问,大数据分析的工具有很多,手工算、算盘,excel,microsoft PowerBI,python中的很多模块,mssql,mysql……那个顺手用那个,那个适合业务需要用那个,目前没有“最好”,也没有“行业惯例”,自己选择自己习惯的吧。

网友解答:

Hadoop

Hadoop是一个能对大数据进行分布式处理的软件框架。能够处理PB级的数据,依赖于社区服务器,成本较低,有着高可靠性,高扩展性,高效性,高容错性等优点。

Storm

storm是自由的开源软件,分布式,容错的实时计算系统,可以可靠的处理庞大的数据流,支持多种编程语言,应用在多个领域,比如实时分析,在线机器学习,不停顿计算等等

Excel

这个不多说。

标签: