大数据入门学习:大数据初学者关注的一些问题详解
11 2019-03-12

对于大数据初学者来说,对于大数据技术会有非常多的疑问,那么,今天我们先来解决几个问题吧!

大数据、数据分析和数据挖掘的区别

大数据、数据分析、数据挖掘的区别是,大数据是互联网的海量数据挖掘,而数据挖掘更多是针对内部企业行业小众化的数据挖掘,数据分析就是进行做出针对性的分析和诊断,大数据需要分析的是趋势和发展,数据挖掘主要发现的是问题和诊断:

⏩大数据(bigdata):

指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产;

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。

大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)Veracity(真实性)。

⏩数据分析:

是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。

数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。

⏩数据挖掘(英语:Datamining):

又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-DiscoveryinDatabases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

简而言之:

大数据是范围比较广的数据分析和数据挖掘。

按照数据分析的流程来说,数据挖掘工作较数据分析工作靠前些,二者又有重合的地方,数据挖掘侧重数据的清洗和梳理。

数据分析处于数据处理的最末端,是最后阶段。

数据分析和数据挖掘的分界、概念比较模糊,模糊的意思是二者很难区分。

大数据概念更为广泛,是把创新的思维、信息技术、统计学等等技术的综合体,每个人限于学术背景、技术背景,概述的都不一样。

大数据可以做什么?

⏩对大数据的处理分析正成为新一代信息技术融合应用的结点

移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值。

大数据具有催生社会变革的能量。但释放这种能量,需要严谨的数据治理、富有洞见的数据分析和激发管理创新的环境(RamayyaKrishnan,卡内基·梅隆大学海因兹学院院长)。

⏩大数据是信息产业持续高速增长的新引擎

面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域,大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。

⏩大数据利用将成为提高核心竞争力的关键因素各行各业的决策正在从“业务驱动”转变“数据驱动”

对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对;可以为商家制定更加精准有效的营销策略提供决策支持;可以帮助企业为消费者提供更加及时和个性化的服务;在医疗领域,可提高诊断准确性和药物有效性;在公共事业领域,大数据也开始发挥促进经济发展、维护社会稳定等方面的重要作用。

⏩大数据时代科学研究的方法手段将发生重大改变

例如,抽样调查是社会科学的基本研究方法。在大数据时代,可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。

大数据的商业价值

⏩对顾客群体细分 “大数据”可以对顾客群体细分,然后对每个群体量体裁衣般的采取独特的行动。瞄准特定的顾客群体来进行营销和服务是商家一直以来的追求。云存储的海量数据和“大数据”的分析技术使得对消费者的实时和极端的细分有了成本效率极高的可能。

⏩模拟实境

运用“大数据”模拟实境,发掘新的需求和提高投入的回报率。现在越来越多的产品中都装有传感器,汽车和智能手机的普及使得可收集数据呈现爆炸性增长。Blog、Twitter、Facebook和微博等社交网络也在产生着海量的数据。

云计算和“大数据”分析技术使得商家可以在成本效率较高的情况下,实时地把这些数据连同交易行为的数据进行储存和分析。交易过程、产品使用和人类行为都可以数据化。“大数据”技术可以把这些数据整合起来进行数据挖掘,从而在某些情况下通过模型模拟来判断不同变量(比如不同地区不同促销方案)的情况下何种方案投入回报最高。

⏩提高投入回报率

提高“大数据”成果在各相关部门的分享程度,提高整个管理链条和产业链条的投入回报率。“大数据”能力强的部门可以通过云计算、互联网和内部搜索引擎把”大数据”成果和“大数据”能力比较薄弱的部门分享,帮助他们利用“大数据”创造商业价值。

⏩数据存储空间出租

企业和个人有着海量信息存储的需求,只有将数据妥善存储,才有可能进一步挖掘其潜在价值。具体而言,这块业务模式又可以细分为针对个人文件存储和针对企业用户两大类。主要是通过易于使用的API,用户可以方便地将各种数据对象放在云端,然后再像使用水、电一样按用量收费。目前已有多个公司推出相应服务,如亚马逊、网易、诺基亚等。运营商也推出了相应的服务,如中国移动的彩云业务。

⏩管理客户关系

客户管理应用的目的是根据客户的属性(包括自然属性和行为属性),从不同角度深层次分析客户、了解客户,以此增加新的客户、提高客户的忠诚度、降低客户流失率、提高客户消费等。对中小客户来说,专门的CRM显然大而贵。不少中小商家将飞信作为初级CRM来使用。比如把老客户加到飞信群里,在群朋友圈里发布新产品预告、特价销售通知,完成售前售后服务等。

⏩个性化精准推荐

在运营商内部,根据用户喜好推荐各类业务或应用是常见的,比如应用商店软件推荐、IPTV视频节目推荐等,而通过关联算法、文本摘要抽取、情感分析等智能分析算法后,可以将之延伸到商用化服务,利用数据挖掘技术帮助客户进行精准营销,今后盈利可以来自于客户增值部分的分成。

以日常的“垃圾短信”为例,信息并不都是“垃圾”,因为收到的人并不需要而被视为垃圾。通过用户行为数据进行分析后,可以给需要的人发送需要的信息,这样“垃圾短信”就成了有价值的信息。在日本的麦当劳,用户在手机上下载优惠券,再去餐厅用运营商DoCoMo的手机钱包优惠支付。运营商和麦当劳搜集相关消费信息,例如经常买什么汉堡,去哪个店消费,消费频次多少,然后精准推送优惠券给用户。

⏩数据搜索

数据搜索是一个并不新鲜的应用,随着“大数据”时代的到来,实时性、全范围搜索的需求也就变得越来越强烈。我们需要能搜索各种社交网络、用户行为等数据。其商业应用价值是将实时的数据处理与分析和广告联系起来,即实时广告业务和应用内移动广告的社交服务。

运营商掌握的用户网上行为信息,使得所获取的数据“具备更全面维度”,更具商业价值。典型应用如中国移动的“盘古搜索”。

大数据技术有哪些?

⏩基础阶段:

Linux、Docker、KVM、MySQL基础、Oracle基础、MongoDB、redis。

hadoopmapreducehdfsyarn:hadoop:Hadoop概念、版本、历史,HDFS工作原理,YARN介绍及组件介绍。

⏩大数据存储阶段:hbase、hive、sqoop。

⏩大数据架构设计阶段:Flume分布式、Zookeeper、Kafka。

⏩大数据实时计算阶段:Mahout、Spark、storm。

⏩大数据数据采集阶段:Python、Scala。

⏩大数据商业实战阶段:实操企业大数据处理业务场景,分析需求、解决方案实施,综合技术实战应用。

学习大数据开发、数据分析与挖掘课程都可以咨询在线课程老师,获取学习相关资料!

顶部