机器学习&数据挖掘

企业大数据的数据源内容

Author
宋天龙
发布于 2017-06-09
3580 次阅读
0 次赞
0 次分享
企业大数据的数据源内容
AI 智能核心导读

数据源是企业大数据工作流的起点。企业数据主要来源于四大核心渠道:包含高价值半/非结构化数据的日志与文件、作为生产经营核心枢纽的结构化数据库、自动化获取外部情报的网络爬虫,以及拓展外部数据版图的第三方API与合作。这些多源数据最终经统一集成进入处理层,全面驱动企业的数据挖掘与业务决策。

企业大数据工作流的起点:四大核心数据源解析

数据源指的是企业内、外部数据的来源。

数据源是大数据工作流的起点,一个完整的、需要不断迭代更新的数据工作都应该从数据源开始。

这些数据源由于各自生产、存储环境的不同,可分为日志/文件数据库网络爬虫第三方 API 等。

一、日志与文件:挖掘半/非结构化数据的深度价值

在企业内部数据源中,会存在各种日志或文件类型的数据,主要包括以下几类:

  • 日志数据:包括机器日志、用户访问日志、监控日志等,这些日志通常都是以半结构化的文本文件进行存储。
  • 视频数据:主要是动态影像数据,比如宣传视频、操作视频、监控视频、医疗视频、记录视频等,这些大多是非结构化的数据并以文件的形式进行存储。
  • 音频数据:主要集中在客服坐席录音领域,以非结构化的文件的形式进行存储。
  • 图片数据:主要集中在监控、生产、医疗、商品、服务等领域的图片数据,这些数据是以非结构化的文件的形式进行存储。
  • 办公文件:主要集中在办公类系统(如知识管理系统、办公系统、邮件系统、日常文档、项目信息等),以非结构化的文件的形式进行存储,且文件类型、格式、内容等差异性较高。

日志和文件类数据是一类典型的半结构化和非结构化的数据源,这是大数据挖掘深度价值的宝贵资源。

在大数据技术出现之前,企业往往无法处理这些信息并很难从中挖掘潜在知识。借助于大数据特有的技术(例如语音识别、图片识别等模式识别技术,以及中/英文分词、自然语言处理、文本挖掘等相关技术),这些数据中的信息可以被提炼并应用到企业运营实践。

二、数据库:企业生产与经营的核心枢纽

以数据库形式存储的结构化数据几乎是所有企业都具备的数据源,这些数据源往往包括企业生产和经营各个环节的核心数据。常见的数据库数据包括:

  • CRM 数据:即企业客户管理系统相关数据,包含客户所有属性、订单等数据。几乎所有的企业都有 CRM 相关数据,这是分析目标客户的关键。
  • CC(呼叫中心)数据:即企业呼叫中心系统相关的结构化数据,这些数据中主要包含记录和统计性的数据,如呼叫记录、通话时长、接通等数据。
  • 财务数据:包括现金流、资产管理、盈利、负债等数据。财务数据是企业数据的核心,也是成本结算的最终依据。任何业务系统的费用、考核、结算都应该以财务结果为准。
  • 仓储数据:包括库存周转、库存结构、畅销、滞销等数据。仓储数据是传统品牌商和渠道商企业运转的关键枢纽。
  • 销售数据:包括渠道、平台、品类等维度销售数据。销售数据是零售企业数据的核心。
  • 物流数据:包括出库、配送、调度、退换货等数据。
  • 网站数据:即流量数据,包括网站所有营销数据、用户数据、运营数据、在线销售等行为日志。大多数企业的网站分析系统的数据结果都是以结构化的库表的形式进行存储。

在大数据相关技术出现之前,结构化的数据已经是企业内部数据工作的主要对象。

大数据技术拓展了结构化数据处理过程中对于海量、实时性、低维护成本、灵活扩展性的需求,使得全量数据的处理成为可能。

三、网络爬虫:自动化获取外部情报的利器

网络爬虫又称网页蜘蛛、网络机器人,它是按照一定的规则,自动抓取目标网站或全部网站信息的计算机程序或脚本。网络爬虫不是一个新生事物,在搜索引擎出现时网络爬虫就已经出现。

在大数据时代,很多企业可以自己编写脚本来爬取特定网站的信息,主要包括:

  • 商品信息:电子商务企业之间经常通过网络爬虫抓取竞争对手的商品信息(主要包括价格、库存、图片等信息),用来做自身动态商品定价的基础策略。另外也可以通过抓取的商品信息了解对方的商品上下架、售卖、库存等信息,以此来辅助商品销售策略的制定。
  • 交易信息:对于交易性网站来讲,真实的交易数据往往都是无法直接获取的。但在网页上存在的类似于销量、预定量、预定人数等数据可以间接做交易信息的参考。
  • 用户信息:通过爬虫抓取的用户信息包括各个方面,主要包括用户属性、发帖、评论、咨询、关注、群组等,以此来获得用户真实行为和属性,并丰富企业内部用户数据。另外,抓取的匿名数据也可以作为基础用户调研或竞争对手研究的一部分。
  • 资讯信息:新闻资讯类网站间也经常抓取对方的新闻和资讯,并将这些信息发布到自身网站。另外也可以通过企业发布的资讯来获得企业最新动态,辅助竞争对手分析。
  • 竞争情报:企业可以利用当前流行的主题爬虫技术,建立网络竞争情报系统。系统能自动搜集指定竞争对手和指定领域内商品、服务、价格、渠道等实时信息,并能智能扩展或缩小收集范围,为战略战术研究和实时战术调整提供辅助决策作用。
  • 行业信息:很多企业也开发爬虫技术来抓取行业机关、组织、政府等的全局观测信息,包括政策变化、市场动态、宏观形势、媒体舆论等。这对战略辅助决策起到一定的支持作用。

企业通过网络爬虫获取信息,大大提高了对市场、竞争、情报、用户的信息获取、沟通和反馈效率;同时又能实时或准实时地监控整体反馈效果,对于企业的经营决策具有重要意义。

四、第三方 API 与合作:拓展企业外部数据版图

很多企业也可以通过 API 或合作的形式获得更多的企业外部数据,这些数据由企业外部产生,企业间通过合作、购买、交换等形式获得。企业外部数据通常包括:

  • 竞争数据:通常是关于竞争对手的流量、销售、产品、营销等方面数据,如竞争对手产品价格、竞争对手会员数据、营销投放渠道等。
  • 营销数据:指企业通过营销或推广合作,获取自身站外相关媒体、渠道的曝光、点击、投放等详细数据。
  • 物流数据:指第三方物流数据。
  • 行业数据:指通过购买、调研等获得关于市场整体行情、市场趋势、用户结构、竞争环境等信息,常见于行业报告数据。

企业外部数据的获取正成为越来越多企业拥有更多数据的重要方式,并且市场上也出现了一些可以直接进行数据交易的组织和企业。

注意:可进行交易的数据往往都是经过处理或脱敏的,基本都是匿名的。这类数据对于整体战略研究的重要性较大,但对于微观的经营决策影响较小。


在企业大数据工作的整体流程中,上述的数据源通常都会通过一定的接口或组件进行统一集成,然后进入到数据处理层。

分享
最后修订: 2017-06-09