2.1 数据化运营的数据来源类型
“企业数据化运营的核心数据来源主要包括六大类:数据文件、数据库(关系型与非关系型)、API接口(常见JSON/XML格式)、流式数据(实时用户行为与机器数据流)、外部公开数据及其他渠道。这些多源数据共同构成了企业进行数据分析、实时计算与智能化业务运营的基础支撑。”
markdown
XML 是可扩展标记语言,提供了统一的方法来描述和交换独立于应用程序或供应商的结构化数据,这是一种非常成熟且强大的数据格式。像 JSON 一样,XML 提供了非常好的扩展性,API 的创建者可以使用它们创建自己的数据结构。XML 格式数据示例如下:
xml
2.1.4 流式数据
流式数据指的是实时或接近实时的时效性处理的大数据流。
常见的流式数据处理使用 Spark、Storm 和 Samza 等框架,能在毫秒到秒之间完成作业,用于处理应用时效性较强的场景,例如在线个性化推荐系统、网站用户实时行为采集和分析、物联网机器日志实时分析、金融实时消费反欺诈、实时异常人员识别等,应用领域集中在实时性较强的互联网和移动互联网、物联网等。
按照数据对象来区别,流式数据可分为两类:
第一类是用户行为数据流
用户行为数据流是围绕“人”产生的数据流,包括用户在网站和 APP 应用内部的浏览、搜索、评论、分享、交易以及外部的微博、微信等行为产生的数据流。
用户行为数据流采集根据平台可分为 Web 站、移动站和 APP(包含 IOS、Android、Win 等)应用。
Web 站以及基于 HTML5 开发的移动都支持 JS 脚本采集,较早开发的不支持 JS 的 Wap 站(现在基本上很少)则采用 NoScript 方法,即一个像素的硬图片实现数据跟踪;
SDK 是针对 APP 提供了数据采集的特定方法和框架。这三种方法可以实现目前所有线上用户行为数据采集的需求。
第二类是机器数据流
机器数据流是围绕“物”产生的数据流,包括从机器的生产、制造、应用、监控和管理等过程中产生的所有数据,例如机器运行日志、传感器监控数据、音频采集器数据、监控图像和视频、GPS 地理数据等。
机器数据流通常集中在工业 4.0、智能工厂等围绕工业的智能运营管理过程中,也出现在物联网、人工智能等人和物的监控、识别、联通、互动等智能化应用中。
机器数据流扮演者实时采集目标对象属性、状态、行为、信号等数据的角色。
2.1.5 外部公开数据
外部公开数据指公开的任意第三方都能获取的数据。数据化运营所需的外部公开数据来源渠道众多,常见的来源包括:
- 政府和相关机构提供的公开数据,例如国家统计局提供的月度 CPI 数据;
- 竞争对手主动公开的数据,例如新闻发布会、网络宣传等;
- 行业协会或相关平台组织提供的统计、资讯数据,例如艾瑞提供的行业研究报告;
- 第三方的组织或个人披露的与企业运营相关的数据,例如有关竞争对手的供应商、客户等数据。
2.1.6 其他
在某些场景下,企业数据化运营还会有其他来源,例如通过调研问卷获得有关产品、客户等方面的数据,从第三方平台直接购买数据,通过与其他厂商合作进行数据交互等。由于这些场景比较少,并且不是企业主流的数据获取来源,在此不作过多阐述。