数据源指的是企业内、外部数据的来源。数据源是大数据工作流的起点,一个完整的、需要不断迭代更新的数据工作都应该从数据源开始。这些数据源由于各自生产、存储环境的不同可分为日志/文件、数据库、网络爬虫、第三方API等。
1日志/文件
在企业内部数据源中,会存在各种日志或文件类型的数据,可能包括以下几类:
- 日志数据,包括机器日志、用户访问日志、监控日志等,这些日志通常都是以半结构化的文本文件进行存储。
- 视频数据,主要是动态影像数据,比如宣传视频、操作视频、监控视频、医疗视频、记录视频等,这些大多是非结构化的数据并以文件的形式进行存储。
- 音频数据,主要集中在客服坐席录音领域,以非结构化的文件的形式进行