020-83342506
常见问题

常见问题

数据领域常见问题及解答

数据采集主要有哪些方式及相应优缺点?

  • 2023-08-02 17:46
  • 来源:光点科技
  • 浏览数:17 次

广义上来说,数据采集主要分为两大方式。一是通过人员手工填报纸质数据和电子数据,二是通过设备终端大批量采集数据。两种采集方式的特点不同,手工填报数据的特点是效率慢、时间长,但采集的经济成本较小,适用于较小范围内的数据采集。设备终端采集,效率快、准确率也高。但是相应的终端设备价格一般都比较昂贵。适用于长时间大范围内的数据采集。


从软件系统的数据采集方式来说,有4种方式:

第一种:软件接口方式

通过各软件厂商开放数据接口,实现不同软件数据的互联互通。这是目前最为常见的一种数据对接方式。

优势:接口对接方式的数据可靠性与价值较高,一般不存在数据重复的情况;数据可通过接口实时传输,满足数据实时应用要求。

缺点:①接口开发费用高;②需协调多个软件厂商,工作量大;③可扩展性不高。如:由于新业务需要各软件系统开发出新的业务模块,其和大数据平台之间的数据接口也需做相应修改和变动,甚至要推翻以前的所有数据接口编码,工作量大、耗时长。

第二种:软件机器人采集

软件机器人是目前比较前沿的软件数据对接技术,即能采集客户端软件数据,也能采集网站网站中的软件数据。

如果只需要界面上的业务数据,或者遇到软件厂商不配合/倒闭、数据库分析困难的情况下, 利用软件机器人采集数据更可取,尤其是详情页数据的采集功能比较有特色。

软件机器人的技术特点如下:

①无需原软件厂商配合;②兼容性强,可采集汇聚Windows平台各种软件系统数据;③输出结构化数据;④即配即用,实施周期短、简单高效;⑤配置简单,不用编程,每个人都可以DIY一个软件机器人;⑥价格相对人工和接口,降低不少。

缺点:采集软件数据的实时性有一定限制。

第三种:网络爬虫

网络爬虫是模拟客户端发生网络请求,接收请求响应,一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

爬虫采集数据的缺点:①输出数据多为非结构化数据;②只能采集网站数据,容易受网站反爬机制影响;③使用人群狭窄,需要有专业编程知识才能玩转。

第四种:开放数据库方式

数据的采集融合,开放数据库是最直接的一种方式。

每个软件系统有各自的数据库,而同类型的数据库之间数据融合是比较方便的:

优势:开放数据库方式可以直接从目标数据库中获取需要的数据,准确性高,实时性也有保证,是最直接、便捷的一种方式。

缺点:开放数据库方式也需要协调各软件厂商开放数据库,这需要看对方的意愿,一般出于安全考虑,不会开放;一个平台如果同时连接多个软件厂商的数据库,并实时获取数据,这对平台性能也是巨大挑战。

4种数据采集方式,各有优势,适合不同的应用场景。


数据采集主要有哪些方式及相应优缺点?

更多数据治理相关资料请咨询客服获取,或者直接拨打电话:020-83342506

立即免费申请产品试用

申请试用