海量数据下分布式数据库系统的探索与研究

发布时间：2021-01-07所属分类：计算机职称论文浏览：1次

摘要：摘要：当前，互联网用户规模不断扩大，这些都与互联网的快速发展有关。现在传统的数据库已经不能满足用户的需求了。随着云计算技术的飞速发展，我国海量数据快速增长，数据量年均增速超过50%，预计到2020年，数据总量全球占比将达到20%，成为数据量最大、数

　　摘要：当前，互联网用户规模不断扩大，这些都与互联网的快速发展有关。现在传统的数据库已经不能满足用户的需求了。随着云计算技术的飞速发展，我国海量数据快速增长，数据量年均增速超过50%，预计到2020年，数据总量全球占比将达到20%，成为数据量最大、数据类型最丰富的国家之一。采用分布式数据库可以显著提高系统的可靠性和处理效率，同时也可以提高用户的访问速度和可用性。本文主要介绍了分布式数据库的探索与研究。

海量数据下分布式数据库系统的探索与研究

　　关键词：海量数据;数据库系统

　　1.传统数据库：

　　1.1层次数据库系统。

　　层次模型是描述实体及其与树结构关系的数据模型。在这个结构中，每种记录类型都由一个节点表示，并且记录类型之间的关系由节点之间的一个有向直线段表示。每个父节点可以有多个子节点，但每个子节点只能有一个父节点。这种结构决定了采用层次模型作为数据组织方式的层次数据库系统只能处理一对多的实体关系。

　　1.2网状数据库系统。

　　网状模型允许一个节点同时具有多个父节点和子节点。因此，与层次模型相比，网格结构更具通用性，可以直接描述现实世界中的实体。也可以认为层次模型是网格模型的特例。

　　1.3关系数据库系统。

　　关系模型是一种使用二维表结构来表示实体类型及其关系的数据模型。它的基本假设是所有数据都表示为数学关系。关系模型数据结构简单、清晰、高度独立，是目前主流的数据库数据模型。

　　相关期刊推荐：《计算机应用研究》反映并涵盖了当今国内外计算机应用研究的主流技术、热点技术及最新发展趋势，是一份极具收藏价值的技术刊物。报道国内外计算机应用领域的研究与探索以及计算机技术发展动态。内容涉及：系统软件和体系结构、计算机局域网、广域网、因特网、计算机通讯、人工智能与专家系统、虚拟现实技术、多媒体技术、图形图形处理、CAD/CAM、CIMS、GIS信息处理、信息交换、数据库系统、计算机硬件、故障诊断、维修技术、计算机安全防护与病毒防治等方面。

　　随着电子银行和网上银行业务的创新和扩展，数据存储层缺乏良好的可扩展性，难以应对应用层的高并发数据访问。过去，银行使用小型计算机和大型存储等高端设备来确保数据库的可用性。在可扩展性方面，主要通过增加CPU、内存、磁盘等来提高处理能力。这种集中式的体系结构使数据库逐渐成为整个系统的瓶颈，越来越不适应海量数据对计算能力的巨大需求。互联网金融给金融业带来了新的技术和业务挑战。大数据平台和分布式数据库解决方案的高可用性、高可靠性和可扩展性是金融业的新技术选择。它们不仅有利于提高金融行业的业务创新能力和用户体验，而且有利于增强自身的技术储备，以满足互联网时代的市场竞争。因此，对于银行业来说，以分布式数据库解决方案来逐步替代现有关系型数据库成为最佳选择。

　　2.分布式数据库的概念：

　　分布式数据库系统：分布式数据库由一组数据组成，这些数据物理上分布在计算机网络的不同节点上(也称为站点)，逻辑上属于同一个系统。

　　(1)分布性：数据库中的数据不是存储在同一个地方，更准确地说，它不是存储在同一台计算机存储设备中，这可以与集中数据库区别开来。

　　(2)逻辑整体性：这些数据在逻辑上是相互连接和集成的(逻辑上就像一个集中的数据库)。

　　分布式数据库的精确定义：分布式数据库由分布在计算机网络中不同计算机上的一组数据组成。网络中的每个节点都具有独立处理(称为站点自治)和执行本地应用程序的能力。同时，每个节点还可以通过网络通信子系统执行全局应用程序。与前面的定义相比，更关注的是站点的自治和自主站点之间的协作。

　　3.分布式数据库的优势：

　　数据安全一致性：

　　分布式数据库体系结构利用现有成熟的关系数据库技术将遥感数据存储在数据库中，并利用空间数据引擎技术添加一层访问中间件，提供统一的数据访问接口。采用分布式数据库体系结构，可以充分利用现有成熟的关系数据库技术，大大降低系统开发的难度，具有更好的安全性和数据一致性。

　　高可用可靠性：

　　可靠性基本上定义为系统在特定时间运行的概率，而可用性定义为系统在一段时间内连续可用的概率。当数据和DBMS软件分布在多个站点上时，当其他站点继续运行时，一个站点可能会失败，我们不能只访问失败站点中存在的数据。通过将查询分解成几个基本上并行执行的子查询，我们可以通过在不同的站点执行多个查询来实现查询间和内部查询的并行性，这基本上是可能的。提高可靠性和可用性。

　　易扩展性：

　　在分布式环境中，扩展系统、增加数据库大小或添加更多数据或添加更多处理器更容易。

　　4.分布式数据库的发展趋势

　　(1)同构同质型DDBS：每个站点使用相同类型的数据模型(例如关系模型)和相同类型的DBMS。

　　(2)同构异质型DDBS：每个站点使用相同类型的数据模型，但DBMS的模型不同，如DB2、Oracle、SQLServer等。

　　(3)异构型DDBS：每个站点的数据模型在类型或甚至类型上都是不同的。随着计算机网络技术的发展，异构计算机网络问题得到了很好的解决。此时，基于异构DDB，我们可以访问整个网络中各种异构本地库的数据。

　　5.结语：

　　数据库体系结构的核心是数据存储结构。只有在存在可定义的存储结构时，数据库才能提供搜索、查询和更新数据字段等操作。一方面，分布式数据库为结构化和半结构化数据提供了有效的管理能力，另一方面，它限制了用户处理非结构化数据的能力。在短期内，分布式数据库主要停留在非结构化数据管理中的小文件存储和检索领域。全文检索索引可以用来查询文件的内部信息。然而，对于二进制非文本类的非结构化数据，分布式数据库没有更好的方法可以在所有维度自由地搜索和查询信息。分布式在线数据库更适合于高并发的在线业务场景。——论文作者：季方1孙丙海1石玲丽2

海量数据下分布式数据库系统的探索与研究

热门核心期刊

sci|ssci服务

EI|SCOPUS服务

翻译润色解答

论文发表指导

学术成果常识