山海鲸可视化

Apache ORC(Optimized Row Columnar)

山海鲸可视化,提供一站式数字孪生解决方案,致力于打造一款人人都会用的,零代码数字孪生工具。

简介

Apache ORC(Optimized Row Columnar)是一种用于数据存储和压缩的列式数据存储格式,最初由 Facebook 开发,并后来成为 Apache 项目的一部分。ORC 旨在提高数据存储和查询性能,特别适用于大规模数据仓库和分析工作负载。
image.png

适用场景

Apache ORC 被广泛用于大数据处理领域,特别是在 Hadoop 生态系统中。它通过提高数据存储效率和查询性能,有助于加速数据分析和处理任务的执行。
优势:ORC 将数据以列的方式存储,而不是行。这意味着每一列都是连续存储的,这样可以实现更高的数据压缩率和更快的查询性能。使用了多种压缩算法,可以显著减小数据存储空间,降低磁盘 IO 成本,同时也有助于提高查询速度。支持列投影,这意味着查询只需要读取必要的列,而不必读取整个行,这有助于减少 IO 开销。支持谓词下推,这意味着查询引擎可以在数据加载之前将过滤条件应用于数据,从而减少需要处理的数据量。
缺点:ORC 格式相对于其他一些存储格式来说较为复杂,这可能使其在某些情况下不太适合简单的数据存储需求。对于小型数据或非常简单的用例,ORC 可能会显得过于复杂。 由于 ORC 对数据进行高度压缩和优化,因此将数据写入 ORC 格式可能需要更多的时间,尤其是在数据量较大的情况下。这可能会导致写入延迟。通常用于批处理作业,不太适合实时数据流处理。对于需要低延迟的实时分析,可能需要考虑其他数据格式。

图例

  1. Apache ORC 文件结构。

image.png

  1. ORC 的 schema 结构。


数字孪生大屏应用案例

目前,我们山海鲸可视化资源中心提供了丰富的数字孪生大屏案例,在网页上就可以快速体验大屏。

  1. 度假酒店可视化管理解决方案

image.png

  1. 河南人口增长数据展示中心

image.png

  1. 赛车场模型-数字孪生系统

image.png

相关数据源

Apache Solr
Apache Zeppelin
Apache Doris
Apache Kudu

参考资料

  1. https://zhuanlan.zhihu.com/p/474366681?utm_id=0
  2. http://www.taodudu.cc/news/show-5847900.html
  3. https://orc.apache.org/