Apache ORC（Optimized Row Columnar）

山海鲸可视化，提供一站式数字孪生解决方案，致力于打造一款人人都会用的，零代码数字孪生工具。

简介

Apache ORC（Optimized Row Columnar）是一种用于数据存储和压缩的列式数据存储格式，最初由 Facebook 开发，并后来成为 Apache 项目的一部分。ORC 旨在提高数据存储和查询性能，特别适用于大规模数据仓库和分析工作负载。

适用场景

Apache ORC 被广泛用于大数据处理领域，特别是在 Hadoop 生态系统中。它通过提高数据存储效率和查询性能，有助于加速数据分析和处理任务的执行。

**优势：**ORC 将数据以列的方式存储，而不是行。这意味着每一列都是连续存储的，这样可以实现更高的数据压缩率和更快的查询性能。使用了多种压缩算法，可以显著减小数据存储空间，降低磁盘 IO 成本，同时也有助于提高查询速度。支持列投影，这意味着查询只需要读取必要的列，而不必读取整个行，这有助于减少 IO 开销。支持谓词下推，这意味着查询引擎可以在数据加载之前将过滤条件应用于数据，从而减少需要处理的数据量。

缺点：ORC 格式相对于其他一些存储格式来说较为复杂，这可能使其在某些情况下不太适合简单的数据存储需求。对于小型数据或非常简单的用例，ORC 可能会显得过于复杂。由于 ORC 对数据进行高度压缩和优化，因此将数据写入 ORC 格式可能需要更多的时间，尤其是在数据量较大的情况下。这可能会导致写入延迟。通常用于批处理作业，不太适合实时数据流处理。对于需要低延迟的实时分析，可能需要考虑其他数据格式。