Apache Arrow versi 1.0.0 Dirilis

1 min read

Disclaimer
Saya bekerja di AWS, semua opini adalah dari saya pribadi. (I work for AWS, my opinions are my own.)
Apache Arrow 1.0.0 Dirilis
Apache Arrow 1.0.0 Dirilis

TeknoCerdas.com – Salam cerdas untuk kita semua. Apache Arrow 1.0.0 dirilis pada 24 Juli 2020 lalu. Ini menandakan bahwa Apache Arrow telah memasuki tahap versi rilis stabil.

Pada rilis stabil yang pertama ini tercatat 810 persoalan yang terselesaikan pada laman Jira Apache Arrow. Tercatat jumlah kontributor pada rilis ini sebanyak 100 pengembang.

Beberapa format baru yang dihadirkan oleh Apache Arrow pada rilis 1.0.0 ini adalah.

  • Versi metadata dinaikkan menjadi V5, mengindikasikan bahwa ketidakcocokan pada tipe buffer layout.
  • Kamus index (dictionary indices) sekarang memperbolehkan penggunaan unsigned integer yang sebelumnya hanya signed integer. Penggunaan UInt64 dilarang karena dukungan yang buruk di Java.
  • Kolom baru “Feature” ditambahkan. Ini akan digunakan pada kasus spesifik pada IPC (Inter Process Communication).
  • Pilihan kompresi LZ4 atau Zstandard ditambahkan pada IPC.
  • Tipe kolom Decimal sekarang punya pilihan “bitWidth” (besar bit) yang default ke 128-bit.
  • Validitas buffer bitmap telah dihapus dari tipe Union.

Untuk rilis lengkap pada versi 1.0.0 dapat merujuk pada halaman https://arrow.apache.org/blog/2020/07/24/1.0.0-release/.

Sekilas Tentang Apache Arrow

Bagi anda yang belum mengenal Apache Arrow. Secara singkat Apache Arrow adalah sebuah framework untuk memproses data dengan skala besar yang diproses dalam bentuk kolom. Komponen utama pada Apache Arrow adalah in-memory columnar format yaitu format penyimpanan data pada memory dalam bentuk kolom.

Dengan struktur in-memory columnar Apache Arrow dapat menggunakan operasi SIMD (Single Instruction, Multiple Data) yang tersedia pada processor modern.

Apache Arrow SIMD
Apache Arrow SIMD untuk Processor modern

Apache Arrow menyediakan pustakan untuk berbagai bahasa pemrograman yang dapat digunakan untuk melakukan konversi ke format Apache Arrow. Dari format Apache Arrow tersebut juga dapat ditransformasikan kembali ke berbagai format lain sehingga masing-masing database tidak perlu memiliki format internal untuk tipe columnar.

Sebagai contoh dari Cassandra ke Spark atau sebaliknya. Dari Spark ke Pandas atau sebaliknya. Dengan demikian memungkinan pengembang untuk melakukan transfer data dari dan ke berbagai format hanya dengan atau tanpa sedikit modifikasi.