Pendulum adalah platform analitik bertenaga AI yang mengumpulkan dan menganalisis data real-time dari media sosial, berita, dan podcast. Platform ini dirancang untuk membantu organisasi memantau reputasi, mendeteksi krisis lebih awal, dan melacak aktivitas influencer. Dengan memanfaatkan machine learning (ML), Pendulum mampu menampilkan wawasan penting dari berbagai saluran digital dan memberikan pandangan menyeluruh terhadap dunia digital. Salah satu komponen penting dari solusi Pendulum adalah kemampuan mereka untuk mengolah miliaran data dari lebih dari 20 platform pihak ketiga dan memproses data tersebut menjadi data lake sebesar lebih dari 10 TB yang disimpan di Amazon S3. Pendulum memilih Apache Iceberg sebagai format tabel karena kemampuannya dalam mengoptimalkan query, mendukung evolusi skema dan indeks secara fleksibel, fitur time travel, dan konsistensi data melalui pendekatan merge-on-read. Namun, pengelolaan tabel Iceberg secara manual di lingkungan S3 mereka membutuhkan banyak waktu dan tenaga dari tim engineer. Masuknya Amazon S3 Tables menjadi solusi besar yang mengubah proses operasional yang mahal ini. S3 Tables adalah cloud object store pertama yang mendukung Iceberg secara bawaan dan merupakan cara termudah untuk menyimpan data tabel dalam skala besar. Dengan beralih ke S3 Tables, Pendulum berhasil memangkas lebih dari 4 jam kerja mingguan untuk perawatan tabel, meningkatkan performa query sekitar 70%, menurunkan biaya hingga 40%, dan mencapai kecepatan pemrosesan sistem hingga 6 kali lebih cepat dari sebelumnya. Sistem Lama Sebelum menggunakan S3 Tables, Pendulum mengelola tabel Iceberg mereka secara manual di bucket S3 biasa. Proses ini melibatkan skrip otomatisasi kustom di AWS Glue untuk compaction, implementasi Iceberg dasar, pengaturan Glue Optimization secara manual, serta pengelolaan snapshot dan pembersihan data. Skrip-skrip ini memakan banyak waktu (sekitar 1 jam per proses) dan sumber daya (Data Processing Units/DPU). Implementasi S3 Tables Dengan S3 Tables, Pendulum membangun pipeline data otomatis dan berskala besar menggunakan arsitektur serverless di AWS. Lapisan Ingest (Pengambilan Data) Platform pengambilan data dibangun sepenuhnya menggunakan layanan serverless AWS. AWS Step Functions digunakan untuk menjadwalkan alur kerja, yang memanggil fungsi AWS Lambda melalui Amazon EventBridge. Untuk pengambilan data secara langsung, permintaan dikirim ke Amazon SQS, yang secara instan memicu Lambda terkait. Sistem ini mengambil data dari 26 platform sosial dan media, memproses sekitar 90 juta postingan per hari dari 4 juta saluran. Data disimpan di S3 dengan partisi berdasarkan tanggal, platform, dan pembuat konten. Waktu proses ETL menjadi jauh lebih cepat karena S3 Tables menangani optimasi Iceberg secara otomatis. Lapisan Pra-Pemrosesan Data yang diambil diproses menggunakan Glue Streaming ETL. Di sini data dibersihkan dan dikategorikan menjadi dua jenis: Channels (akun sumber) dan Posts (konten dari akun). Setelah diklasifikasikan, data disimpan ke bucket tabel yang sesuai. Lapisan Penyimpanan Data Data yang sudah diproses disimpan dalam tiga bucket S3 Tables: channel_latest_s3: Menyimpan seluruh akun sosial media yang pernah terlihat. Diperbarui tiap hari. post_latest_s3: Menyimpan semua postingan media sosial. Diperbarui tiap hari. enriched_snippets: Tabel streaming real-time yang menyimpan potongan teks hasil analisis NLP dari Amazon SageMaker. Lapisan Analitik Data kumulatif ini digunakan untuk analitik lanjutan seperti: Query real-time di Amazon Athena Proses embedding di Amazon EMR Serverless untuk platform AI Pendulum Indexing ke Amazon OpenSearch Visualisasi di platform analitik Pendulum dan Amazon QuickSight Dengan struktur ini, querying menjadi efisien, dan performa tetap optimal. Dampak Sistem Dengan S3 Tables, Pendulum menghemat lebih dari 4 jam kerja mingguan tiap engineer yang sebelumnya digunakan untuk pemeliharaan tabel. Tim engineer kini bisa fokus pada proyek-proyek data yang lebih strategis. Sebelumnya, proses manual mereka mencakup: Skrip otomatisasi compaction Pengelolaan Iceberg mandiri Pengaturan optimasi Glue secara manual Pemeliharaan snapshot dan rutinitas pembersihan Setelah beralih ke S3 Tables, performa meningkat drastis. Salah satu tabel terbesar mereka (post_latest_s3) kini diproses 6 kali lebih cepat — dari 1 jam menjadi hanya 10 menit per hari. Hal ini berkat fitur optimasi otomatis seperti file compaction, indexing, dan adaptive query execution (AQE). Selain kecepatan, biaya juga turun sekitar 40% karena lebih hemat DPU Glue dan tidak lagi membutuhkan skrip tambahan. Biaya tersembunyi yang juga tereliminasi meliputi: Waktu engineer untuk perawatan Dampak bisnis karena keterlambatan data Biaya infrastruktur untuk monitoring dan skrip Manfaat lain yang dirasakan Pendulum: Keandalan data meningkat karena optimasi otomatis yang konsisten Skalabilitas tinggi untuk data yang terus bertambah Performa query yang lebih baik bagi pengguna bisnis Akses data lebih cepat dan mudah Kesimpulan Sebelum menggunakan Amazon S3 Tables, Pendulum harus mengalokasikan banyak waktu engineer untuk mengelola tabel Iceberg. Seiring pertumbuhan data dan inisiatif baru, pendekatan ini menjadi tidak efisien. S3 Tables hadir sebagai solusi yang sangat cocok untuk kebutuhan Pendulum. Dengan sistem ini, mereka menghemat waktu, meningkatkan performa hingga 6 kali, dan memangkas biaya sebesar 40%. Jika Anda menghabiskan banyak waktu untuk mengelola tabel Iceberg secara manual, S3 Tables bisa menjadi solusi terbaik untuk menyimpan data tabular dalam skala besar dengan manajemen sepenuhnya otomatis. Infrastruktur IT yang kuat adalah kunci produktivitas perusahaan. Dengan storage indonesia, Anda bisa mendapatkan solusi IT lengkap yang sesuai dengan kebutuhan Anda. iLogo Indonesia sebagai mitra terpercaya siap mengintegrasikan semuanya agar bisnis Anda tetap berjalan lancar dan aman. Hubungi kami sekarang atau kunjungi storage.ilogoindonesia.id untuk informasi lebih lanjut!