Dataplex Automatic Discovery membuat data Cloud Storage tersedia untuk analitik dan tata kelola.

Di dunia yang semakin dipenuhi oleh data dan didorong oleh AI, organisasi menghadapi tantangan dengan volume data terstruktur dan tidak terstruktur yang terus berkembang. Pertumbuhan ini membuat semakin sulit untuk menemukan data yang tepat pada waktu yang tepat, dan sebagian besar data perusahaan tetap tidak ditemukan atau tidak dimanfaatkan dengan maksimal — yang sering disebut sebagai “data gelap.” Faktanya, 66% organisasi melaporkan bahwa setidaknya setengah dari data mereka masuk dalam kategori ini.

Untuk mengatasi tantangan ini, hari ini kami mengumumkan penemuan otomatis dan katalogisasi data Google Cloud Storage dengan Dataplex, bagian dari platform terpadu BigQuery untuk tata kelola data cerdas hingga AI. Fitur canggih ini memungkinkan organisasi untuk:

  • Menemukan secara otomatis aset data yang berharga yang ada di Cloud Storage, termasuk data terstruktur dan tidak terstruktur seperti dokumen, file, PDF, gambar, dan lainnya.
  • Mengumpulkan dan mengkatalogkan metadata untuk aset yang ditemukan dengan menjaga definisi skema tetap terbaru melalui pemeriksaan kompatibilitas dan deteksi partisi yang terintegrasi, seiring data berkembang.
  • Mengaktifkan analitik untuk kasus penggunaan data science dan AI dalam skala besar dengan tabel BigLake, eksternal, atau objek yang dibuat otomatis, menghilangkan kebutuhan untuk duplikasi data atau membuat definisi tabel secara manual.

Cara kerjanya

Proses penemuan otomatis dan katalogisasi di Dataplex dirancang agar terintegrasi dan efisien, dan meliputi langkah-langkah berikut:

  1. Pindai penemuan: Pindai penemuan dikonfigurasi oleh pengguna menggunakan BigQuery Studio UI, CLI, atau gcloud, yang memindai bucket Cloud Storage Anda yang berisi hingga jutaan file, untuk mengidentifikasi dan mengklasifikasikan aset data.
  2. Ekstraksi metadata: Metadata relevan, termasuk definisi skema dan informasi partisi, diekstraksi dari aset yang ditemukan.
  3. Pembuatan dataset dan tabel di BigQuery: Dataset baru dengan banyak tabel BigLake, eksternal, atau objek (untuk data tidak terstruktur) dibuat secara otomatis di BigQuery dengan definisi tabel yang akurat dan terbaru. Untuk pemindaian terjadwal, tabel ini akan diperbarui seiring perkembangan data dalam bucket Cloud Storage.
  4. Persiapan analitik dan AI: Dataset dan tabel yang diterbitkan tersedia untuk analisis, pemrosesan, data science, dan kasus penggunaan AI di BigQuery, serta mesin open-source seperti Spark, Hive, dan Pig.
  5. Integrasi katalog: Semua tabel BigLake terintegrasi dalam katalog Dataplex, sehingga mudah dicari dan diakses.

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_eTn70Jg.max-800x800.png

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/2_wkd44m5.gif

Manfaat utama

Fitur penemuan otomatis dan katalogisasi Dataplex menawarkan banyak manfaat bagi organisasi:

  • Peningkatan visibilitas data: Memahami dengan jelas aset data dan AI Anda di seluruh Google Cloud, menghilangkan spekulasi dan mengurangi waktu yang dihabiskan untuk mencari informasi yang relevan.
  • Mengurangi usaha manual: Mengurangi pekerjaan manual dalam membuat definisi tabel dengan membiarkan Dataplex memindai bucket dan membuat banyak tabel BigLake yang sesuai dengan data Anda di Cloud Storage.
  • Mempercepat analitik dan AI: Mengintegrasikan data yang ditemukan ke dalam alur kerja analitik dan AI Anda, membuka wawasan berharga dan mendorong pengambilan keputusan yang lebih baik.
  • Akses data yang disederhanakan: Memberikan akses mudah kepada pengguna yang berwenang ke data yang mereka butuhkan, sambil menjaga keamanan dan kontrol yang tepat.

Bagi admin penyimpanan yang tertarik dengan manajemen Cloud Storage dan ingin mendapatkan wawasan tentang seluruh penyimpanan mereka, silakan lihat artikel “Pahami jejak Cloud Storage Anda dengan query dan wawasan berbasis AI.”

Maksimalkan potensi data Anda

Penemuan otomatis dan katalogisasi di Dataplex merupakan langkah maju yang signifikan dalam membantu organisasi mengoptimalkan potensi penuh dari data mereka. Dengan menghilangkan tantangan terkait data gelap dan menyediakan katalog yang komprehensif dan dapat dicari untuk aset Cloud Storage Anda, Dataplex memberi Anda kemampuan untuk membuat keputusan berbasis data dengan lebih percaya diri.

Kami mengundang Anda untuk menjelajahi fitur baru yang kuat ini dan merasakan manfaatnya secara langsung. Untuk mempelajari lebih lanjut dan memulai, kunjungi dokumentasi Dataplex atau hubungi tim kami untuk bantuan.