Cisco IT Suntik Efisiensi: Potong Biaya Observabilitas 86%, Eliminasi Gangguan Jaringan Besar

Sebuah insiden yang melibatkan kegagalan simultan beberapa klaster database di Cisco IT menjadi titik balik krusial. Meskipun data diagnostik sudah tersedia, masalah mendasar terletak pada fragmentasi sistem. Sinyal-sinyal penting tersebar di berbagai platform yang tidak terintegrasi, menghalangi korelasi data secara real-time.

Konsekuensinya adalah tiga jam panggilan darurat yang terpecah di tiga bridge terpisah. Para insinyur terlibat dalam perdebatan kepemilikan masalah, pemilik aplikasi menunggu pemulihan database, sementara eksekutif berupaya menjelaskan keterlambatan kepada mitra bisnis. Akar masalah akhirnya ditemukan, namun dampaknya terhadap operasional sudah terjadi.

Inisiatif Konsolidasi: Solusi Transformasi Operasional

Insiden tersebut memicu proyek konsolidasi yang mendalam, dipresentasikan oleh Anusha Nataraj, manajer produk di tim observabilitas Cisco IT, dalam sesi Cisco Live. Proyek ini berhasil mengurangi insiden mayor sebesar 25% dan mencatat nol gangguan jaringan besar dalam enam kuartal terakhir.

Lingkungan yang dikelola mencakup lebih dari 1.500 aplikasi, 71 di antaranya menghadap publik, melayani lebih dari 100.000 endpoint, dan memproses lebih dari 15.000 perubahan setiap bulannya. Platform sentral dari konsolidasi ini adalah Splunk, solusi yang diakuisisi Cisco pada tahun 2024.

“Kami memiliki data, seluruh data, namun data tersebut tidak tersambung, dan kami tidak bisa melihatnya secara holistik,” ujar Nataraj. "Konsolidasi ini memungkinkan kami untuk mengintegrasikan semua sinyal menjadi satu kesatuan yang dapat dipahami."

Fragmentasi Alat: Akar Masalah Observabilitas

Sebelum konsolidasi, ekosistem observabilitas Cisco IT adalah kumpulan solusi yang terfragmentasi. Log tersebar di sebagian instalasi Splunk dan instance Elastic. Metrik dikelola oleh berbagai tumpukan Prometheus, Grafana, dan solusi homegrown. Manajemen kejadian berjalan pada platform terpisah buatan sendiri. Tak satu pun dari sistem ini saling terhubung.

Tim sempat mempertimbangkan untuk tetap menggunakan kombinasi solusi yang ada, termasuk Datadog dan Elastic, serta mengevaluasi alternatif open source yang disambung-sambungkan. Tiga faktor utama mendorong keputusan untuk tidak mengambil jalur tersebut. Skalabilitasnya tidak memenuhi kebutuhan operasional Cisco IT, kemampuan AI yang dibutuhkan masih minim, dan tidak ada peta jalan yang jelas yang dapat dibentuk oleh Cisco IT sebagai pelanggan.

“Mereka berfungsi di tingkat departemen, tetapi tidak dapat diskalakan untuk kebutuhan IT kami, dan mereka tidak memiliki kematangan AI yang kami harapkan,” jelas Nataraj. Keputusan ini ditekankan bukan karena akuisisi Splunk di tahun 2024, melainkan murni berdasarkan kecocokan, skalabilitas, dan peta jalan AI.

Konsolidasi Tiga Pilar: Fondasi Efisiensi Baru

Proyek konsolidasi ini mengikuti urutan tiga langkah yang terdefinisi jelas. Pertama, konsolidasi log dengan memindahkan semua data log ke Splunk Cloud, menghentikan penggunaan Elastic dan instance pencatatan lainnya. Kedua, konsolidasi metrik yang sedang berlangsung, dengan menonaktifkan tumpukan Prometheus, Grafana, dan solusi homegrown seiring penyelesaian pekerjaan.

Pilar ketiga adalah penambahan konteks bisnis melalui IT Service Intelligence (ITSI). Tim mengimplementasikan ITSI untuk memberikan lapisan konteks bisnis di atas data log dan metrik yang telah disatukan. Pengurangan 86% dari total biaya kepemilikan (TCO) untuk observabilitas berasal dari fase pertama ini.

Lebih dari 400 server on-premises berhasil dinonaktifkan beserta penyimpanan terkait. Lisensi berbagai platform dikonsolidasikan, dan jumlah kontraktor yang ditugaskan untuk memantau server tersebut dikurangi. "Kami menonaktifkan banyak server yang ada di prem, yang jumlahnya lebih dari 400 server, dan elemen penyimpanan terkait semuanya dimatikan, dan itu adalah penghematan besar bagi kami," ungkap Nataraj.

Respons Insiden: Dari Kekacauan Menuju Ketepatan

Perubahan operasional paling terlihat dalam cara tim menangani insiden. Sebuah video yang ditampilkan selama sesi memperlihatkan alur kerja saat ini. Ketika sebuah peringatan muncul di ITSI, satu klik meluncurkan agen AI yang dibuat khusus, yang secara real-time menanyakan log, metrik, jejak, data topologi, dan permintaan perubahan terbaru.

Agen tersebut kemudian menyajikan ringkasan dalam bahasa yang mudah dipahami mengenai apa yang rusak, mengapa rusak, dan bagaimana cara memperbaikinya. Tindakan spesifik peran disertakan untuk tim DevOps, aplikasi, dan SRE. Jika eskalasi diperlukan, agen akan menyusun draf serah terima untuk insinyur yang sedang bertugas. Seluruh investigasi selesai dalam satu layar sebelum tiket insiden dibuat.

Hasilnya adalah pergeseran terukur dalam hasil. Ketika masalah terjadi, perang tiga bridge telah tiada. Tim dapat melihat lokasi masalah, dan respons terfokus pada pihak-pihak yang perlu bertindak. "Kami sebenarnya telah mengurangi jumlah insiden kami sebesar 25%, dan dalam enam kuartal terakhir tidak ada gangguan jaringan besar," kata Nataraj.

Pelajaran Berharga dari Transformasi

Nataraj merangkum serangkaian pembelajaran praktis dari proyek ini untuk tim operasi IT yang beroperasi pada skala serupa. Pertama, menyatukan data sebelum menerapkan AI adalah kunci. Tanpa platform data yang terpadu, AI tidak memiliki dasar yang andal untuk bekerja.

Kedua, berbagi visibilitas antar tim sangat penting. Mengorelasikan data hanya berguna jika tim yang membutuhkannya dapat mengaksesnya. Tim membangun berbagi data lintas domain sejak awal. Ketiga, memasukkan data perubahan dan rilis ke dalam observabilitas memungkinkan tim melacak kegagalan kembali ke perubahan spesifik yang menyebabkannya dan mempertahankan rencana rollback.

Terakhir, perlakukan penghematan biaya sebagai anggaran untuk inovasi. Pengurangan TCO mendanai pergeseran tim dari pemantauan rutin. Insinyur yang sebelumnya mengelola kapasitas dan memantau server kini membangun agen AI di atas alat MCP Splunk, berpartisipasi dalam pengujian alfa dan beta untuk perangkat lunak Splunk baru, dan memberikan umpan balik produk langsung ke tim Splunk Cisco.

“Mereka sebelumnya murni penutup tiket,” ujar Nataraj. “Mereka adalah inovator, mereka mengenakan topi manajer produk, dan mereka sangat senang dengan pekerjaan yang mereka lakukan.” Kepuasan kerja, retensi, dan pengurangan jumlah kontraktor adalah hasil yang dikutip Nataraj sebagai ROI terukur dari proyek tersebut.