Pernah nggak sih kamu kepikiran kenapa sebuah mesin tiba-tiba rusak? Padahal baru aja diservis. Atau kenapa suatu alat gagal di saat paling dibutuhkan? Nah, itu semua bukan sekadar "kebetulan". Di dunia teknik, ada satu ilmu keren buat membongkar misteri ini: Failure Analysis. Yuk, kita bahas bareng-bareng!
Apa Itu “Failure”?
Sederhananya, failure itu adalah kondisi ketika sesuatu nggak bekerja sesuai harapan. Bisa gagal berfungsi, gagal bertahan, bahkan gagal dijual. Di kasus ekstrim, kegagalan bisa sebabkan kecelakaan, kerugian besar, bahkan korban jiwa. Di sinilah forensic engineering dan failure analysis turun tangan.
Jadi untuk memahami failure harus tahu function. Contohnya gini, kita punya bearing dikatakan failure ketika dia rusak. Tapi beda lagi ketika kita punya granat yang dikatakan failure adalah ketika dia tidak rusak atau hancur. Setiap equipment memiliki definisi failure-nya masing-masing.
Jadi untuk memahami failure harus tahu function. Contohnya gini, kita punya bearing dikatakan failure ketika dia rusak. Tapi beda lagi ketika kita punya granat yang dikatakan failure adalah ketika dia tidak rusak atau hancur. Setiap equipment memiliki definisi failure-nya masing-masing.
Akar Masalah Kegagalan
Ngomongin kegagalan, penyebabnya bisa macem-macem. Tapi secara umum, ada beberapa kategori besar yang jadi biang keroknya:
- Masalah material atau alat: misal logam rapuh, atau suku cadang cacat.
- Kesalahan prosedur: SOP diabaikan atau salah pelaksanaan.
- Human error: operator salah atur alat, lupa checklist, dll.
- Desain yang buruk: bentuknya salah, atau nggak tahan kondisi lapangan.
- Manajemen lemah: nggak ada kontrol kualitas, inspeksi lemah, atau spare part telat.
- Faktor eksternal: bencana alam, sabotase, suhu ekstrem.
Failure of Equipment / Component
Failure dibagi jadi dua jenis besar:
1. Instantaneous Failure
Ini tipe kegagalan yang terjadi seketika, langsung rusak saat beban datang, tanpa ada tanda-tanda melemah sebelumnya. Contohnya kayak mur langsung patah pas dikencengin karena udah ada cacat dalam materialnya. Nggak ada waktu buat mencegah — boom!, langsung gagal.
2. Progressive Failure
Kalau yang ini, gagalnya pelan-pelan, step by step. Materialnya awalnya kuat, tapi seiring waktu mulai melemah karena faktor-faktor seperti retakan kecil, korosi, kelelahan, dan sebagainya. Kita sering nggak sadar, tapi sebenarnya kerusakan udah mulai jalan jauh sebelum alatnya benar-benar rusak.
Jenis-jenis Progressive Failure ini termasuk:
- Ductile Overload
Material gagal dalam kondisi lentur (ductile), biasanya terlihat dari bentuk patahan yang mulur atau memanjang. Ini masih lebih “baik” karena ada tanda-tanda sebelum benar-benar gagal total.
- Brittle Overload
Lawannya ductile. Material patah secara tiba-tiba dan getas, tanpa deformasi dulu. Biasanya berbahaya karena nggak ada warning — kayak kaca yang pecah.
- Fatigue
Kelelahan material karena beban yang berulang-ulang. Retakan kecil muncul dan makin besar setiap kali alat digunakan. Akhirnya... crack! rusak total.
- Corrosion
Karat dan reaksi kimia lainnya yang bikin material makin tipis, lemah, dan gampang patah. Contohnya: pipa besi yang keropos karena kena air laut.
- Wear
Aus karena gesekan terus-menerus. Permukaan jadi tipis, kasar, atau nggak presisi lagi. Misalnya: bearing aus karena pelumasan kurang optimal.
- Creep
Deformasi perlahan-lahan karena beban konstan di suhu tinggi. Nggak kelihatan langsung, tapi makin lama bentuk material bisa berubah dan akhirnya gagal.
Science & Engineering of Failure
Kalau suatu alat atau sistem gagal berfungsi, pertanyaan pertama yang harus dijawab adalah: "Kenapa bisa gagal?" Nah, di sinilah peran Failure Analysis (FA) muncul.
Failure Analysis (FA)
adalah proses mengumpulkan dan menganalisis data untuk cari tahu penyebab kegagalan. Nggak cuma lihat kerusakan fisik, tapi juga ditelusuri: kapan mulai rusak? Di kondisi apa? Ada gejala sebelumnya nggak?
Root Cause Analysis (RCA)
adalah proses manajemen untuk cari akar masalah yang sebenarnya (root cause). Biasanya mengacu ke prinsip Pareto 80/20, yaitu dari sekian banyak masalah, biasanya ada 20% penyebab utama yang bikin 80% kerugian. Fokus RCA: pecahkan masalah dari sumbernya, bukan cuma tambal sulam.
Root Cause Failure Analysis (RCFA)
adalah aksi nyatanya. RCFA melibatkan langkah-langkah sistematis untuk:
- Cari tahu mengapa sebuah kegagalan terjadi,
- Temukan akar penyebabnya,
- Buat solusi biar masalahnya nggak muncul lagi.
RCFA sering dipakai di industri teknik, terutama kalau kegagalan berdampak besar, misalnya downtime produksi, kecelakaan, atau kerusakan alat vital.
Jadi, singkatnya:
FA = cari tahu apa gagalnya.
RCA = fokus ke akar penyebab utama.
RCFA = rangkaian aksi untuk mencegah kegagalan terulang.
Failure Event
Chronic - Sporadic
Sporadic Event adalah kejadian kegagalan yang tiba-tiba, jarang terjadi, tapi dampaknya besar. Ibaratnya kayak “bom waktu” yang nggak kelihatan, tapi pas meledak, bikin panik semua orang.
Ciri-ciri Sporadic Event:
- Dramatic: Kejadiannya mendadak dan bikin heboh. Misalnya, main pump trip saat load tinggi, atau turbine failure saat peak demand.
- Urgent Attention: Harus segera ditangani, nggak bisa ditunda. Semua tim teknik langsung standby!
- Infrequent: Nggak sering kejadian, tapi sekali muncul, efeknya luar biasa.
- Time-consuming to Restore: Recovery-nya butuh waktu dan sumber daya besar — bisa berjam-jam, bahkan berhari-hari.
- High Impact: Dampaknya langsung terasa ke operasi, safety, atau finansial. Biasanya langsung ada angka kerugian dalam bentuk $ (cost impact)
Berbeda dari sporadic event yang heboh dan bikin panik, chronic events itu tipe kegagalan yang sering terjadi, dampaknya kecil, tapi bikin kesel kalau dibiarkan.
Ciri-ciri Chronic Event:
- Part of the Routine: Udah kayak “menu harian”—sering kejadian sampai dianggap normal. Contohnya: alarm low pressure yang sering muncul tapi selalu “di-clear” tanpa investigasi.
- Demands Attention: Tetap butuh perhatian, walau nggak bikin panik.
- Frequent Occurrence: Sering banget muncul. Bisa harian, mingguan, bahkan setiap shift.
- Quick Fix: Biasanya bisa cepat ditangani, cuma butuh sedikit waktu dan effort buat restore.
- Low Individual Impact: Kalau dilihat satu-satu, dampaknya kecil banget, kadang nggak kerasa.
- No $ Calculated: Karena efeknya kecil dan sering, nggak pernah dihitung total kerugiannya, padahal kalau dikumpulin, bisa jadi besar juga.
Kenapa RCFA Itu Penting?
Banyak orang berpikir bahwa kegagalan besar itu datang dari kejadian luar biasa. Padahal, kenyataannya: kebanyakan masalah di organisasi justru datang dari hal-hal yang berulang dan sering terjadi — alias chronic failures. Fakta Menariknya, Most failures are chronic: Artinya, masalah yang sama muncul terus-menerus dengan penyebab yang itu-itu juga.
Dari semua chronic failures selama setahun, hanya 20% yang bertanggung jawab atas 80% total kerugian (ini dikenal sebagai prinsip Pareto 80/20). Kalau kita fokus menginvestigasi dan menyelesaikan 20% kegagalan yang paling menyumbang kerugian, hasilnya bisa sangat besar dalam waktu cepat. 20% inilah yang disebut sebagai Significant Few — masalah yang kelihatan kecil, tapi efeknya besar dan terus berulang.
Jadi, Why RCFA?
Karena RCFA (Root Cause Failure Analysis) membantu kita menemukan dan mengatasi chronic failures yang paling merugikan, bukan cuma meredam gejala. Dengan begitu, kita bisa hemat waktu, biaya, dan tenaga, sekaligus meningkatkan reliability secara signifikan. Singkatnya, RCFA itu bukan buat semua masalah, tapi buat masalah yang sering muncul dan paling banyak makan biaya. Fokus ke yang sedikit tapi berdampak besar.
Company Regulation Hierarchy
Tujuan RCFA
Kalau alat atau sistem kita gagal, jangan buru-buru ganti part tanpa tahu apa yang sebenarnya terjadi. Nah, di sinilah RCFA (Root Cause Failure Analysis) jadi alat bantu yang powerful — bukan cuma buat tahu apa yang rusak, tapi juga kenapa rusaknya terjadi dan gimana caranya biar nggak kejadian lagi.
RCFA Goals – Tujuan Akhirnya Apa Sih?
Failure Identification
Cari tahu apa yang sebenarnya rusak. Fokus ke fakta, bukan asumsi.
Failure Analysis
Kupas tuntas kenapa kerusakan itu bisa terjadi. Di sinilah kita cari root cause.
Failure Resolution
Bikin solusi konkret yang bisa mencegah kegagalan terulang kembali. Bukan cuma perbaikan sementara.
5 Pertanyaan Kunci dalam RCFA
Untuk bisa sampai ke solusi yang tepat, kita harus jawab lima pertanyaan penting:
- What happened? – Apa yang rusak?
- How it happened? – Gimana proses kegagalannya?
- Why it happened? – Apa penyebab utamanya?
- How to prevent re-occurrence? – Gimana cara mencegahnya terjadi lagi?
- What is the remedial action? – Tindakan korektifnya apa?
Metode Umum RCFA: O–I–A
RCFA punya alur sederhana tapi sangat kuat, dikenal dengan O–I–A:
Observation
Ngumpulin semua fakta di lapangan. Jangan pakai opini — cukup lihat apa yang benar-benar terjadi.
Interpretation
Analisis dari fakta-fakta tadi. Tanyakan: Apa makna dari semua data ini? Apa yang bisa saya pelajari? Mana root cause-nya?
Application
Dari hasil analisis, kita buat tindakan nyata. Solusi yang tepat dan bisa mencegah kegagalan di masa depan.
O – I – A
RCFA Process itu adalah langkah sistematis untuk menyelidiki akar penyebab suatu masalah atau kegagalan, bukan hanya untuk tahu what happened, tapi juga why it happened, dan how to prevent it in the future. Proses ini penting banget supaya kejadian yang sama tidak terus berulang tanpa solusi nyata.
1. Preserving Failure Data
Langkah pertama adalah mengumpulkan data sebanyak dan seakurat mungkin soal kejadian yang terjadi. Caranya bisa lewat interview, brainstorming, dan review dokumentasi, berdasarkan 5P’s:
- People: siapa saja yang terlibat, apa perannya
- Parts: komponen apa yang rusak atau berkontribusi pada failure
- Paper: SOP, work order, instruksi kerja, drawing
- Position: lokasi fisik peralatan saat failure
- Paradigms: cara berpikir, asumsi, kebiasaan kerja yang berlaku di organisasi
2. Ordering the Analysis
Tahap ini tentang membentuk tim RCFA yang tepat. Biasanya melibatkan:
Principal Analyst untuk memimpin proses
Tim dengan subject matter expert di bidang teknik, proses, dan operasi
Tujuannya jelas: ingin mengidentifikasi dan mengatasi akar penyebab kegagalan. Teknik yang digunakan antara lain:
- Fault Tree Analysis (FTA)
- Event Tree Analysis (ETA)
- Failure Mode and Effects Analysis (FMEA)
Kapan perlu bentuk tim RCFA formal?
Kalau ada injury, environmental incident, kerusakan besar (catastrophic), regulasi yang mewajibkan, atau potensi bahaya safety, RCFA harus dilakukan secara formal dan terstruktur.
3. Analyzing the Data
Di sini tim mulai menyelam lebih dalam:
- Pahami sistem secara keseluruhan
- Tentukan failure event
- Identifikasi failure modes
- Buat hipotesis penyebabnya
- Verifikasi hipotesis dengan data
- Telusuri hingga underlying causes yang bisa berupa:
- Physical cause (komponen aus, kelelahan material, dll)
- Human cause (human error, kurang training, dll)
- Latent cause (kebijakan, budaya kerja, prosedur yang salah)
Buat rekomendasi perbaikan
Ingat, RCFA bukan untuk mencari “siapa yang salah” tapi untuk memahami “kenapa keputusan itu dibuat” agar bisa dicegah ke depan.
Communicating Findings & Recommendations
Setelah Root Cause Failure Analysis (RCFA) selesai, hasil temuan dan rekomendasi harus disusun dalam laporan yang jelas dan detail untuk disampaikan ke para decision-maker. Kalau rekomendasi yang sudah disetujui tidak dijalankan, maka seluruh proses RCFA hanya buang-buang waktu dan biaya. Supaya rekomendasi ini benar-benar diimplementasikan, sering kali perlu ada perubahan prioritas dalam work environment. RCFA bukan hanya solusi lokal—hasilnya bisa jadi knowledge base berharga untuk tim lain dalam organisasi yang mungkin menghadapi masalah serupa di masa depan. Ibaratnya, hasil analisa ini jadi semacam expert system atau troubleshooting guideline tertulis yang bisa dipakai ke depannya.
Tracking for Success
Setelah solusi dari RCFA dijalankan, langkah penting selanjutnya adalah memonitor apakah recommendations tersebut benar-benar efektif. Ini bisa dilihat dari beberapa performance indicators seperti berkurangnya maintenance cost, meningkatnya production rate, atau menurunnya failure rate. Kalau tidak ada perbaikan, berarti RCFA-nya belum sukses. Banyak orang mengira RCFA sukses hanya karena bisa menemukan root cause atau rekomendasinya diterima, tapi ukuran keberhasilan yang sebenarnya adalah: failure tidak terjadi lagi.
Managing the Failure for Risk-Based Assessment
Bagaimana cara kita mengelola failure secara sistematis dengan pendekatan berbasis risiko atau Risk-Based Assessment. Jadi bukan hanya sekadar memperbaiki kerusakan setelah terjadi, tapi kita juga menilai seberapa besar risk (kombinasi antara kemungkinan terjadinya dan dampaknya) dari setiap potensi failure yang bisa muncul. Dengan pendekatan ini, kita bisa lebih fokus ke critical failure yang punya consequence besar terhadap keselamatan, lingkungan, atau business continuity, dan memastikan bahwa resources yang kita miliki digunakan secara tepat sasaran dan efektif.
Risk adalah gabungan antara dua hal penting: seberapa besar kemungkinan (Probability of Failure / PoF) suatu failure terjadi dalam periode waktu tertentu, dan seberapa besar dampaknya (Consequence of Failure / CoF) kalau failure itu benar-benar terjadi.
Misalnya, kalau ada potensi leak dari pipa—kita hitung kemungkinan terjadinya leak (PoF), lalu kita analisis dampaknya (CoF): bisa berdampak ke Safety (misal: risiko explosion atau toxicity), ke Environment (misal: spill bahan kimia), ke Business Interruption (misal: downtime produksi), atau ke Financial loss. Jadi semakin besar PoF dan CoF, maka semakin tinggi Risk-nya.