Pentingnya Business Continuity dalam Ekosistem Pembayaran
PBI 23/2021 memandatkan bahwa setiap Penyedia Jasa Pembayaran memiliki Business Continuity Management (BCM) program yang comprehensive untuk memastikan bahwa layanan pembayaran kritis dapat terus beroperasi atau quickly recovered dalam situasi disruptive. Disruption terhadap sistem pembayaran dapat timbul dari berbagai sumber: bencana alam (gempa, banjir), kegagalan teknologi (hardware failure, software bug), cyber attack, human error, atau krisis eksternal (pandemic, conflict). Dampak dari prolonged payment service disruption sangat severe: pelanggan kehilangan akses untuk mengirim uang, bisnis kecil tidak dapat menerima pembayaran, dan kepercayaan terhadap sistem pembayaran nasional terancam. Oleh karena itu, BCM bukan optional—ia adalah mandatory requirement yang terintegrasi dengan risk management dan governance PJP secara keseluruhan.
Business Impact Analysis (BIA)
Foundation dari BCM adalah Business Impact Analysis (BIA), yaitu proses sistematis untuk mengidentifikasi dan menganalisis dampak yang akan terjadi jika suatu business function mengalami disruption dalam jangka waktu tertentu. BIA harus dilakukan untuk setiap payment service yang dioperasikan PJP, dengan mempertimbangkan: berapa lama service dapat down sebelum mencapai intolerable loss levels (Maximum Tolerable Downtime / MTD), berapa banyak data yang PJP dapat afford untuk kehilangan tanpa significant operational impact (Recovery Point Objective / RPO), dan berapa resource yang dibutuhkan untuk recovery. BIA harus melibatkan stakeholder dari setiap business unit untuk memahami dependencies dan critical processes. Hasil BIA harus diterjemahkan menjadi service recovery objectives yang specific dan measurable.
| KONSEP KUNCI | Recovery Time Objective (RTO) adalah target waktu maksimal untuk mengembalikan service ke operasi normal setelah disruption. Recovery Point Objective (RPO) adalah maksimal data loss yang dapat diterima. Untuk payment services kritis seperti transfer real-time, RTO mungkin 4-24 jam dan RPO mungkin 0 (real-time replication). Untuk supporting services, RTO dapat lebih long dan RPO dapat lebih relaxed. |
Strategi Pemulihan dan Alternate Processing Site
Berdasarkan hasil BIA, PJP harus mengembangkan recovery strategies untuk memastikan bahwa critical payment services dapat di-recover dalam RTO yang ditetapkan. Strategi recovery dapat berkisar dari low-cost (backup manual procedures, delayed processing) hingga high-cost/high-capability (geographically redundant data centers, real-time replication). Untuk PJP dengan layanan pembayaran real-time yang critical, strategi yang paling appropriate adalah Geographic Information Systems (GIS) yang redundant atau cold standby site yang dapat di-activate dengan cepat. Cold standby site adalah facility yang sudah di-setup dengan infrastructure yang sama seperti primary data center, tapi tidak secara aktif memproses transactions—ia hanya activated ketika primary site mengalami kegagalan total. Hot standby site adalah facility yang actively memproses transaction dengan real-time replication dari primary, sehingga failover dapat terjadi dengan near-instantaneous dan minimal data loss. Hot standby lebih mahal tetapi lebih sesuai untuk critical services.
Recovery Procedures dan Runbooks
PJP harus mengembangkan detailed recovery procedures (sering disebut runbooks) yang menjabarkan step-by-step actions untuk recover setiap critical payment service dari berbagai failure scenarios. Recovery runbooks harus mencakup: definition dari failure scenario, decision criteria untuk declaring disaster dan invoking DRP, activation procedures untuk alternate site, restoration procedures untuk primary site, communication protocols untuk notifying stakeholders, dan rollback procedures. Runbooks harus ditulis dalam bahasa yang jelas dan dapat diikuti oleh technical staff bahkan dalam kondisi stress. Setiap runbook harus memiliki estimated recovery time untuk setiap step, sehingga total recovery time dapat di-estimate. Runbooks harus dihoard dalam multiple locations (hardcopy backup, secure cloud storage, etc.) sehingga dapat diakses bahkan jika primary data center completely inaccessible.
Backup dan Recovery Procedures
Backup adalah cornerstone dari recovery strategy. PJP harus melakukan regular backups dari semua critical payment systems dan databases, dengan frequency yang cukup untuk meet RPO objectives. Untuk systems dengan RPO near-zero (seperti settlement systems), real-time replication atau continuous backup harus diimplementasikan. Untuk systems dengan RPO beberapa jam, daily atau even hourly backups mungkin sufficient. Backup media harus disimpan di lokasi yang terpisah secara geografis dari primary data center, untuk memastikan bahwa single disaster tidak destroy semua backup. Backup harus di-encrypt untuk melindungi sensitive data, dan backup encryption keys harus di-manage secara aman. PJP harus regularly test restore procedures untuk memastikan bahwa backups dapat actually di-restore ke functioning state—testing yang tidak lengkap dapat mengungkap bahwa backups corrupt atau incomplete.
| PENTING | Backup adalah hanya valuable jika backup dapat di-restore dengan cepat dan ke consistent state. PJP harus melakukan restore tests minimal setiap tahun untuk critical systems, atau lebih sering untuk highest-criticality services. Testing harus dilakukan dalam isolated environment untuk memastikan bahwa restore dapat berjalan tanpa impacting production. |
Business Continuity Plan (BCP) dan Disaster Recovery Plan (DRP)
Butuh Bantuan dari Strategi sampai Implementasi?
Dari pemetaan kewajiban PBI 23 hingga penguatan governance, risk, dan security controls, Bitlion membantu perusahaan bergerak lebih cepat dengan pendekatan konsultatif dan praktis.
BCP dan DRP adalah documents yang mengorganisir semua elements dari business continuity program ke dalam executable plans. BCP adalah board-level plan yang menjabarkan overall strategy dan goals dari continuity, sementara DRP adalah technical operational plan yang detail tentang bagaimana specific IT systems akan di-recover. BCP harus mencakup: governance dan roles dalam incident, communication protocols, alternative work arrangements untuk staff, customer notification procedures, dan resume to normal operations. DRP harus technical detail tentang system recovery, mencakup runbooks, recovery hardware/software requirements, dan step-by-step recovery procedures. BCP dan DRP harus ditulis dalam accessible language dan accessible ke relevant stakeholders (executives untuk BCP, technical staff untuk DRP). Document ini harus reviewed dan updated annually, atau ketika ada significant change dalam business atau IT infrastructure.
Testing Continuity Plan dan Validation
BCP dan DRP adalah hanya sebagus execution-nya. Tanpa regular testing, PJP tidak dapat yakin bahwa plans akan bekerja ketika terjadi actual disaster. PBI 23/2021 mengharuskan testing minimal setiap tahun, dengan scope dan depth yang increasing dari tahun ke tahun. Year 1 dapat dimulai dengan tabletop exercise, yaitu meeting-based scenario discussion di mana participants walk through recovery procedures tanpa actually executing mereka. Tahun 2 dapat menggunakan parallel run test, di mana recovery procedures di-execute pada test environment secara parallel dengan production, untuk verify bahwa procedures valid. Tahun 3+ dapat menggunakan full failover test, di mana production traffic actually di-switch ke alternate site untuk verify bahwa all systems function correctly. Tabletop testing dapat dilakukan yearly, sementara parallel atau full-scale tests dapat dilakukan setiap 18-24 bulan mengingat resource intensity.
Alternate Worksite dan Staff Recovery
BCM tidak hanya tentang IT systems; juga tentang people. Jika primary office location menjadi inaccessible (karena bencana alam atau security incident), PJP harus memiliki alternate work location di mana essential staff dapat continue working. Alternate worksite harus di-equipped dengan necessary infrastructure (PCs, phones, internet connectivity, security controls) untuk allow staff untuk perform critical functions. PJP harus memiliki list dari essential personnel yang harus report ke alternate site di-event dari major disruption, dan procedures untuk communicating dengan staff tentang activation. Remote work capability juga menjadi increasingly important BCM tool, terutama post-pandemic di mana many organizations memiliki distributed workforce capability.
| Elemen BCM | Requirement Minimum | Frekuensi Maintenance |
|---|---|---|
| Business Impact Analysis (BIA) | Setiap payment service, MTD/RTO/RPO defined | Tahunan + perubahan signifikan |
| Recovery Strategy Definition | Appropriate untuk RTO/RPO, cost/benefit evaluated | Tahunan review |
| Backup Systems & Data | Daily+ untuk critical, encrypted, geo-separated | Continuous monitoring + monthly verification |
| Recovery Procedures (Runbooks) | Detailed, step-by-step, tested, accessible | Update saat infrastructure changes |
| Alternate Processing Site | Cold atau hot standby sesuai RTO requirement | Quarterly capability verification |
| BCP & DRP Documents | Current, approved, distributed, version controlled | Tahunan update + change notification |
| Testing Program | Tabletop yearly, parallel/full test every 18-24 months | Annual minimum, escalating scope |
| Staff Communication Plan | Roles assigned, contact tree, escalation procedures | Quarterly verification + annual update |
RTO dan RPO untuk Layanan Pembayaran Kritis
Penetapan RTO dan RPO harus didasarkan pada hasil dari BIA dan risk tolerance dari PJP. Untuk payment services yang critical untuk stability dari sistem pembayaran nasional, Bank Indonesia memiliki expectations yang ketat. Settlement systems yang menangani interbank payments mungkin memiliki RTO dari 4 jam dan RPO dari 0 (requiring real-time replication). Real-time transfer services mungkin memiliki RTO dari 8-24 jam dan RPO dari 15 menit hingga 1 jam. Supporting services seperti administrative portals mungkin dapat tolerate longer RTO (24-48 jam) dan larger RPO. RTO dan RPO yang sangat aggressive (near-zero targets) memerlukan investment significant dalam redundancy dan automation, sementara less-aggressive targets mungkin dapat diacapai dengan lebih cost-effective approaches. PJP harus balance antara resilience objectives dan business economics.
Integrasi dengan Crisis Communication dan Stakeholder Management
Ketika major disruption terjadi, kecepatan dan accuracy dari komunikasi adalah critical. PJP harus memiliki crisis communication plan yang menjabarkan: who communicates what information ke whom, timing dari notifications, escalation procedures untuk major incidents, dan point-of-contact untuk media dan regulators. Komunikasi harus go ke multiple stakeholder groups: customers (through website, email, SMS), business partners (through dedicated channels), Bank Indonesia (through designated officer), dan media (through prepared statements). Misinformation dapat spread cepat, sehingga PJP harus memiliki prepared messaging yang dapat di-push cepat untuk control narrative. Crisis management team harus include representatives dari communications, customer service, operations, dan senior management.
Resumption ke Normal Operations
Equally important sebagai recovery adalah planning untuk resume ke normal operations setelah disaster resolved. Resumption plan harus mencakup: validation bahwa primary systems fully recovered dan data consistent, careful migration dari alternate back ke primary (dengan testing untuk ensure smooth transition), notification ke customers dan stakeholders bahwa normal service resumed, dan post-incident review untuk identify lessons learned. Premature resumption sebelum primary sistem fully stable dapat cause repeat disruptions, sementara delayed resumption mempertahankan customer inconvenience unnecessarily. Decision untuk resume harus dibuat oleh incident commander berdasarkan technical assessment dan approval dari senior management.
Reporting dan Review Tahunan
PBI 23/2021 mengharuskan bahwa PJP melaporkan kepada Bank Indonesia tentang status BCM program, hasil testing, dan any incidents yang terjadi. Laporan BCM harus disajikan kepada Board atau Audit Committee minimal setiap tahun, dengan discussion tentang testing results, any changes dalam strategy, dan any new risks yang teridentifikasi. Management harus conduct annual review dari entire BCM program untuk ensure continued relevance dan effectiveness. Annual review harus assess: apakah RTO/RPO targets masih appropriate untuk current business, apakah testing program adequate, apakah recovery procedures up-to-date, dan apakah staff training sufficient.
| Aspek BCM | Prioritas / Urgency | Tanggung Jawab Ownership | Reporting Line |
|---|---|---|---|
| BCP & DRP Development | Critical, immediate after PBI 23 effective | Chief Risk Officer + CIO | Board / Audit Committee |
| Backup Procedures & Testing | Critical, ongoing basis | CIO / IT Operations | Monthly to management |
| Disaster Recovery Site | Critical untuk critical services, phased for others | CIO + CFO | Board strategy review |
| Annual Testing Program | Mandatory, escalating scope | BCM Coordinator / CIO | Quarterly status, annual report |
| Staff Training & Awareness | Important, ongoing | HR + BCM team | Annual attestation to Board |
| Recovery Runbooks | Critical, detailed technical level | IT Operations lead | Validated during annual testing |
| Crisis Communication Plan | Critical, tested annually | Communications + Ops lead | Tested in simulations |
| Post-Incident Review & Improvement | Important, per incident + annual | Management team | Reported to Board |