Amazon Web Services (AWS) a anunțat luni seara că a rezolvat o întrerupere majoră care a afectat mii de site-uri și aplicații, inclusiv platforma Snapchat și băncile Lloyds și Halifax.
Pe parcursul zilei de luni, milioane de utilizatori la nivel global s-au confruntat cu dificultăți în accesarea unor servicii online esențiale. O pană extinsă la Amazon Web Services a dus la blocarea a peste 1.000 de platforme popu-lare, incluzând Snapchat, bănci importante și diverse aplicații folosite pe scară largă. Serviciile au fost afectate timp de ore întregi, iar utilizatorii au raportat probleme la amploare mare.
Ce a cauzat problemele pentru servicii online?
Primele semne ale întreruperii au fost observate în jurul orei 07:00 (ora României), când utilizatorii au început să întâmpine dificultăți în accesarea unor platforme precum Snapchat, Duolingo sau Fortnite. Conform platformei de monitorizare Downdetector, au fost înregistrate peste 11 milioane de rapoarte de erori până la sfârșitul zilei, ceea ce reprezintă de patru ori mai multe erori decât într-o zi obișnuită.
- Snapchat: utilizatorii nu au putut să trimită mesaje.
- Lloyds și Halifax: clienții nu au avut acces la conturile lor.
- Fortnite și Duolingo: întreruperi semnificative.
- Reddit: probleme la încărcarea postărilor.
Amazon a precizat într-un comunicat că problema a fost cauzată de „rezolvarea DNS a endpoint-ului API DynamoDB în regiunea US-EAST-1”. DNS, adică Domain Name System, este sistemul care transformă numele domeniilor în adrese IP, având un rol similar unei agende telefonice pentru internet. Atunci când acest sistem nu funcționează, browserul nu poate localiza site-urile solicitate.
De ce a durat atât de mult remedierea?
Mike Chapple, profesor la Universitatea Notre Dame, a comparat incidentul cu o pană de curent:
„Este similar cu o pană de curent pe scară largă. Echipele încep să colaboreze pentru a readuce totul la normal.”
„Curentul poate să fluctueze de câteva ori.”
Amazon a recunoscut că a fost necesar să limiteze temporar unele servicii pentru a putea rezolva cauza principală a problemei.
Opiniile experților: dependența de furnizorii mari de servicii cloud
Profesorul Alan Woodward de la Universitatea din Surrey a explicat despre impactul acestor incidente:
„Acest episod ilustrează cât de interdependente sunt infrastructurile noastre.”
„Multe servicii online depind de terți pentru infrastructura lor fizică, ceea ce evidențiază faptul că problemele pot apărea chiar și la cei mai mari furnizori.”
„Erorile minore, adesea provocate de factorul uman, pot avea un impact semnificativ și extins.”
Matthew Prince, directorul executiv al Cloudflare, a declarat pentru BBC:
„Toată lumea poate avea o zi proastă; astăzi, Amazon a avut una.”
„Cloud-ul oferă soluții uimitoare; permite scalarea… dar atunci când se produce o întrerupere de acest gen, multe servicii de care depindem pot fi afectate grav.”
Cori Crider, de la Future of Technology Institute, a adăugat:
„Este similar cu prăbușirea unui pod.”
„O parte esențială a economiei a fost compromisă.”
„Dacă aprovizionarea este concentrată la câțiva furnizori monopolisti, un astfel de incident poate afecta o proporție semnificativă din economie.”
„Ar trebui să ne gândim serios la adopția unor servicii locale, în loc să ne bazăm exclusiv pe câteva platforme monopoliste americane.”
„Acesta este un risc pentru securitate, suveranitate și economie, necesitând luarea în considerare a separării structurale pentru a face piețele mai rezistente la astfel de șocuri.”
Cine poartă responsabilitatea pentru consecințe?
Ken Birman, profesor la Universitatea Cornell, consideră că și companiile care folosesc AWS au o parte din responsabilitate:
„Companiile care utilizează Amazon nu au alocat suficientă atenție construirii de sisteme de protecție în aplicațiile lor.”
„Există metode cunoscute pentru a consolida aceste sisteme, iar realizarea acestora în mod sigur este posibilă.”
Consecințele pot fi drastice. De exemplu, Delta Airlines a început procese legale împotriva CrowdStrike, solicitând despăgubiri de peste 500 de milioane de dolari, după o pană similară din 2022. Compania a fost nevoită să reseteze manual 40.000 de servere, generând întârzieri semnificative ale zborurilor timp de mai multe zile.
Pentru organizații, astfel de incidente subliniază importanța de a avea soluții alternative și de a nu se baza exclusiv pe un singur furnizor. Diversificarea rămâne una dintre cele mai eficiente metode de protecție împotriva acestor situații neprevăzute.
Ce urmează pentru Amazon și utilizatorii săi?
Amazone nu a furnizat încă detalii complete cu privire la cauza exactă a întreruperii, nici la măsurile pe care le va lua pentru a preveni astfel de incidente pe viitor. Totuși, acest incident a subliniat cât de vulnerabile pot fi serviciile digitale atunci când se bazează pe un singur furnizor major.
Pentru utilizatori, acest eveniment ilustrează că serviciile online pot deveni indisponibile în orice moment. De asemenea, pentru organizații, diversificarea furnizorilor de servicii cloud este esențială pentru a evita riscurile asociate cu o astfel de concentrare a puterii în infrastructura digitală.
Deși serviciile Amazon Web Services au revenit la normal, discuțiile privind securitatea și reziliența infrastructurii digitale vor continua să fie o prioritate. Pe viitor, companiile și utilizatorii ar putea fi mai prudenți în alegerea furnizorilor de servicii cloud și în implementarea măsurilor de protecție adecvate.
Incidentul a ridicat întrebări importante referitoare la infrastructura pe care se bazează economia digitală, subliniind necesitatea unei evaluări continue a riscurilor și a dezvoltării unor strategii de reziliență. Multe organizații pot lua în considerare dezvoltarea unor planuri de continuitate care să le protejeze împotriva întreruperilor neprevăzute, asigurând astfel funcționarea continuă a serviciilor esențiale pentru clienți.
În contextul acestei situații, este clar că utilizarea soluțiilor de tip multi-cloud, unde companiile colaborează cu mai mulți furnizori, poate reduce semnificativ riscurile asociate cu dependența de un singur furnizor. Această abordare nu doar că îmbunătățește reziliența, ci și crește flexibilitatea, permițând organizațiilor să reacționeze mai rapid la problemele de infrastructură.
Mai mult, este crucial ca utilizatorii să fie conștienți de posibilitățile de întrerupere a serviciilor și de impactul pe care aceste evenimente îl pot avea asupra activităților lor online. Îndemnăm organizarea unor campanii de informare care să sublinieze importanța diversificării providerilor de servicii și a consolidării infrastructurii digitale.
Aceste schimbări și inovații nu doar că ar putea preveni situații similare, ci ar putea duce și la un mediu digital mai sigur și mai stabil pentru toți utilizatorii. Este esențial ca atât companiile cât și utilizatorii să colaboreze pentru a crea o infrastructură care să fie nu doar eficientă, ci și rezistentă în fața provocărilor viitoare. Securitatea și stabilitatea infrastructurii digitale ar trebui să fie o prioritate pentru toți actorii din industrie, asigurând astfel o experiență mai bună și mai sigură pentru utilizatorii din întreaga lume.
