Error de software

Apariencia mover a la barra lateral ocultar

Un error de software, error o simplemente fallo (también conocido por el inglés, bug) es un problema en un programa de computadora o sistema de software que desencadena un resultado indeseado. Los programas que ayudan a la detección y eliminación de errores de software son denominados depuradores (en inglés: debuggers).

Entre las numerosas incidencias notables causadas por este tipo de error están la máquina de radioterapia Therac-25 en la década de 1980, la destrucción de la sonda espacial Mariner 1 en 1962,​ del Ariane 5 501 en 1996,​ y el Airbus A400M en 2015.​ También fueron famosos los incidentes de la red de AT&T en 1990, o los accidentes del Boeing 737 MAX en 2018 y 2019 que llevaron a la suspensión de sus vuelos durante meses por fallos en el software MCAS.

En 2002 un estudio encargado por el Instituto Nacional de Estándares y Tecnología del Departamento de Comercio de Estados Unidos concluyó que los errores informáticos costaban a la economía estadounidense 59 500 millones de USD al año, un 0.6% del PIB.

Orígenes del término

Foto del origen de la leyenda acerca del primer bug informático conocido.

El 9 de septiembre de 1947, la física y matemática Grace Murray Hopper y otros que trabajaban en la Universidad de Harvard en el Mark II informaron de que el ordenador sufrió un fallo en el relé electromagnético #70 del panel F. Cuando se investigó ese relé, el equipo encontró una polilla (bug) electrificada que provocó que el relé quedase abierto. Hopper pegó el insecto con cinta adhesiva en la bitácora con el comentario:

‘First actual case of bug being found.‘ ‘Primer caso real de «bug» encontrado.’

Este incidente es erróneamente referido como el origen de la utilización del término inglés bug («bicho») para indicar un problema en un aparato o sistema.​ En realidad, el término bug ya formaba parte del idioma inglés, al menos desde que Thomas Alva Edison lo utilizó en sus notas en 1872, en una carta en 1878 para referirse a defectos mecánicos o eléctricos,​ y en 1889 refiriéndose a interferencias y mal funcionamiento en un fonógrafo.​ Es posible que Hopper lo haya asociado por primera vez a la informática, en este caso, relacionado con un insecto real. Por otra parte, aunque durante los años 50 del siglo XX, Hopper también empleó en inglés el término debug al hablar de la depuración de errores en los códigos de programación. El primer uso registrado del término se encuentra en la Journal of the Royal Aeronautical Society de 1945:

‘It ranged from the pre-design development of essential components, through the stage of type test and flight test and ‘debugging’ right through to later development of the engine.‘ ‘Iba desde el desarrollo previo del diseño de los componentes esenciales, pasando por la etapa de prueba, vuelo de prueba y «debugging» y terminando con el desarrollo del motor.’

Errores de programación comunes

Defectos de instalación o programación

Pantalla de ordenador con error de software en la Puerta 11 del Aeropuerto de Santiago-Pudahel

Códigos de errores de lenguajes de programación

La mayor parte de los lenguajes de programación presentan al menos dos tipos de errores que permiten a los programadores manejar las fallas de los programas de una manera eficiente y que no resulte agresiva con el usuario final. Dichos errores son de compilación y errores en tiempo de ejecución.

Los errores de compilación normalmente inhiben que el código fuente derive en un programa ejecutable, mientras que los errores en tiempo de ejecución son situaciones específicas en las que un evento externo al programa impide su ejecución. Regularmente un programador eficiente debe intentar imaginar como debe responder ante esos eventos de manera que sea el programa y no el usuario o el sistema operativo los que resuelvan el problema. Por ejemplo, un bloque de error no manejado podría hacer lo siguiente:

Abre el archivo "miarchivo" para escritura comienza a escribir datos en mi archivo cierra el archivo

Si "miarchivo" no existe (o el programa o el usuario no tienen privilegios suficientes para abrirlo), el sistema operativo regresará un error que el programa no atrapará y tendremos un mensaje como "El archivo "miarchivo" no puede ser abierto para escritura" y botones para reintentar, cancelar y abortar (en el sistema operativo Windows), que no tendrán otra acción que repetirse indefinidamente sin posibilidad de salir de ese ciclo como no sea dando por terminado violentamente el programa. Un código que permitiese atrapar el error en tiempo de ejecución sería:

Abre el archivo "miarchivo" para escritura Si el sistema operativo lo permite comienza a escribir datos en "miarchivo" si no lo permitió informa al usuario de lo que sucede regresa al usuario a un punto donde no haya conflicto (el menú principal, por ejemplo) Continúa operando normalmente

Los diferentes lenguajes de programación permiten diferentes construcciones lógicas a los programadores para atrapar y resolver errores en tiempo de ejecución, como pueden ser las sentencias assert, try y on error en diferentes lenguajes de programación.

Defectos de diseño de programas

Implicaciones

El tipo y cantidad de daño producido por un error de software puede afectar los procesos de toma de decisión y la política sobre la calidad del software. En aplicaciones para el viaje espacial tripulado y para el automóvil los controles de calidad del software deben ser superiores.

Casos notables

Y2K

Y2K

El problema del año 2000 (Y2K) pudo llegar a ser un colapso económico porque muchos programas interpretarían el año 2000 como si fuera el año 1900. Los trabajos de adaptación y corrección de programas evitaron problemas graves.

Knight Capital

Disrupción de la bolsa de Nueva York en 2012. El 1 de agosto de 2012 Knight Capital provocó una disrupción del mercado de bolsa que le llevó a perder en dos días el 75% de su capitalización bursátil. Knight Capital disponía del software SMARS que gestionaba de forma automatizada, a alta velocidad y de forma algorítmica las órdenes para ejecutar en el mercado. Dentro del código tenía la funcionalidad «Power Peg», que ya no usaba desde 2003. No se había borrado y estaba disponible si se la llamaba. El contador de las acciones vendidas en cada orden pasó a realizarla otra parte del código fuera de «Power Peg» desde 2005. Comenzando el 27 de julio de 2012 se inició la instalación del nuevo software SMARS por fases en los servidores durante varios días. El nuevo software contenía una etiqueta que en el antiguo activaba «Power Peg». Un técnico olvidó realizar una copia del nuevo código RLP a uno de los ocho servidores SMARS que gestionaban las órdenes de compra y venta de acciones automatizadas. El 1 de agosto de 2012 el servidor no actualizado al ejecutar el antiguo código «Power Peg» mandó millones de órdenes porque el contador de acciones ejecutadas en cada orden no se comunicaba a SMARS y entonces el proceso de compra no se paraba nunca. En un intento de solucionar el problema desinstalaron el nuevo código RLP de los siete servidores que funcionaban correctamente, lo que agravó el problema. En 45 minutos ejecutó 4 millones de operaciones en 154 valores moviendo 397 millones de acciones, cuando en su lugar debería haber ejecutado 212 órdenes de pequeña entidad. Knight Capital perdió 460 millones de USD y la SEC le impuso una multa de 12 millones de USD por violar regulaciones de bolsa.

Boeing 737 MAX

Boeing 737 MAX 8

Dos accidentes del avión Boeing 737 MAX en 2018 y 2019 llevaron a que el 13 de marzo de 2019 la FAA iniciara la Suspensión de vuelo del Boeing 737 MAX durante meses por fallos en el software MCAS (Sistema de Aumento de Características de Maniobra, en inglés, Manoeuvring Characteristics Augmentation System).​ Fallecieron 346 personas en los accidentes. La FAA permitía a fabricantes como Boeing emitir certificados de vuelo para sus aviones. En noviembre de 2019 la FAA suspendió la capacidad de Boeing para emitir certificados para los aviones MAX.

El MCAS en el MAX se diseñó para activarse usando la señal de uno de los dos sensores de ángulo de ataque del avión, haciéndolo susceptible al punto único de fallo (Single point of failure). Cuando MCAS detecta que el avión está en modo manual con los flaps arriba y con un ángulo de ataque elevado, ajusta el estabilizador horizontal para bajar el morro y que el piloto no suba demasiado rápido y produzca una caída en pérdida. Aunque el sistema MCAS podía causar picados no intencionados, no se mencionaba en los manuales de vuelo y entrenamiento, por lo que los pilotos lo desconocían.​ En marzo de 2019 quedaron en tierra 387 aviones MAX que realizaban 8600 vuelos semanales para 59 compañías aéreas. En enero de 2020 Boeing calculó que en 2019 perdió 18 400 millones de USD y le cancelaron 183 pedidos de MAX. En 2019 el precio de un Boeing 737 MAX iba de 100 a 135 millones de USD.

Therac-25

Simulación de la pantalla de entrada de un Therac-25. Simulación de la pantalla de entrada de un Therac-25 con el error 54. Desbordamiento de una variable octeto (8 bits).

La Therac-25 fue una máquina de radioterapia producida por AECL, sucesora de los modelos Therac-6 y Therac-20 (las unidades anteriores fueron producidas en asociación con CGR). El aparato estuvo comprometido en al menos seis accidentes entre 1985 y 1987, en los que varios pacientes recibieron sobredosis de radiación. Tres de los pacientes murieron como consecuencia directa. Estos accidentes pusieron en duda la fiabilidad del control por software de sistemas de seguridad crítica, convirtiéndose en caso de estudio en la informática médica y en la ingeniería de software. La comisión investigadora concluyó que las causas primarias de los accidentes fueron malas prácticas de desarrollo, análisis de requerimientos y un mal diseño de software, y no por errores aislados en el código fuente. En particular, el programa de la Therac-25 fue diseñado de tal manera que era casi imposible encontrar y subsanar fallos automáticamente.

El sistema no usaba un sistema operativo estándar. En su lugar operaba con un sistema operativo propio escrito en lenguaje ensamblador PDP-11 para funcionar en el ordenador 32K PDP-11/23.​ Cuando el sistema notificaba un error y detenía los rayos X, solamente mostraba el mensaje «MALFUNCTION» (error de funcionamiento) seguido de un número del 1 al 64. El manual de la máquina no explicaba el problema ni mostraba los códigos de error, y por lo tanto el operario acababa por cerrar la advertencia y proceder con el tratamiento. El personal de AECL y los operadores de las máquinas inicialmente no creyeron en las quejas de los pacientes por la alta confianza que tenían en la máquina.

La ingeniería había reutilizado código de modelos más antiguos (Therac-6 y Therac-20), que sí que contaban con sistemas de seguridad mecánicos.

El fallo solo ocurría cuando se introducía rápidamente una secuencia particular de teclas en la terminal VT100, que controlaba la computadora PDP-11 de la Therac-25. El operador había rellenado todas las casillas y estaba en la casilla de órdenes cuando se daba cuenta que había un error en la casilla del tipo de haz que contenía una X (Rayos X) cuando debía contener una E (haz de Electrones). Para corregirlo usaba el cursor ↑ hasta subir a la casilla, escribir una E y bajar con el cursor ↓ hasta la casilla de órdenes, escribir una B y pulsar ↵ Entrar. La secuencia completa era ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ E ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ B ↵ Entrar. Si esta secuencia se realizaba en menos de 8 segundos la máquina producía una radiación que podía llegar a ser hasta 1000 veces la que se pretendía aplicar.

Esto ocurría muy raramente y se desconocía que existiera tal error de condición de carrera (race condition) en el que la salida o estado de un proceso es dependiente de una secuencia de eventos que se ejecutan en orden arbitrario y van a trabajar sobre un mismo recurso compartido. Se puede producir un error cuando dichos eventos no llegan (se ejecutan) en el orden que el programador esperaba.

El programa cambiaba la variable bandera «Class3» incrementándola cada vez que ejecutaba la rutina de prueba de ajuste, en vez de asignarle un valor fijo. La variable «Class3» tenía 1 byte de longitud y sus valores posibles iban de 0 a 255. Cuando el valor era 255 y se sumaba 1, la variable «Class3» pasaba a valer 0. Cuando la variable «Class3» valía 0 indicaba que se podía lanzar el haz de electrones y no se comprobaba la posición del colimador.

La rutina de prueba de ajuste se ejecutaba cientos de veces en cada sesión para un paciente. Una vez de cada 256 ejecuciones de la rutina, la variable «Class3» tenía el valor 0 (no intencionado), el colimador no se comprobaba y cualquier fallo en el colimador no se detectaba. La sobredosis se producía si el operador apretaba el botón Set en el preciso momento en que la variable «Class3» pasaba de 255 a 0 (desbordamiento). Entonces el software aplicaba la máxima potencia de 25 MeV sin tener el objetivo en su sitio y sin escanear. AECL corrigió este problema asignando a la variable «Class3» un valor distinto de 0 cada vez que pasaba por la rutina de prueba de ajuste, en lugar de incrementarla.

OpenSSL

Explicación simplificada del error «Heartbleed».

Un usuario del paquete Debian OpenSSL notificó un aviso para su rectificación. En el proceso de arreglo de la incidencia un programador estropeó el generador de números aleatorios. El parche defectuoso se lanzó en septiembre de 2006 con la versión OpenSSL 0.9.8c-1. Hasta abril de 2008 no se descubrió el problema. Todas las claves criptográficas generadas con esa versión están comprometidas porque los números «aleatorios» son fácilmente predecibles, y los datos encriptados con ellas también son vulnerables. Esto supuso una amenaza en muchas aplicaciones que se apoyan en la encriptación como S/MIME, Tor, conexiones protegidas por SSL o TLS y SSH. Se corrigió en la versión OpenSSL 0.9.8c-4etch3.

Heartbleed (español: hemorragia de corazón) es un agujero de seguridad de software en la biblioteca de código abierto OpenSSL, solo vulnerable en su versión 1.0.1f, que permite a un atacante leer la memoria de un servidor o un cliente, permitiéndole por ejemplo, conseguir las claves privadas SSL de un servidor.

El código vulnerable fue adoptado y usado ampliamente con el lanzamiento de la versión 1.0.1 de OpenSSL el 14 de marzo de 2012. El soporte de Heartbeat estaba habilitado de forma predeterminada, causando que las versiones afectadas fueran vulnerables por defecto.

La «RFC 6520 Heartbeat Extension» prueba los enlaces de comunicación segura TLS/DTLS al permitir que un ordenador en un extremo de una conexión envíe un mensaje de "solicitud de latido de corazón" ("Heartbeat Request"), que consiste en una carga útil, típicamente una cadena de texto, junto con la longitud de dicha carga útil como un entero de 16-bits. El equipo receptor debe entonces enviar la misma carga exacta de vuelta al remitente. Las versiones afectadas de OpenSSL asignan un búfer de memoria para el mensaje a devolver basado en el campo de longitud en el mensaje de solicitud, sin tener en cuenta el tamaño real de la carga útil de ese mensaje. Debido a esta falla de revisión de los límites apropiados, el mensaje devuelto consta de la carga útil, posiblemente seguido de cualquier otra cosa que sea que esté asignada en el buffer de memoria. La Agencia Tributaria de Canadá reportó el robo de números de la Seguridad Social que pertenecen a 900 contribuyentes, y declaró que fueron accedidos a través de la explotación del fallo durante un período de seis horas el 8 de abril de 2014.​ Cuando el ataque se descubrió, la agencia cerró su sitio web y amplió el plazo de presentación de los contribuyentes del 30 de abril al 5 de mayo.​ La primera versión corregida, 1.0.1g, fue lanzada el día 7 de abril de 2014.

Véase también

Referencias

  1. (en inglés) History's Worst Software Bugs' ' Pág. 1. Wired. Consultado el 20 de marzo de 2014.
  2. (en inglés) History's Worst Software Bugs. Pág. 2. Wired. Consultado el 20 de marzo de 2014.
  3. (en inglés) Airbus Cites Assembly Problem in A400M Crash. Consultado el 22 de junio de 2015.
  4. a b O'Kane, Sean (6 de febrero de 2020). «Boeing finds another software problem on the 737 Max». The Verge (en inglés). Consultado el 16 de mayo de 2020. 
  5. «Software bugs cost US economy dear». 10 de junio de 2009. Archivado desde el original el 10 de junio de 2009. Consultado el 16 de mayo de 2020. 
  6. (en inglés) «Rear Admiral Grace Murray Hopper, USNR, (1906-1992)»: imagen: Photo #: NH 96566-KN. Naval History and Heritage Command. Consultado el 20 de marzo de 2014.
  7. bug
  8. La polilla que voló dentro de un ordenador y el origen de «bug informático» | Microsiervos (Leyendas Urbanas)
  9. Magoun, Alexander B. (1 de agosto de 2013). «Did You Know? Edison Coined the Term “Bug”». IEEE Spectrum (en inglés). Consultado el 16 de mayo de 2020. 
  10. «Was the first computer ‘bug’ a real insect?» (html). Oxford Living Dictionaries (en en-uk). Archivado desde el original el 2 de abril de 2017. Consultado el 15 de julio de 2018. «The term in fact originates not with computer pioneers, but with engineers of a much earlier generation. The first example cited in the 20-volume historical Oxford English Dictionary is from the Pall Mall Gazette of 11 March 1889: "Mr. Edison, I was informed, had been up the two previous nights discovering 'a bug' in his phonograph - an expression for solving a difficulty, and implying that some imaginary insect has secreted itself inside and is causing all the trouble." It seems clear from this that the original ‘bug’, though it was indeed an insect, was in fact imaginary.» 
  11. «Bug». World Wide Words (en inglés). Consultado el 16 de mayo de 2020. 
  12. SEC, ed. (16 de octubre de 2013). «SECURITIES EXCHANGE ACT OF 1934 Release No. 70694 / October 16, 2013». SEC (en inglés). Consultado el 16 de mayo de 2020. 
  13. Graham Dunn (13 de marzo de 2020). «Timeline of the twists and turns in the grounding of the Boeing 737 Max». Flightglobal. 
  14. a b c Nancy Leveson (1995). «Medical Devices: The Therac-25 (PDF)». En Addison-Wesley, ed. Safeware:System Safety and Computers. Archivado desde el original el 16 de febrero de 2008. Consultado el 16 de mayo de 2020. 
  15. «Computerized Radiation Therapy (PDF) reported by TROY GALLAGHER». Consultado el 12 de febrero de 2011. 
  16. «DSA-1571-1 openssl -- predictable random number generator». Consultado el 16 de mayo de 2020. 
  17. Goodin, Dan (7 de abril de 2014). «Critical crypto bug in OpenSSL opens two-thirds of the Web to eavesdropping». ArsTechnica.com (en inglés). Consultado el 24 de abril de 2014. 
  18. Codenomicon Ltd (8 de abril de 2014). «Heartbleed Bug»
  19. Goodin, Dan (8 de abril de 2014). «Critical crypto bug in OpenSSL opens two-thirds of the Web to eavesdropping». Ars Technica. 
  20. Hagai Bar-El (9 de abril de 2014). «OpenSSL "Heartbleed" bug: what's at risk on the server and what is not». Archivado desde el original el 13 de abril de 2014. Consultado el 18 de mayo de 2020. 
  21. Heartbleed bug: 900 SINs stolen from Revenue Canada, CBC News, 14 de abril de 2014 .
  22. Canada Revenue Agency pushes tax deadline to May 5 after Heartbleed bug, Vancouver Sun, 13 de abril de 2014, archivado desde el original el 16 de junio de 2014, consultado el 9 de junio de 2014 .
  23. Ullman, Ellen (2004). Pushkin Press, Limited, ed. The Bug. ISBN 9781908968142
  24. «Control Alt Delete». IMDB (en inglés). Consultado el 17 de mayo de 2020. 

Enlaces externos