Dlaczego krytyczne komputery pokładowe są zbędne?

raptortech97

2015-03-25 02:56:20 UTC

view on stackexchange narkive permalink

Przynajmniej w samolotach pasażerskich naprawdę krytyczne komputery są zbędne. Zwykle trzy identyczne kopie komputerów autopilota działają równolegle i porównują wyniki; jeśli jeden komputer nie zgadza się z pozostałymi dwoma, jego wyjście jest ignorowane. System pozwala na uszkodzenie niektórych procesorów przy jednoczesnym zachowaniu działania całego systemu.

Ale dlaczego? Nigdy nie słyszałem o nagłej awarii mikroprocesorów. Jasne, mogą wystąpić błędy produkcyjne, ale zostałyby wykryte w fabryce. Być może program (i jego dowód) jest błędny, ale byłby błędny w ten sam sposób dla wszystkich procesorów. Podobnie złe dane wejściowe spowodowałyby złe wyniki na wszystkich trzech komputerach. Przed jakimi błędami chroni ta nadmiarowość? Czy mikroprocesory czasami po prostu robią błędy matematyczne?

Jeśli mikroprocesor jest przegrzany lub przeciążony i spontanicznie zawiedzie, spodziewałbym się, że przestanie robić cokolwiek i nie będzie generował żadnych wyników. Aby poradzić sobie z tego rodzaju awariami, chciałbyś mieć zapasowy procesor, ale nie musiałbyś porównywać wyników trzech komputerów - każde wygenerowane wyjście byłoby uznane za poprawne, więc z przyjemnością skorzystasz bezpośrednio z wyjście dowolnego procesora, który generował dane wyjściowe.

Powiązane: odpowiedź na pytanie Jaki jest cel wielu autopilotów? po prostu mówi „redundancja”, zanim przejdziemy do tego, jak to osiągnąć.

I will wait for authoritative answers, but on the systems I have been involved with, the 3 computers ran different software, produced by independent teams and proven to generate the same outputs for the same inputs.

@Simon Wiem, że Shuttle miał oprogramowanie do tworzenia kopii zapasowych („różnorodność projektów”), ale Wikipedia twierdzi, że ta praktyka staje się coraz mniej powszechna.

Możliwe, że nie interesowałem się tym przez około 20 lat. Przy okazji, jestem teraz inżynierem oprogramowania i widziałem, jak procesory zawodzą, a częściej układy pamięci RAM zawodzą.

AiliimznawCMT But RAM can have ECC, right? In the worst case, duplicating RAM is a lot easier and cheaper than duplicating the entire computer. The processor failing is much more of a concern. Do you think you'd be able to write an answer about how processors fail?

My question is essentially the same as the question I just linked. Should I close this as a duplicate of the other, and then add a bounty to the other? Should I edit the other question to focus on how the redundancy is achieved, to better match the answer?

In my opinion, your question is valid as it is, and I'm interested in the answers. As to how processors fail, it's not worth an answer. I've seen 2 from memory. One was a fan failure, and the chip just fried itself and the other was unknown. Manifested itself as increasingly weird errors and blue screens followed by a total failure. RAM will almost certainly have ECC but that can only correct single bit errors and report double bit errors. If more bits fail, which is easy with a physical error, then ECC is of no use.

@raptortech97: Autopilot nie jest aż tak krytyczny; samolot można latać ręcznie. Naprawdę krytycznymi systemami są sterowanie fly-by-wire. W Airbusie działają na parach różnych płyt (i386 i m68k) z niezależnie napisanymi programami, które sprawdzają się wzajemnie, te pary są mnożone w celu przełączenia awaryjnego i istnieje niezależny zestaw dla podstawowych elementów sterujących lotem (ster wysokości i lotek) oraz inny dla naprzemiennie (spoilery i stabilizator poziomy), więc jeśli jeden z nich zawiedzie, drugi nadal może kontrolować pochylenie i przechylenie. Uważam, że system Boeing w 777 i 787 jest podobny.

@JanHudec Zgadzam się, że autopilot zwykle nie jest krytyczny, ale awaria podczas autolandu Cat III jest uważana za katastrofalną.

Uważam, że wybór 3 jest trochę dziwny. Aby poradzić sobie z niepowodzeniem jednego z nich w dowolny sposób, potrzebujesz bizantyjskiej odporności, której nie da się osiągnąć mając mniej niż 4.

@kasperd Mogę się mylić, ale myślę, że to tylko wtedy, gdy wiadomości można sfałszować. Dzięki dedykowanym połączeniom fizycznym nie można naprawdę fałszować wiadomości.

AiliqxocicCMT The analysis of systems without byzantine resilience assume that each node is either operating perfectly or has stopped communicating entirely. It only takes one single random bitflip to invalidate the analysis of such systems.

AilibrkqyrCMT that's not what in talking about. The type of Byzantine resistance analysis you suggest relies on the assumption that computers can lie and forge messages from other computers. The three-party system is solvable if you have cryptographic hashes to verify identity.

@raptortech97 Można to rozwiązać tylko wtedy, gdy założymy, że wadliwy węzeł przestaje wysyłać jakiekolwiek komunikaty. Jeśli pojedynczy węzeł ulegnie awarii w sposób powodujący wysyłanie niespójnych komunikatów, tracisz wszystkie gwarancje.

AilixjqeukCMT Let us [continue this discussion in chat](http://chat.stackexchange.com/rooms/22267/discussion-between-raptortech97-and-kasperd).

Czy nie słyszałeś o starym, dobrym Murphym? „Wszystko, co może pójść źle, pójdzie źle”

[Tak, mikroprocesory czasami robią błędy matematyczne.] (Http://en.wikipedia.org/wiki/Pentium_FDIV_bug)

„* Nigdy nie słyszałem o nagłej awarii mikroprocesorów *”. To dlatego, że nie znasz elektroniki. Zapytaj [tutaj] (http://electronics.stackexchange.com/), a zostaniesz oświecony. Ponadto komputer pokładowy składa się nie tylko z CPU / MCU. Klawiatura, wyświetlacz, złącza, pamięć, zegar, inne chipy, inne komponenty elektroniczne, zasilacz ... nazwij to.

To pytanie jest źle sformułowane - przerażające. Wydaje się, że pytający oznacza komputery pokładowe _ wdrażanie nadmiarowości_. Ale tak naprawdę pyta, dlaczego są przestarzałe?

Oprogramowanie

Jeden punkt, który pominięto, to fakt, że systemy nadmiarowe są często niezależnymi projektami, zwłaszcza oprogramowania. Chroni to przed błędami projektowymi (lub błędami oprogramowania), które w przeciwnym razie mogą powodować problemy w rzadko występujących kombinacjach okoliczności.

Sprzęt

Nawet jeśli mikroprocesor jest wysoce niezawodny, istnieje wiele czynniki, które mogą mieć znaczenie

samoloty lecą na dużych wysokościach, gdzie atmosfera zapewnia słabszą ochronę przed promieniowaniem kosmicznym. Wpływa to nie tylko na zdrowie załogi, ale może też zakłócać działanie urządzeń elektronicznych.

Systemy awioniki składają się nie tylko z mikroprocesorów, z pewnością istnieją także inne, bardziej podatne na awarie urządzenia - np. kondensatory. Elektronika może zawieść na niezliczone sposoby, np. awaria uziemienia wywołana wibracjami prowadząca do zakłóceń na liniach danych (np. z czujników analogowych).

Nigdy nie słyszałem o nagłej awarii mikroprocesorów.

Niezawodność ≠ Bezpieczeństwo

Wiele wypadków ma miejsce bez „awarii” żadnego elementu
- Spowodowane przez sprzęt działanie poza parametrami i ograniczeniami czasowymi, na których oparte są analizy niezawodności.
- Spowodowane interakcjami wszystkich komponentów działających zgodnie ze specyfikacją.
- Wysoce niezawodne komponenty niekoniecznie są bezpieczne.