Problèmes sur les serveurs EUW, 29/03

Publié le 30/03/2014 à 13:50 Par MGG

Le serveur EUW a, ces derniers jours, connu d'importants problèmes de connexion et de lancement de partie. Riot communique donc à ce sujet et nous explique d'où venait le problème.

Une fois n'est pas coutume, le serveur EUW a, ces derniers jours, connu d'importants problèmes de connexion et de lancement de partie. Riot communique donc à ce sujet et nous explique que le problème, indépendant de leur volonté, pourrait être un effet secondaire de la volonté de la compagnie d'accroître la capacité du serveur. Ces problème ayant persisté, Riot revient sur ceux du 29 mars.

Lignarius sur Mise à jour : EUW 29 Mars (Source)

Plop tout le monde ! Rincewind a fait un nouveau post que je vous traduis ici pour vos yeux doux :

« J'ai fait un post l'autre jour concernant les problèmes affectant EUW. Voici un nouveau post pour vous dire ce que nous avons fait ces derniers jours.

1) Nous avons fait quelques réglages aux scripts de démarrage du logiciel du mise en cache de mémoire pour éviter le redémarrage automatique des nodes en pénurie de mémoire.

Ce changement nous a déjà permis d'éviter des pannes complètes de la plateforme lorsqu'une ou plusieurs nodes n'ont plus de mémoire et limite l'impact de problèmes à une panne de moindre envergure et qui ne dure que quelques minutes. Un inconvénient de ces petites pannes est la file d'attente de 15-20 minutes avant que tout le monde puisse se reconnecter.

2) Hier soir nous avons fait une brève maintenance pour réduire une partie de la capacité excessive que nous avions ajoutée le 6 mars. Nous n'avons pas enlevé toute la capacité en excédent, nous l'avons juste réduite pour ramener les choses au niveau où elles étaient le mois dernier.

3) Nous avons identifié un bout de code inefficace qui causait la file d'attente indirectement en éjectant des joueurs quand le problème de mémoire survenait. Nous sommes en train de recoder cela en ce moment.

4) Nous conduisons des tests de charge sur des améliorations de code que nous avons faites pour le prochain patch pendant plus de 24 heures dans un environnement de test qui correspond à l'environnement d'EUW pour nous assurer qu'elles soient prêtes à sortir. Nous voulons être sûrs que ces améliorations de code ne causeront pas de nouveaux problèmes.

5) Nous allons faire des changements par étapes pendant les prochains jours. La raison de les faire par étapes est de comprendre les effets de chaque changement, plutôt que de les faire tous en même temps et ne pas pouvoir mettre le doigt sur quel changement a causé une amélioration, ou d'autres problèmes. »

Source.

Rincewind sur Interruption du 26 Mars (Traduction - Source)

Une équipe a été mise sur pied pour s'occuper des récents problèmes rencontrés sur le serveur EUW. L'équipe comprend des ingénieurs de plateforme, un producteur de diffusion, un ingénieur réseau et moi-même.

Le problème était le suivant :

Tout d'un coup, la majeure partie des systèmes primaires auxquels les joueurs se connectent s'est déconnectée et a laissé tomber les joueurs sur la plateforme, ce qui a causé une file d'attente. D'autres effets secondaires ont été rencontrés, comme des lancements de partie notablement plus longs.

Pourquoi ce problème a-t-il été rencontré ?

L'un ou plusieurs nœuds du module de la mémoire cache ont rencontré un problème de mémoire insuffisante par rapport à la taille du tas Java. Cela a, pour une raison quelconque, fait planter le module entier pendant quelques minutes, entraînant des pannes en série.

Passons aux choses sérieuses :

Les serveurs primaires, les services principaux et les bases de données communiquent par le biais d'une couche de mémoire cache intermédiaire. C'est une conception plutôt standard. Ce qui nous rend unique est le fait que nous sommes probablement la seule entreprise à faire fonctionner autant de nœuds dans un module ainsi conçu. Le nœud qui s'est trouvé en manque de mémoire, pour une raison ou une autre, a accumulé une énorme quantité de données au lieu de les transmettre au réseau.

Nous avons un processus automatisé qui fait redémarrer le nœud qui se retrouve en manque de mémoire. Ceci est en place depuis quelques temps maintenant, sans que l'on ne rencontre de problèmes particuliers ; cependant, ces derniers jours, le redémarrage d'un nœud ne parvient pas à se faire proprement, et il finit par s'ajouter au module dans un mauvais état qui fait qu'il sollicite de nombreuses données, à l'origine de davantage de problèmes.

Les étapes de remplacement de nœuds dans un module représentent une opération plutôt banale, alors pourquoi cela a-t-il posé problème ?

Nous avons contacté le fournisseur du logiciel de mémoire cache. Il s'avère que nous rencontrons un bug qui pourrait être résolu dans la version la plus récente. Nous avons quelques pistes quant à ce qui aurait pu causer ce bug, et nous sommes actuellement en train de les explorer.

Pendant ce temps, nous faisons les choses suivantes :

Désactivation du redémarrage automatique des nœuds qui manquent de mémoire pour empêcher cela.

Test de charge de la version la plus récente du logiciel.

Séparation des statistiques de fin de partie sur une queue différente pour permettre aux joueurs de repartir en game plus rapidement.

FAQ/Annonces/PourquoinepasfaireçaRiot :

« Ajoutez davantage de serveur, Rito, ne soyez pas radin ! »

Ajouter des serveurs peut et ne fera sûrement qu'aggraver le problème. Nous avons ajouté des serveurs le 6 mars, pour anticiper la croissance de EUW en attendant que Amsterdam soit prêt. Une théorie en ce moment serait que les nouveaux systèmes pourraient en réalité avoir contribué au problème, et nous envisageons la possibilité de les couper puisqu'ils avaient été ajoutés dans le but de gérer la croissance à venir au cours du mois de mars.

Les serveurs à Amsterdam sont actuellement en train de subir des tests de charge ainsi que de nombreux autres tests liés à la nouvelle chaîne d'outils, aux nouveaux processus et à la nouvelle architecture.

Pourquoi cela prend-il autant de temps ?

Analyser les empreintes de mémoire et les traces de pile prend du temps, ainsi que relier cela à la cause initiale appropriée, surtout lorsque le logiciel est fourni par une tierce personne, et qu'il ne s'agit pas de quelque chose de conçu en interne.

Si vous êtes l'entreprise à faire tourner autant de nœuds sur ce logiciel de mise en cache, est-ce une bonne ou une mauvaise chose ?

Ce n'est ni bon ni mauvais. Cela fonctionne, tout simplement, ce qui signifie sans doute que nous devons revoir certaines valeurs de nos configurations du système. Nous avons lancé des tests de charge avant de sortir en live certaines configurations. Ce problème en particulier semble avoir provoqué une panne dans une fourchette de 48 à 72 heures, avec un occasionnel sommet entre deux.

Si le nœud n'est pas capable de transmettre des données au réseau, alors le réseau pose problème !

Nous avons exploré cette piste. Les ingénieurs réseau et l'expert de la compagnie qui nous fournit la couche de mémoire cache l'ont confirmé. Puisque les systèmes du module sont sur le même réseau, il n'y a pas de problème de routage pour les nœuds de ce module.

Pourquoi seul l'EUW est-il touché, alors ?

Nous avons vu ce problème apparaître au Vietnam, en Amérique du Nord et en Amérique latine. Cependant, sa fréquence d'apparition était bien plus importante au Vietnam et en Europe de l'ouest.