How to fail at benchmarking?

@pingtimeout#FailAtBenchs

Comment rater ses benchmarks ?

Pierre Laporte Ingénieur performances - Datastax

@pingtimeout [email protected]

http://tiny.cc/FailAtBenchs @pingtimeout#FailAtBenchs

Agenda

• Intro

• Pourquoi cette session ?

• Comment se planter ?

• Que mesurer ?

• Comment mesurer ?

• « Coordinated Omission » ?

• Quel état d’esprit ?

http://tiny.cc/FailAtBenchs

@YourTwitterHandle@YourTwitterHandle@pingtimeout#FailAtBenchs

Intro




Cassandra

• NoSQL

• Scalabilité linéaire

• Toujours disponible



Datastax Enterprise (DSE)• Plateforme complète

• Certifiée

• Sécurisée

• Search (Apache Solr)

• Analytics (Hadoop, Spark)

• Simplicité opérationnelle (OpsCenter)



Pourquoi ce talk ?


I have not failed, I have just found 10,000 ways that won't work.

- Thomas Edison


Progresser

Faire des erreursTrouver des solutions

Ne pas blâmer



Benchmarks



Comment se planter ?


Exemple

• Bench d’une API REST : POST /login

• 100.000 logins

• 1 utilisateur

• Temps de réponse de chaque login

• Mesure dès le premier résultat

• Une exécution (longue)

• Sur un portable de dev

• Moyenne des résultats

• Projection utilisation CPU <=> Capacité restante



Un problème ?



Caches

• « 100.000 logins d’un unique utilisateur »

• Caches CPU (L1, L2, L3, …)

• TLB

• Cache de Base de Données

• Cache Hibernate (query, L2, …)

• …



Précision d'horloge

• « Temps de réponse de chaque login »

• login ~> 5ms

• System.currentTimeMillis() ~> 1ms

• ±1 <=> ±20%

• System.nanoTime() "provides nanosecond precision, but not necessarily nanosecond resolution »

• Source: Javadoc



Temps de chauffe

• « Mesure dès le premier résultat »

• Chargement des classes

• Profiling du code

• Optimisations (Inlining, compilation, élimination de locks, …)



Confiance dans les résultats

• « Une exécution (longue) »

• Bruit de fond ?

• Compétition ?

• Quelle confiance dans les mesures ?



• « Sur un portable de dev »

Environnement



• « Sur une seule machine »

Environnement



Métriques

• « Moyenne des résultats »



Projection de capacité

• Utilisation CPU ≈ 50%

• Capacité restante ≈ … ?



Que mesurer ?


Moyenne

• Supprimer les points gênants

• « Moyenne de deux nombres » = … ?

• Pourquoi l’utilise-t-on ?

• Est-ce suffisant ?



Métriques utiles

• Histogramme

• Centiles

• 90ème

• 95ème

• 99ème

• …

• Maximum



Combien de 9 ?

• 99% ?

• 99,99% ??

• Ça dépend.

• Pour 500 utilisateurs

• 99% signifie… ?



Combien de 9 ?

• Si 1.000.000 utilisateurs

• 99% signifie… ?

• 10.000 utilisateurs.



Comment font les autres ?

• 5.000.000 joueurs simultanés

• 12.000.000 par jour

• 67.000.000 par mois• Quels centiles mesurer ?



Maximum

• « Boarf, surement un timeout, on peut l’ignorer »

• Random dev devant un temps de réponse de 60s

• Acceptable ?

• Temps réel ?

• Jeux vidéo ?

• Appli mobile ?



Genèse d’un benchmark

• Une question bien spécifique

• Des exigences précises

• Exemple

• Site de e-commerce

• « Avec mes 5 serveurs d’application, 20.000 articles en base, et 1.000 clients simultanés, est-ce que la commande d’article prend moins de 50ms en moyenne, 100ms une fois sur 10 et 300ms au pire ? »



Environnement


• POC:

• TomEE

• Glassfish

• Weblogic



Charge




Exigences

• « Avec mes 5 serveurs d’application, 20.000 articles en base, et 1.000 clients simultanés, est-ce que la commande d’article prend moins de 50ms en moyenne, de 100ms une fois sur 10 et de 300ms au pire ? »



Épilogue d’un benchmark

• Réponse obtenue

• Satisfaisante… ou pas.

• Résultats Contextuels

• Environnement

• Charge

• Contraintes

• Compromis



Vérités statistiques


99ème centile en moyenne

• Application typique en 2012

• 100 « Web objects »/page

• ≈ 100 requêtes HTTP/page

• Probabilité d’éviter le 99ème centile ?

• 0.99n, sur n requêtes

• 0.99100 ≈ 36.6%



La loi Normale

• Le client dit :

• Moyenne = 100ms

• Écart type = 20ms

• Médiane = 120ms

• Maximum = 1s

• Quel est le 99% ?



Aucune idée.


Quartet d'Anscombe



Loi Normale et latence

• Le temps de réponse ne suit pas une distribution Normale.

• Dropwizard metrics :



Loi Normale et latence

• Remplacer metrics par HdrHistogram

• Plage de valeurs

• Précision

• Empreinte mémoire constante

• http://hdrhistogram.github.io/HdrHistogram/


http://hdrhistogram.github.io/HdrHistogram/


Représentation



Puzzles


Puzzler #1

• Un problème ?



Puzzler #1 complet




Puzzler #1 - nouvel essai

• -XX:+AggressiveOpts

• Qui connaît ?

• Qu’est-ce que cela fait ?




Aggressive Opts ?

• Augmente le pool de Fixnum de 128 à … ?

• À vous de trouver

• Astuces

• set_aggressive_opts_flags() dans arguments.cpp

• java -XX:+PrintFlagsFinal

• C’est presque tout.



Puzzler #2 - QCM

• Que fait ce code ?

1. Il pousse un juron2. Il ne fait pas ce qu’on pense3. Il bench Hotspot4. Il crée environ 10.000 objets



Puzzler #2 - QCM

1. Il pousse un juron2. Il ne fait pas ce qu’on pense3. Il bench Hotspot4. Il crée environ 10.000 objets



Puzzler #2 - solution

• Après ~10.000 itérations, le code est supprimé



Coordinated Omission


Java 8 Enterprisy REST API



CO client



Runner

• Simuler de lonnnngues pause (11 secondes)

• GC

• autre tâche bloquante

• Technique: ^Z



Récapitulatif - Timeline



Récapitulatif avant run

• Fréquence = 1 req/s

• Durée totale = 100s

• Longue pause = 11s

• Temps de réponse nominal ≈ 10ms



Attentes - Débit



Attentes - Latence



Attentes - centiles

• Calcul anticipé des centiles (en secondes)

• Max ∈ ]10; 11]

• 99% ∈ ]9; 10]

• 98% ∈ ]8; 9]

• 95% ∈ ]5; 6]

• 90% ∈ ]0; 1]



Réalité

Wait… What?



Réalité



Pourquoi ?



Réalité - Débit

100s

100ème requête



Réalité - Latence

100s

100ème requête



CO - Définition

• Interval entre les points = i

• Latence nominale << i

• Valeurs extrêmes > x

• Requêtes suivantes retardées

• Après la période néfaste



Qu’est-ce qui est mesuré ?

• 99% des bonnes requêtes

• ≠ 99% de toutes les requêtes



Une erreur fréquenteI rarely see load testers that don't suffer from it, including common testers used in the industry (JMeter, Grinder, HP LoadRunner), benchmarks (YCSB, SPECeverything, etc.), and custom build testers I see used by many low latency shops. » — Gil Tene



Tester le test

• Tester le testeur

• Remplacer le SUT par un noop

• Temps de réponse: 0

• Test ^Z

• Vérifier les hypothèses



Correction

• Connaître le temps d’envoi de chaque requête

• Utiliser ce temps comme temps de départ

• Effet:

• Faire apparaître les requêtes retardées



• Connaître l’interval entre les envois

• Utiliser HdrHistogram

• Classe Histogram

• copyCorrectedForCoordinatedOmission(…)

• recordValueWithExpectedInterval(…)



Récap


The successful man will profit from his mistakes and try again in a different way

- Dale Carnegie


Des résultats contextuels



Sources

• https://groups.google.com/d/msg/mechanical-sympathy/

• http://latencytipoftheday.blogspot.fr/

• http://www.websiteoptimization.com/speed/tweak/average-number-web-objects/

• http://tylervigen.com/

• Hotspot source code



Q & A


Merci pour votre attention !

Engineering

How to fail at benchmarking?