Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
en:temoignages:moteur_orange [2011/06/27 20:07] daamien |
en:temoignages:moteur_orange [2011/07/06 23:56] (Version actuelle) daamien |
||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
- | ====== France Telecom | + | ====== France Telecom's Search Engine based on a 24 TB database |
+ | <note warning> | ||
+ | This translation is not finished yet ! Please do not forward this text until it gets properly reviewed... | ||
- | Séverine AUBRY and Robin POUGET témoignent de l' | + | Please send your comments at : damien@dalibo.info |
+ | </ | ||
- | Il s'agit du moteur de recherche “Le moteur”: http://www.lemoteur.fr/ | + | //In the following text, Severine Aubry and Robin POUGET, who are respectively Project Manager and Database Manager at France Telecom, demonstrate their use of PostgreSQL for a major tool of they company.// |
- | La criticité de cette application est haute car elle conditionne la qualité des documents indexés dans le moteur de recherche. | ||
- | Ce “back office” | + | [[http:// |
- | La partie “back office” de ce moteur de recherche a été réalisée entre 2001 et 2002, exclusivement avec PostgreSQL. | + | This part of the search engine was build between |
- | Dans le détail, le moteur est composé d'un “crawler”, dont la charge | + | In details, the engine is composed of a crawler, |
- | La charge du “crawler” est donc de récupérer des URLs et un contenu associé. | + | From the start, the goals of the project were to have stable and robust solution with an easy maintenance and the ability to handle a huge data growth... This meant that the project had to scale freely its disk space and its number of PostgreSQL servers. |
- | Ces données sont ensuite traitées via plusieurs scripts, écrits en TCL. | + | Here's some figures to describe the whole system : More than 5 billion tuples are distributed among 160 Linux servers that run 800 PostgreSQL instance. The overall data volume is 24 Terabytes. Note that PostgreSQL is not only running on these machines, there are also applications along the databases. The Linux servers are spread over three separate datacenters, |
- | Les données sont stockées dans un schéma comportant quelques milliers de tables. Le partitionnement repose sur une technologie développée en interne, basée sur des clés de type hash. | + | The entire application is extremely flexible : even if a server falls, there' |
- | Les idées-force du projet, sont depuis le début, d' | ||
- | stable | + | There has been in the history of the project a few minor issues that were fixed by the community, whose support was effective. Among these issues, there were : |
- | robuste | + | |
- | très maintenable | + | |
- | scalable, propre à encaisser une volumétrie galopante et donc, | + | |
- | affranchie des problèmes d' | + | |
- | Quelques chiffres: | + | * Data fragmentation due to massive updates. This has been fixed with the new features of PostgreSQL over the years (remember the project has been running PostgreSQL for 10 years ! ) |
+ | * Some concern with memory management that were corrected in version 8 | ||
+ | * VACUUM FULL are now almost ancient history. At first, the system needed 3 or 4 VACUUM FULL per year. Now only 1 is enough. | ||
- | 5 milliards de tuples sont ainsi répartis sur | + | In conclusion, |
- | 160 machines qui abritent 800 serveurs | + | |
- | pour une volumétrie totale de 24 téra-octets | + | |
- | à noter qu'il n' | + | |
- | Les machines sont réparties sur 3 sites géographiques, | ||
- | |||
- | Il existe des exports de données de cet ensemble vers d' | ||
- | |||
- | Il en résulte une extrême souplesse de l' | ||
- | |||
- | Il y a eu dans l' | ||
- | |||
- | des problèmes de fragmentation de données, liés à des UPDATE massifs. Cela a été corrigé grâce aux nouvelles fonctionalités de PostgreSQL au fil des ans (pour rappel le projet a plus de 10 ans avec PostgreSQL!); | ||
- | |||
- | la version 8 a permis de corriger des soucis au niveau de la gestion de la mémoire; | ||
- | |||
- | les VACUUM FULL sont presque de l' | ||
- | |||
- | En guise de conclusion, PostgreSQL donne ici entière satisfaction depuis plus de 10 ans. Les quelques soucis rencontrés ont tous été traités avec la plus grande efficacité de la communauté. Les nouvelles versions de PostgreSQL ont de plus apporté, soit des solutions à ces problèmes, soit des améliorations, | ||
- | |||
- | [Propos recueillis par Jean-Paul Argudo, de mars à juin 2011] | ||
+ | // |