Publicado 2015-03-20
Cómo citar
Resumen
RESUMEN ANALÍTICO
La necesidad de almacenar y procesar grandes volúmenes de datos ha dado origen al término Big Data. Estos sistemas manejan información obtenida desde diversas fuentes y formatos, como es el caso de páginas web, redes sociales, el análisis del genoma humano, la física de partículas, entre otros. Estos almacenes de datos presentan dificultades que no pueden ser resueltas mediante el uso de sistemas de gestión de bases de datos tradicionales.
El objetivo de este artículo es revisar el estado del arte en lo referente a técnicas para el almacenamiento de grandes cantidades de datos. Se comparan las características de las bases de datos relacionales y los modelos NoSQL, que han captado la atención durante los últimos años. Todos estos sistemas deben adoptar soluciones de compromiso para lograr características críticas tales como: escalabilidad, fiabilidad, durabilidad, tiempo de respuesta, interfaz de consulta, estructura de los datos almacenados (o carencia de la misma) y esquemas de particionamiento de datos. Se presenta una revisión de las técnicas más representativas y de cómo cada una de ellas permite manejar las características indicadas previamente.
Para concluir se presenta un análisis de las ventajas y limitaciones de los modelos estudiados. Así mismo, se identifican algunos de los problemas que son objeto de investigación activa en el área.
PALABRAS CLAVES: NoSQL, Almacenamiento Clave-Valor, Almacenes de documentos, Almacenamiento por columna, bases de datos de Grafos, SMBD, Bodegas de datos.
BIG DATA STORES
ANALYTICAL SUMMARY
The need to store and process very large databases has given origin to the term “big data stores”. These are systems that handle information obtained from crawling the web, social networks, the analysis of the genome, particle physics, and many more. These data stores pose many challenging problems that cannot be handled by traditional database management systems. The goal of this survey is to explore the current state-of-the-art solutions to the problem of managing information stores of this scale.
In this paper we compare the characteristics of relational databases against those of newly proposed NoSQL models. This latter has been the center of interest in recent years. All these systems exhibit different trade-offs around critical characteristics of the data store, such as scalability, reliability, durability, response time, query interface, structure (or the lack of) of the stored data, and data partitioning schemes. We present a review of the most representative techniques and how they handle each of these problems.
We conclude by presenting and analysis of the different trade-offs and identifying some of the problems that are still active subject of research.
KEYWORDS: NoSQL, Key Value Stores, Document Stores, Column Family Stores, Graph Databases, DBMS, Data-Warehouses.
Forma de citar: Jaramillo Valbuena, S. & Londoño, J. M. (2014). Sistemas para almacenar grandes volúmenes de datos. En R, Llamosa Villalba (Ed.). Revista Gerencia Tecnológica Informática, 13(37), 17-28. ISSN 1657-8236.
Descargas
Referencias
- Abadi, D., Boncz, P., & Harizopoulos, S. (2009). Column-oriented database systems. ACM Proceedings VLDB Endowment, 2(2), 1664-1665.
- Abouzeid, A., Bajda- Pawlikowski, K., Abadi, D., Silberschatz, A., & Rasin, A. (2009). HadoopDB: an architectural hybrid of MapReduce and DBMS technologies for analytical workloads. ACM Proceedings VLDB Endowment, 2(1), 922-933.
- Abouzied, A., Bajda-Pawlikowski, K., Huang, J., Abadi, D., & Silberschatz, A. (2010). HadoopDB in action: building real world applications. SIGMOD ‘10 Proceedings of the 2010 ACM SIGMOD International Conference on Management of data, 1111-1114.
- Alvarez, S., & Bravo, S. Archivos y Bases de Datos. (2009). Universidad de Salamanca. Recuperado (2014, abril 03) de http://ocw.usal. es/ensenanzas-tecnicas/aplicaciones-informaticaspara-humanidades/contenidos/Temas/Tema7-_ Archivos_y_BBDD_-_2ppt.pdf
- Amazon Web Services. (2012). DynamoDB. Seattle, WA, Estados Unidos. Recuperado (2014, febrero 3) de http://aws.amazon.com/es/dynamodb/
- Apache Software Foundation. (2012). HBase. Delaware, Estados Unidos. Recuperado (2014, febrero 03) de http://hbase.apache.org/
- Arredondo, P. (2011). NoSQL (Not only SQL). México: Universidad Veracruzana. Recuperado (2014, febrero 3) de http://www.uv.mx/universo/448/infgral/ infgral_08.html
- Brewer. (2000). Principles of Distributed Computing. Nineteenth ACM Symposium on Principles of Distributed Computing.
- Brown, R. A. (2009). Hadoop at home: large-scale computing at a small college. SIGCSE ‘09 Proceedings of the 40th ACM technical symposium on Computer science education, 41(1), 106-110.
- Cattell, R. (2011). Scalable SQL and NoSQL data stores. ACM SIGMOD Record, 39(4), 12-27.
- Chang, F., Dean, J., Ghemawat, S., Hsieh, W. C., Wallach, D. A., Burrows, M., & Gruber, R. (2008). Bigtable: A Distributed Storage System for Structured Data. ACM Transactions on Computer Systems (TOCS), 26(2), 4.
- Dans, E. (2011). Entender el futuro: la evolución de las bases de datos. España. Recuperado (2014, enero 22) de http://www.enriquedans.com/2011/11/ entender-el-futuro-la-evolucion-de-las-bases-dedatos.html
- De seta, L. (2010). NoSQL y varias alternativas a las bases de datos. Buenos Aires, Argentina. Recuperado (2014, enero 22) de http://www.dosideas.com/ noticias/base-de-datos/864-nosql-una-alternativa-alas-bases-de-datos.html
- Dean, J., & Ghemawat, S. (2008). MapReduce: simplified data processing on large clusters. Communications of the ACM - 50th anniversary issue: 1958 - 2008, 51(1), 107-113.
- Hecht, R., & Jablonski, S. (2011). NoSQL evaluation A use case oriented survey. Cloud and Service Computing, International Conference, 336-341.
- Init Developers. (2012). Introducción a NO-SQL: Cassandra y CouchDB. Recuperado (2014, junio 19) de http://blog.theinit.com/2012/04/24/introducciona-no-sql-cassandra-y-couchdb/
- Kleppmann, M. (2009). Should you go Beyond Relational Databases. Estados Unidos: Treehouse Island, Inc. Recuperado (2014, enero 22) de http:// thinkvitamin.com/code/should-you-go-beyondrelational-databases/
- Kopp Michael (2011). NoSQL or RDBMS? – Are we asking the right questions?. Recuperado (2014, junio 19) de http://apmblog.compuware.com/2011/10/05/ nosql-or-rdbms-are-we-asking-the-right-questions/.
- Lakshman, A., & Malik, P. (2010). Cassandra: a decentralized structured storage system. ACM SIGOPS Operating Systems Review, 44(2), 35-40.
- Lorica. (2009). HadoopDB: An Open Source Parallel Database. Estados Unidos: O’Reilly Media, Inc. Recuperado (2014, enero 22) de http://strata.oreilly. com/2009/07/hadoopdb-an-open-source-paralleldatabase.html
- MongoDB. (2014). Recuperado (2014, junio 19) de http://www.mongodb.com/nosql-explained.
- Ozsu, M., & Valduriez, P. (2011). Principles of Database Systems, Third Edition. USA: Prentice-Hall Segunda edición.
- Pokorny, J. (2011). NoSQL databases: a step to database scalability in web environment. iiWAS ‘11 Proceedings of the 13th International Conference on Information Integration and Web-based Applications and Services, 278-283.
- Pritchett, D. (2008). BASE: An Acid Alternative. Magazine Queue - Object-Relational Mapping Queue Homepage archive, 6(3), 48-55.
- Ruflin, N., Burkhart , H., & Rizzotti, S. (2012). SocialData Storage-Systems. Proceeding DBSocial ‘11 Databases and Social Networks, 7-12.
- Rys, M. (2011). Scalable SQL. Communications of the ACM, 54(6),48-53.
- Schafer, M., Dolog, P., & Nejdl, W. (2008). An environment for flexible advanced compensations of Web service transactions. ACM Transactions on the Web (TWEB), 2(2), 14:1-14:36.
- Sharma, V., & Dave, M. (2012). SQL and NoSQL Databases. International Journal of Advanced Research in Computer Science and Software Engineering, 2 (8).
- Thusoo, A., Sarma, J. Jain, N., Shao, Z., Chakka, P., & Murthy, R. (2009). Hive: a warehousing solution over a Map-Reduce framework. Proceedings of the VLDB Endowment, 2(2), 1626-1629.
- Weil, Kevin (2011). How Twitter Uses NoSQL. Recuperado (2014, junio 19) de http://readwrite. com/2011/01/02/how-twitter-uses-nosql.
- Wikibooks. (2010).Oracle and DB2, Comparison and Compatibility/Database Scaling/Shared Architectures ?. Recuperado (2014, junio 19) de http://en.wikibooks.org/wiki/Oracle_and_DB2,_ Comparison_and_Compatibility/Database_Scaling/ Shared_Architectures.
- Zhao, Z., Vicknair, C., Macias, M. , Nan, X., Chen, Y.,& Wilkins, D. (2010). A Comparison of a Graph Database and a Relational Database. ACM SE ‘10 the 48th Annual Southeast Regional Conference, 42.