Revista de Marina
Última edición
Última edición

Data Science: Why we need it?

Data Science: ¿Por qué lo necesitamos?

  • Received at: 06/12/2019
  • Published at: 31/10/2021. Visto 1330 veces.
  • Abstract (spanish):

    El presente articulo tiene por objeto fundamentar el por qué es necesario desarrollar una unidad de Data Science en la institución. Para ello, primero es necesario definir que es esta ciencia desde diferentes visiones y contextos, con el objeto de dar paso y fundamentar nuestra propia definición. Sentadas las bases intelectuales, se dará paso a ver las iniciativas que existen en otras fuerzas armadas y por qué se requiere esta capacidad a nivel institucional, dando ejemplos sobre su uso y aplicabilidad.

  • Keywords (spanish): data science, Inteligencia artificial, algoritmos.
  • Abstract:

    The aim of this article is to substantiate why it is necessary to develop a Data Science entity in our navy. To do so, it is first necessary to define, from different views and contexts, what is the Science is, in order to outline our own needs. With the proper scientific groundwork, we will analyze the initiatives available in other armed forces and why this capability is needed, pointing out some examples of its use and applicability.

  • Keywords: artificial intelligence, Algorithms, Artificial Intelligence, Artificial intelligence, Data science, algorithms.

Una situación típica que se vive hoy en día, consiste en personas recolectando datos desde instrumentos, sensores o desde los resultados obtenidos al ejecutar simulaciones de algún tipo. Muy rápido se dan cuenta que han generado cientos o millones de archivos, y no existe una forma fácil de manejar o analizar sus datos. Desde el punto de vista del problema que quieren solucionar, generalmente, o están buscando agujas en los pajares o andan buscando los pajares y a veces buscan los dos. En general, buscar la aguja es algo más sencillo, dado que se están buscando anomalías específicas en los datos y, usualmente, se tiene una idea de que tipo de señal o valor esperamos. Redes o clusters1de computadores son especialmente útiles en problemas del tipo aguja en el pajar, pero debido a la complejidad algorítmica y el volumen de datos, no son la solución que funciona de manera óptima en análisis de tendencias, clustering estadístico y descubrimiento de patrones globales en los datos, especialmente cuando hablamos de datos multidimensionales. Por lo tanto, nos vemos forzados al uso y/o desarrollo de nuevos algoritmos, que nos entreguen soluciones aproximadas de buena calidad (Tansley & Tolle, 2009). Con este ejemplo es posible vislumbrar ya, que Data Science es una disciplina que involucra datos, algoritmos, redes de computadores y estadística, entre otros, y que requiere de un proceso de captura de datos, curado o limpieza de estos, para su posterior análisis y visualización.

Para el Ministerio de Defensa Británico (MoD) y el Departamento de Defensa de los Estados Unidos (DoD), el Data Science es considerado como un campo multidisciplinario que combina estadística, matemáticas, ciencias de la computación y conocimiento experto del dominio, con la finalidad de extraer información relevante, visión y sapiencia desde los datos, que permita el razonamiento y dé sustento a las decisiones (Ministery of Defense, 2019) (National Academies of Sciences, Engineering, and Medicine, 2017).

Otras definiciones de Data Science ahondan un poco más en los detalles, especificando, dentro de las herramientas necesarias, contar con competencias en bases de datos, sistemas distribuidos, minería de datos, técnicas de visualización de datos, capacidad de transmitir los hallazgos simplificando detalles para un público no especialista y liderazgo. Todo esto, con la finalidad realizar los análisis cuantitativos y cualitativos que permitan entender fenómenos, dar respuesta a interrogantes e impulsar los procesos de toma de decisiones por medio de los datos, información y conocimiento adquirido (Van der Aalst, 2016) (Waller & fawcett, 2003) (Provost & Fawcett, 2013) (Schutt & O’neil, 2013) (Haider, 2015).

Figura 1: Distintas visiones de Data Science.

Claramente no existe una única definición (ver figura 1) respecto a qué es este nuevo campo; sin embargo, todas ellas, de una u otra manera, tienen una base común consistente en el dominio de las ciencias de la computación, estadística, conocimiento específico del dominio y habilidad para comunicar.

Desde el punto de vista de las etapas que deben llevarse a cabo, usando la metodología CRISP,2 el proceso consiste en seis etapas, todas ellas centradas en los datos y que se van repitiendo de forma iterativa de manera permanente y continua (IBM, 2019). Una descripción gráfica del proceso completo puede verse en la figura 2. La primera fase de la metodología CRISP consiste en el correcto entendimiento del negocio, para lo cual es necesario preguntarse ¿Cuál es el problema que estamos tratando de resolver?, esto se traduce en definir cuáles son las variables que queremos explicar o las preguntas a responder. Luego, cabe preguntarse si puedo usar los datos que tengo para responder las preguntas formuladas, dando así inicio al proceso que incluye, de ser necesario, el levantamiento de nuevos datos, su mantención y curado, el modelamiento, la evaluación del modelo y su despliegue, todo esto dentro de un marco iterativo. El proceso se centra en los datos, dado que el científico de datos utiliza gran parte de su tiempo en los procesos de recolección, limpieza y curado de la información obtenida, porque esta nunca está limpia.

Figura 2: Proceso CRISP.

Nuestra definición

Basándose en las diferentes definiciones encontradas en la literatura y otras fuentes, es posible ver la existencia de algunos conceptos recurrentes o interrelacionados que permiten generar nuestra propia definición. Sin embargo, también vemos que dada la gran cantidad de diferentes habilidades requeridas, se hace quimérico que la labor pueda ser llevada a cabo por una única persona, siendo necesarios grupos de trabajos multidisciplinarios con un correcto liderazgo técnico. Por esto, es que dentro del mundo profesional relacionado, denominan unicornio, a aquella persona que cumple con este perfil y todas lo buscan incansablemente.

Volviendo a la definición del concepto y tomando como base los párrafos precedentes, podemos establecer que:

  • Data Science es el conjunto de técnicas y herramientas, generalmente provenientes del mundo de las matemáticas, estadísticas, inteligencia artificial, programación, bases de datos, sistemas distribuidos, o más general ciencias de la computación, que junto al conocimiento experto del dominio permiten el análisis sistematizado y metodológico de datos obtenidos de fuentes de diferente naturaleza. Proceso que permite hallar respuestas a problemas del mundo real, los que son presentados y comunicados a los tomadores de decisiones por medio de técnicas que permiten una representación clara y concisa de estos.

Para desarrollar esta capacidad, se requiere de personal altamente calificado y competente, en las áreas de:

  • Ciencias de la computación:
  • Inteligencia artificial (teoría de juegos, aprendizaje automático, procesamiento de lenguaje natural, algoritmos de búsqueda, etc).
  • Bases de datos y sistemas distribuidos (SQL y NoSQL, algebra relacional, sistemas de consulta paralela, conceptos de MapReduce, herramientas de computación en la nube).
  • Programación (lenguajes de scripting como Python/Julia, computación científica como R, programación paralela).

Matemáticas y estadística:

  • Modelamiento estadístico.
  • Diseño de experimentos.
  • Inferencia bayesiana.
  • Modelos de optimización.

Comunicación y visualización:

  • Compromiso con el nivel directivo.
  • Habilidad para transmitir mensajes e ideas.
  • Capacidad de convertir hallazgos en decisiones y acciones.
  • Capacidad de diseño visual.

Conocimiento del dominio y habilidades blandas:

  • Comprometido y apasionado por el negocio.
  • Curioso por los datos.
  • Validado por la autoridad y sus pares.
  • Habilidad en la resolución de problemas.
  • Pensamiento estratégico, proactivo, creativo, innovador y colaborador. Flexibilidad de pensamiento.

Dada la complejidad que involucra esta disciplina y considerando que el conocimiento del dominio es fundamental para el éxito, es necesario contar con personal institucional (especialmente para el liderazgo técnico) con estudios de postgrado, de nivel de doctorado y postdoc, en las áreas mencionadas, objeto puedan conducir correctamente los esfuerzos, generen la sinergia necesaria y establezcan los puentes de comunicación y cooperación con otras instituciones relacionadas.

¿Por qué lo necesitamos en nuestra institución?

Un sistema UAV MALE sobrevuela y orbita una zona de conflicto a una altura de vuelo, que lo hace silencioso y casi indetectable para potenciales amenazas en tierra. A varios cientos de kilómetros de distancia, el equipo de operaciones del drone, monitorea la actividad en busca de posibles peligros y amenazas para el cumplimiento de la misión. Mientras el piloto mantiene una órbita estable, el sensor electro-óptico montado en el UAV, inunda con información de video en formato HD en tiempo real, a través de un enlace de comunicaciones pertinente, lo que significa cerca de 800MB por hora de video, que con cerca de 30 horas de operación continua se convierten en 24GB de video, el reto es, en tiempo real, procesar este video para detectar objetos de interés, dar seguimiento a movimientos de vehículos militares y soldados, tener un archivo de evidencia forense de las misiones pasadas, generar modelos 3-D de los contactos y georreferenciar objetos. Si a esto le sumamos datos provenientes desde otras fuentes de información, el volumen de datos en el campo de batalla moderno es abrumador y la capacidad de análisis tradicional se vuelve rápidamente obsoleta.

Este ejemplo introductorio, hace recordar una de las enseñanzas, del ya milenario, estratega chino Sun-Tzu quien señalara que lo que permite atacar y conquistar es el conocimiento previo.3 Hoy en día, dado el volumen de información y complejidad de los datos, lo señalado es sólo posible mediante fuerzas capacitadas y competentes en Data Science.

La necesidad de contar con expertos en esta área del conocimiento, puede encontrarse en la publicación efectuada por Paul Symon (2015), donde señala que en la próxima década el mayor desafío para las fuerzas armadas, será desarrollar nuevas capacidades para manejar y explotar el Big Data entendiéndose, esto último, como el crecimiento exponencial del volumen de datos e información digital creada por medio de las nuevas Tecnologías de la Información (TI), tales como el Internet móvil, la redes sociales, los servicios de computación en la nube y el Internet de las cosas, entre tantos otros. Por lo tanto, resulta esencial contar con herramientas y técnicas avanzadas que permitan el análisis en un contexto de masividad de información, pero más cosas que el mero análisis son requeridas. Una de ellas, y sin duda de las más importantes, es la necesidad de liderazgo experto. Esto, producto que, frente a la existencia de cierto tipo de datos, es probable que la tentación sea que estos impulsen la agenda investigativa y no al revés, produciendo un sesgo en la búsqueda de respuestas o una priorización equivocada de las diferentes etapas del proceso. La existencia de un liderazgo técnico permite la correcta conducción e interacción con los stakeholders, de forma de asegurar se hagan las preguntas correctas y se dirija la recopilación y análisis en consecuencia.

Ejemplos de Data Science al servicio de las fuerzas armadas, hay muchos. Uno de ellos ocurrió en 2015, en Afganistán, dónde mediante el análisis de los datos de incidentes terroristas, se reveló que los ataques por medio de hombres bomba eran significativamente mayor los días viernes en comparación al resto de los días de la semana, aunque pareciera contraintuitivo debido a las tradiciones musulmanas de rezar los viernes por la tarde (Haider, 2015). Este análisis permitió realizar los cambios necesarios para mitigar la amenaza.

MALE UAV: General Atonics MQ-1 Predator.

El First Sea Lord de la Royal Navy, expresó en la última conferencia DSEI4 que, dentro de las cinco prioridades de su Armada, está el colocar tecnología en el corazón de su flota. Esto significa tener que adoptar la tecnología e innovación de manera mucho más amplia, profunda e impactante a nivel organizacional. Dentro de este contexto, una de las iniciativas adoptadas de mayor impacto, consiste en el reciente acelerador de proyectos de autonomía y letalidad NavyX,5 el que se describe como una iniciativa que busca el rápido desarrollo, validación y pruebas de equipamiento de última generación, con el objeto de transformar a la Royal Navy en una fuerza impulsada por los datos y la información. De esta forma, lo que se pretende no es sólo comprar nuevos equipos y desarrollar unidades autónomas, sino colocar especialistas digitales junto al guerrero tradicional.

En 2016, el Congreso de los Estados Unidos, levantó algunas preocupaciones acerca de si el DoD estaba realizando uso óptimo del análisis de datos en sus decisiones de adquisición (Anton et al, 2019). Esto demuestra que no sólo es posible el uso de Data Science para el soporte de decisiones tácticas o estratégicas del campo de batalla, sino que trasciende a otras esferas del mundo de la defensa, como los planes de adquisiciones de equipamiento y armas. Sin duda alguna, el uso de Data Science en esta esfera, permite sustentar y mejorar los análisis de funcionamiento de los sistemas y equipos, la evaluación de desempeño de los proyectos al nivel de cumplimiento de roles y misiones y evaluar potenciales riesgos y amenazas durante en la ejecución de un proyecto, entre varios otros usos.


NavyX, modern weapons Royal Navy.

Sin duda, en el contexto del combate al terrorismo, las tácticas y procedimientos de la guerra tradicional no son válidos, requiriéndose un cambio de paradigma en la forma de enfrentarlos. En esta línea, investigadores en RAND6 iniciaron un trabajo en el año 2010, que culminaría con un programa conocido como RAND-Lex, el cual ha permitido realizar análisis de texto en redes sociales, permitiendo identificar patrones y comportamientos de grupos terroristas en ellas (Rand.org, 2017).

La década pasada tuvo como núcleo tecnológico el concepto de Network Centric, consistente en que las diferentes plataformas, sensores y sistemas de mando y control, se encontraran entrelazados por medio de redes de comunicación, con la finalidad de compartir datos entre ellos en diferentes niveles y granularidades. Lo buscado con este enfoque era poder tener una red robusta, segura y que permitiese mantener un panorama del espacio de batalla común y en tiempo real (Quiroga, 2011), aplicándose esto en los tres niveles de la guerra (estratégico, operacional y táctico), pudiéndose utilizar en toda la gama de operaciones militares (Brander, Zegers y Marchessi, 2017). Para lograr lo anterior, era entonces necesaria la fusión de datos e información (Hederra, 2018). Sin embargo, con el advenimiento de este concepto y su posterior materialización, la modernización de los sensores con tasas de refresco más altas, la irrupción de nuevas fuentes de información (como las redes sociales) e incorporación de plataformas autónomas equipadas con diferentes gamas de sensores, el volumen de datos creció de manera exponencial. Por lo tanto, mantener un enfoque basado sólo en la interconexión e intercambio de datos de los sensores y sistemas tradicionales se hace insuficiente, rígido y poco efectivo, debiendo cambiarse el sentido. Hoy en día, varias marinas alrededor del mundo han evolucionado desde una visión Network Centric, hacia una visión Data Centric o Data-Driven. Qué significa esto último, en simples palabras, es que no sólo debemos preocuparnos de tener nuestras plataformas, equipos y sistemas conectados en tiempo real, sino que también pensar en cómo utilizaremos los datos generados para dar respuesta a nuestras interrogantes en el campo de batalla, o sea, Data Science.

Aterrizando el tema a nuestra realidad institucional, ejemplos claros de uso de esta disciplina son variados. Dentro del ámbito concerniente a redes sociales, por ejemplo, en Twitter, sería posible analizar el sentimiento de los tweets asociados a algún concepto. De esta forma, podría verse cuál es el sentimiento (positivo, neutral o negativo) en esta red social respecto de la institución, pudiendo detectarse áreas geográficas con mala percepción. Así, se podrían generar campañas específicas para mejorar la apreciación. Otro ejemplo más, ligado a labores de inteligencia, sería la detección de comunidades, lo que sumado al análisis de sentimiento, permitiría la detección de redes que inciten a la violencia, determinar polos de difusión de contenido, áreas geográficas de interés y un largo etcétera. Desde el punto de vista logístico, se podría utilizar en determinar el comportamiento de consumo de ciertos elementos (demanda) frente a situaciones específicas, utilizarlo en la selección de equipos y sistemas, mantenimiento predictivo, control presupuestario y, nuevamente, un largo etcétera. En el ámbito de personal, se podría apoyar los procesos de transbordo del personal, pudiéndose realizar en base a múltiples restricciones, apoyar las campañas de admisión a las escuelas matrices y contribuir en la selección del personal. Desde la mirada táctica, permitiría la evaluación y efectividad de ejercicios, munición, técnicas y tácticas, contribuir en la creación de una conciencia situacional colectiva y común y la óptima asignación de medios. Nuevamente, desde el punto de vista de inteligencia, el uso de herramientas de Data Science, permiten llevar a cabo análisis semántico de documentos de diferente naturaleza, pudiendo encontrar relaciones e intencionalidades no implícitas en ellos. Desde la arista marítima, el uso de Data Science, podría permitir detectar comportamientos anómalos de naves navegando en aguas jurisdiccionales, entregar indicadores de riesgo y permitir encontrar redes de tráfico de ilícitos (armas, drogas, personas). Como es posible ver, los ejemplos son variados y transversales a todas las áreas del quehacer institucional.

Los párrafos precedentes ejemplifican de manera sólida y clara, los diversos usos del Data Science en la Armada, como en las fuerzas armadas y organismos de inteligencia en general. Dada la naturaleza dinámica de esta disciplina, como de su objeto de estudio (los datos) y el vertiginoso avance tecnológico del área, es que se hace necesario su instauración de manera orgánica lo antes posible. De no hacerlo, se corre el riesgo de que la brecha aumente hasta un punto inabordable y si algo nos ha enseñado la naturaleza, es que la especie (organización en este caso) que no evoluciona y se adapta a su entorno, tiene una alta probabilidad de extinguirse.

Conclusiones

El concepto de Data Science es transversal a varias áreas del conocimiento, por lo que su implementación, además de especialistas altamente calificados, requiere de varios de ellos trabajando en forma conjunta a los especialistas del dominio bajo estudio. Esta alta especialización incluye habilidades autónomas de investigación en las áreas de ciencias de la computación, matemáticas y estadística, competencias que se forjan mediante estudios de postgrado en las áreas señaladas de nivel de Doctorado y Magíster.

Debido a que uno de los pilares fundamentales es el conocimiento específico de dominio, es que, necesariamente, debe haber personal institucional (oficiales y EE.CC.) con estudios de Doctorado, Magíster e Ingeniería en las áreas de ciencias de la computación, matemática y estadística.

Una correcta implementación de este concepto en beneficio institucional, requiere de liderazgos técnicos, con habilidades para transmitir sus hallazgos y contar historias por medio de los datos, haciendo alcanzable el conocimiento para el personal no especialista en el área, lo que refuerza la necesidad de contar con oficiales preparados en este ámbito.

La visión Network Centric de la década pasada, no es antagónica. Por el contrario, constituye parte de los pilares sobre los cuales construir una fuerza impulsada por los datos y la información.

Es recomendable dotar a la institución de los medios humanos y materiales para transitar hacia el nuevo paradigma. Para ello, sería necesario contar con una unidad orgánica, dependiente del nivel de dirección institucional, que pueda interactuar de manera transversal a los diferentes stakeholders de la Armada.


&&&&&&&&&&


LISTA DE REFERENCIAS:

  1. Tansley, S., & Tolle, K. M. (2009). The fourth paradigm: data-intensive scientific discovery (Vol. 1). A. J. Hey (Ed.). Redmond, WA: Microsoft research.
  2. Van Der Aalst, W. (2016). Data science in action. In Process Mining (pp. 3-23). Springer, Berlin, Heidelberg.
  3. Waller, M. A., & Fawcett, S. E. (2013). Data science, predictive analytics, and big data: a revolution that will transform supply chain design and management. Journal of Business Logistics, 34(2), 77-84.
  4. Provost, F., & Fawcett, T. (2013). Data Science for Business: What you need to know about data mining and data-analytic thinking. “O’Reilly Media, Inc.”.
  5. Schutt, R., & O’Neil, C. (2013). Doing data science: Straight talk from the frontline. “O’Reilly Media, Inc”.
  6. Haider, M. (2015). Getting Started with Data Science: Making Sense of Data with Analytics. IBM Press.
  7. Ibm.com. (2019). IBM Knowledge Center. [online] Available at: https://www.ibm.com/support/ knowledgecenter/en/SS3RA7_15.0.0/com.ibm.spss.modeler.kc.doc/pv_welcome.html [Accessed 13 Nov. 2019].
  8. Defense Science and Technology Laboratory (dstl). (2019). The Dstl Biscuit Book, Artificial Intelligence, Data Science and (mostly) Machine Learning. Ministery of Defense.
  9. National Academies of Sciences, Engineering, and Medicine. (2017). Strengthening Data Science Methods for Department of Defense Personnel and Readiness Missions. National Academies Press.
  10. Symon, P. B., & Tarapore, A. (2015). Defense intelligence analysis in the age of big data. Joint Forces Quarterly—JFQ, 79, 4-11.
  11. Anton, P. S., McKernan, M., Munson, K., Kallimani, J. G., Levedahl, A., Blickstein, I., ... & Newberry, S. (2019). Assessing the Use of Data Analytics in Department of Defense Acquisition.
  12. Rand.org. (2017). Big Data, Big Questions. [online] Available at: https://www.rand.org/blog/randreview/2017/10/big-data-big-questions.html [Accessed 14 Nov. 2019].
  13. Quiroga, C. (2011). Network Centric Warfare: Su Conceptualización y Aplicabilidad. Revista de Marina, 925, 580-586.
  14. Brander, J.M., Zegers, R. & Marchessi, A. (2007). Network Centric Warfare. Revista de Marina, 900, 470-476.
  15. Hederra, F. (2018). Información mediante Network Centric Warfare en la Armada ¿Cómo y Cuándo?. Revista de Marina, 967, 24-30.

Inicie sesión con su cuenta de suscriptor para comentar.-

Comentarios

Related Articles

Inteligencia artificial en la detección de cocaína en Chile
ESCENARIOS DE ACTUALIDAD

Inteligencia artificial en la detección de cocaína en Chile

La estadística actual indica que los niveles de narcotráfico vía marítima han aumentado en Chile en los últimos años (Mi...

Aplicación de la inteligencia artificial a la defensa y seguridad
TEMA DE PORTADA

Aplicación de la inteligencia artificial a la defensa y seguridad

“El crimen organizado se combate como región o no se combate (Tohá, 2024)1" Miles de millones de personas utilizan...

La inteligencia artificial: ¿Las llaves del edén o del averno?
TEMA DE PORTADA

La inteligencia artificial: ¿Las llaves del edén o del averno?

What do we understand by "intelligence"? In simple words, it is the ability to detach, discern, discriminate, learn, cre...

Inteligencia artificial y guerras futuras
TEMA DE PORTADA

Inteligencia artificial y guerras futuras

“La inteligencia artificial es el futuro no solo para Rusia, sino para toda la humanidad. Trae consigo enormes oportunid...

Inteligencia Artificial en la Educación Naval: Posibles ventajas y desventajas
ACTUALIDAD

Inteligencia Artificial en la Educación Naval: Posibles ventajas y desventajas

NOTA del Autor: Este articulo ha sido completamente escrito por una aplicación de Inteligencia Artificial (chatGPT). Se ...