Clarivate lanzó su Asistente de investigación generativo impulsado por IA para la Web of Science a principios de septiembre de 2024. François Libmann y su equipo de FLA Consultants se tomaron el tiempo de probar esta nueva herramienta de manera exhaustiva para determinar su idoneidad para la investigación en línea.

por François Libmann

El Asistente de Investigación de Web of Science funciona como una interfaz de chat para buscar el contenido del núcleo de Web of Science, que ofrece 92 millones de referencias en el campo científico desde principios del siglo XX. Clarivate invirtió nueve meses en probar las nuevas posibilidades de búsqueda del asistente GenAI e involucró activamente a su comunidad de usuarios, en particular a su recién formado Consejo Asesor Académico de IA, en el proceso.

Interfaz y opciones de búsqueda

La pantalla de inicio es la misma que la de la búsqueda clásica de Web of Science. Para acceder a ella, haga clic en “Asistente de búsqueda”, que abre la nueva interfaz. A los usuarios se les presentan cuatro opciones. A continuación, entre comillas, se incluye la opinión de Clarivate sobre por qué un buscador debería elegir cada opción.

La primera, denominada “Iniciar una nueva búsqueda formulando una pregunta”, permite a los usuarios lanzar una pregunta específica en lenguaje natural. “Se trata de una forma intuitiva de iniciar una exploración, especialmente útil para investigadores que no estén familiarizados con técnicas de búsqueda avanzadas”.

El segundo apartado, “Comprender un tema”, pretende ofrecer una visión general estructurada y rápida de un tema específico. “Es un excelente punto de partida para familiarizarse rápidamente con un nuevo campo de investigación”.

La tercera, “Revisión de la literatura”, está diseñada para ayudar a realizar una revisión de la literatura más profunda. “Esta función es particularmente útil para los investigadores que preparan un estudio detallado o escriben la introducción de un artículo científico”.

La cuarta opción, “Buscar una revista”, sirve para identificar una publicación a la que un investigador pueda enviar un artículo presentando su investigación. No nos detendremos en esto, ya que nuestro enfoque se centra decididamente en la recuperación de información.

Análisis de la opción “Iniciar una nueva búsqueda formulando una pregunta”

Planteamos una serie de preguntas utilizando esta primera opción. Nuestra primera pregunta con esta opción fue: “¿Cuáles son los sistemas de visión artificial para la detección de defectos?”

El primer resultado es un resumen del contenido de las primeras referencias. Vale la pena señalar que la misma pregunta planteada unos días después no generó exactamente las mismas respuestas, algo que es habitual en las herramientas de IA.

A continuación, el sistema indica que realizó una búsqueda combinando los conceptos “sistemas de visión artificial” y “detección de defectos”. Encontró 58.039 resultados. Volveremos a este tema.

En este punto, el Asistente de Investigación propuso dos opciones:

  1. Preguntas sugeridas

Una vez que se atendieron las primeras ocho referencias recuperadas, aparecieron sugerencias de consultas relacionadas con la solicitud en la parte inferior de la pantalla. En nuestro ejemplo, se realizaron las siguientes sugerencias:

   – Un gráfico que muestra la evolución de las publicaciones en el campo de la visión por computadora a lo largo del tiempo; tenga en cuenta que solo se utiliza uno de los conceptos.

   – Un “mapa temático” que presenta, con enlaces, los distintos conceptos relacionados con la visión artificial, nuevamente un solo concepto. Se puede visualizar una tabla que indica el número de documentos en los que aparece cada concepto (por ejemplo, “extracción de características” o “segmentación de imágenes”). No es posible hacer clic en un término de la tabla, pero sí en el mapa.

   – La identificación de los seis autores más importantes, que todavía utilizan únicamente el concepto de visión artificial. Algunos de ellos dejaron de publicar hace mucho tiempo, pero todos han publicado extensamente.

   – Documentos fundacionales o de referencia sobre el concepto seleccionado, una vez más solo sobre visión artificial: “Quiero conocer artículos seminales sobre visión artificial”. Estos documentos pueden haber sido citados decenas de miles de veces.

Estos cuatro tipos de preguntas propuestas, adaptadas al tema, se encuentran independientemente de la pregunta inicial. También se proponen preguntas más específicas relacionadas con el tema, normalmente dos o tres. Por ejemplo, podrían referirse a investigaciones recientes, a la evolución en el tiempo, a los pioneros, a los países donde más se ha desarrollado la investigación o a los avances en sectores industriales específicos.

En ocasiones, el sistema respondía que no había encontrado nada. Al parecer, las preguntas sugeridas se crean tan pronto como se formula la pregunta inicial, en lugar de ser “preguntas predefinidas”.

  1. Acceso a las referencias

La segunda opción es ver estas ocho referencias en formato reducido. Se trata de documentos, en general, poco recientes, y algunos han sido citados en numerosas ocasiones (a menudo cientos). Se puede visualizar cada referencia completa, y también se pueden ver los documentos que las citan o los “documentos relacionados”, estos últimos propuestos en la opción “ver más”.

Lista completa de resultados

Para ir más allá de estas ocho primeras referencias, se hace clic en “ver documentos adicionales relevantes para esta respuesta”. A continuación, aparece el inicio de la lista de 58.039 documentos, mencionada anteriormente, que, como se ha indicado, se obtuvieron mediante la estrategia: sistemas de visión artificial OR detección de defectos. El operador OR parece más acorde con el número de respuestas que el operador AND mencionado anteriormente.

Hemos llevado a cabo varias búsquedas de este tipo y cada vez el sistema descompone la consulta en conceptos y luego los vincula sistemáticamente con un operador OR, lo que conduce lógicamente a una gran cantidad de respuestas, priorizando la recuperación sobre la precisión.

No está claro cómo el sistema realiza la búsqueda para obtener una cantidad tan grande de resultados. Por curiosidad, hemos buscado en la interfaz clásica utilizando frases entre comillas. Los resultados fueron 16 con el operador AND y 9.673 con el operador OR. Sin comillas y sin el término “OR”, el número de resultados es de 790, lo que corresponde a una búsqueda donde todas las palabras están implícitamente conectadas por un operador AND.

Volviendo a nuestra lista de 58.039 documentos, éstos se encuentran ordenados por defecto en orden decreciente de relevancia. Las referencias son ligeramente más completas que las ocho primeras, ya que incluyen también el resumen, el número de referencias citantes y citadas con enlaces, un enlace al texto completo del artículo y, por último, un enlace a “registros relacionados” que lleva a una lista de documentos que se muestra en el mismo formato que la lista original.

Explotación de listas de documentos

Detengámonos un momento en estas listas de documentos que aparecen en varias etapas del proceso de investigación. Se encuentran:

– Después de las primeras ocho respuestas, cuando solicita ver la lista completa de respuestas;

– Como un conjunto de documentos que citan una referencia,

– O como “documentos relacionados”, accesibles directamente o a través de una de las opciones “ver más” en otros casos.

Estas listas suelen ofrecer una gran cantidad de documentos (no es raro que incluyan decenas de miles). Están ordenadas de forma predeterminada por orden de relevancia decreciente o por fecha más reciente, pero hay otras opciones de ordenación disponibles.

Como obviamente es imposible visualizarlos todos, una primera opción sencilla es seleccionar entre los primeros si están ordenados por fecha y/o por relevancia decreciente.

También notamos que en el caso de los documentos ordenados por relevancia decreciente, solo se pueden ver los primeros 1000, incluso si hay decenas de miles más.

Sin embargo, hay muchas otras opciones de selección disponibles, accesibles desde el lado izquierdo de la pantalla.

– Para realizar una búsqueda dentro de los documentos, primero debe introducir un término en el cuadro de búsqueda que se encuentra en la parte superior izquierda. Este término se busca en todos los campos, incluido el título de la publicación, lo que a veces puede resultar un inconveniente.

– También dispone de una amplia serie de criterios para seleccionar las referencias más relevantes para su número específico, en particular “categorías de Web of Science” y “áreas de investigación”, de las que puede incluir o excluir elementos.

– Puede seleccionar por fecha de publicación. También puede filtrar por artículos y/o reseñas de acceso abierto (tenga en cuenta que en las búsquedas de “revisión de literatura”, que analizaremos más adelante, los resultados suelen consistir únicamente en reseñas).

Como era de esperar, los autores aparecen ordenados en orden decreciente de frecuencia. Puedes filtrar por criterios clásicos como el idioma del artículo, el país de origen del autor o autores, editoriales, financiadores, afiliaciones y títulos de las publicaciones.

Análisis de la opción “Entender un tema”

Para probar esta opción, que pretende ofrecer una visión general estructurada de un tema específico, elegimos “la captura de CO2 de la atmósfera” como tema de investigación.

  1. En primer lugar, planteamos la pregunta en francés: “la captura del CO2 en la atmósfera”. Es evidente que el sistema no comprendía bien la pregunta, ya que el resumen en francés de las primeras ocho referencias decía: “Los documentos hablan de la creciente presencia de metano en la atmósfera”.

Repetimos la misma pregunta y el resumen fue: “Los documentos analizan la importancia del metano como gas de efecto invernadero, su papel en la atmósfera de la Tierra y su impacto en el sistema climático”. Un tercer intento dio una respuesta similar, pero no idéntica.

  1. Luego planteamos la pregunta en inglés: “Captura de CO2 en la atmósfera”.

Esta vez, el resumen (en inglés) hablaba correctamente de la captura de CO2, pero estaba relacionado con la captura de CO2 en la salida de un proceso de fabricación en una fábrica, lo que no responde a la pregunta. En un resumen de las ocho referencias, encontramos el término “captura directa de aire”, que nos pareció muy interesante.

A continuación, lanzamos una búsqueda, siempre en la sección “Entender un tema”, con la pregunta “captura directa de CO2 en el aire”. Esta vez, las primeras ocho referencias eran relevantes y el concepto aparecía incluso claramente en el título.

Una vez más, cabe destacar que los documentos correspondientes fueron publicados antes de 2020. Además, cuatro de ellos tenían más de 500 referencias citantes, y siete de los ocho tenían más de 300 referencias citantes.

A partir de ahí, al visualizar las referencias citadas, resulta muy útil, o incluso necesario, limitar la búsqueda a aquellas que contengan la palabra atmósfera o la palabra aire si se quieren documentos relevantes. Sin embargo, esto es mucho menos necesario con los “documentos relacionados”.

Planteamos la misma pregunta (“qué hay de nuevo en el campo de…”) utilizando la primera opción, “iniciar una nueva búsqueda haciendo una pregunta”, y en esta opción, tanto la versión en inglés como la francesa dieron resultados muy relevantes en sus respectivos idiomas.

Luego planteamos la misma pregunta pero utilizando la opción “revisión de literatura” y, sorprendentemente, encontramos las mismas primeras ocho referencias que encontramos con la opción “entender un tema”, con un total de 97 referencias (no las verificamos una por una, pero al menos están muy cerca).

Cuando hicimos una pregunta sobre hornos industriales, nos sorprendió un poco la prominencia de las referencias a la elaboración de pan y a la panadería, ya que tres de las primeras ocho referencias mencionaban la elaboración de pan, otra mencionaba un horno de panadería y una quinta hacía referencia a la elaboración de pasteles. Una vez comprobado, no era ilógico, ya que el término horno se utiliza comúnmente para la cocción de alimentos en un entorno doméstico o comercial. Una búsqueda con “horno industrial” arrojó resultados muy diferentes.

Sin embargo, una búsqueda en francés arrojó respuestas completamente irrelevantes, todas sobre el mismo tema: ¡la Revolución Industrial británica de 1760 a 1830!

Análisis de la opción “Revisión de literatura”

Los resultados de la búsqueda sobre hornos industriales, a diferencia de los resultados de la búsqueda “Entender un tema”, no se centraron en la panificación o la panadería. Sin embargo, otro tema tuvo mucho protagonismo. De hecho, la palabra coca cola apareció 32 veces entre los 69 documentos encontrados.

Si busca en francés la expresión “four industriel”, la mitad de los resultados (en inglés) son relevantes.

Volviendo a la búsqueda sobre captura de CO2 de la atmósfera, los 97 resultados mencionados anteriormente vuelven a ser antiguos, siendo el más reciente de 2018. Además, en un tercio de los documentos (33) aparece la palabra planta, lo que indica que la captura de CO2 se produce al final de un proceso de fabricación y no desde la atmósfera.

También vale la pena señalar que los documentos obtenidos son reseñas, que de hecho son muy útiles para obtener rápidamente una visión general de un tema.

 Nuestra opinión

En general, los usuarios deben permanecer activos y atentos al interactuar con la herramienta, que es sólo parcialmente una caja negra en la que no es posible ninguna intervención.

La idea de ofrecer cuatro maneras de abordar la investigación correspondientes a diferentes cuestiones es interesante, aunque las diferencias en términos de resultados no siempre sean espectaculares.

Puntos clave

– La capacidad, más allá de los resultados iniciales, de acceder fácilmente a referencias citantes, co-citas o documentos relacionados, todos ellos potencialmente relevantes y actualizados.

– El ofrecimiento de una serie de preguntas relacionadas con la pregunta inicial.

– La capacidad de seleccionar de múltiples maneras entre listas de cientos o miles de documentos potencialmente relevantes.

Aspectos problemáticos

– Nos molestó mucho que una gran parte de las respuestas de nivel inicial fueran antiguas, incluso muy antiguas. Es necesario dar un segundo paso para obtener documentos recientes.

– La herramienta no siempre entiende con precisión la pregunta, y a veces ni siquiera la entiende, como lo muestra un ejemplo en francés, y ocasionalmente proporciona respuestas centradas en un aspecto específico del tema.

En resumen

¡Concluimos que el motor de IA aún necesita más entrenamiento…!

Fuente: https://www.infotoday.eu/Articles/Editorial/Featured-Articles/Putting-Web-of-Science-Research-Assistant-to-the-test-166666.aspx

Deja una respuesta