CIENCIA Y TECNOLOGÍAInteligencia Artificial

La nueva herramienta para resumir la literatura sobre COVID-19

Los científicos del Laboratorio Nacional de Berkeley han creado una herramienta para sintetizar la literatura sobre COVID-19.

Persona usando una computadora portátil, mirando la página de inicio de CovidScholar.org

COVIDScholar de Berkeley Lab utiliza algoritmos de minería de texto para escanear cientos de documentos nuevos todos los días. / Foto: Pexels / Composición: LatinAmerican Post

EurekAlert | DOE/Lawrence Berkeley National Laboratory

Escucha este artículo

Read in english: Machine learning tool could provide unexpected scientific insights into COVID-19

Un equipo de científicos de materiales del Laboratorio Nacional Lawrence Berkeley (Laboratorio de Berkeley), científicos que normalmente dedican su tiempo a investigar cosas como materiales de alto rendimiento para termoeléctricos o cátodos de batería, han construido una herramienta de extracción de texto en un tiempo récord para ayudar a la comunidad científica mundial a sintetizar la montaña de literatura científica sobre COVID-19 que se genera todos los días.

La herramienta, en vivo en covidscholar.org , utiliza técnicas de procesamiento del lenguaje natural para no solo escanear y buscar rápidamente decenas de miles de trabajos de investigación, sino que también ayuda a obtener ideas y conexiones que de otro modo no serían evidentes. La esperanza es que la herramienta eventualmente pueda habilitar la "ciencia automatizada".

"En Google y otros motores de búsqueda, las personas buscan lo que consideran relevante", dijo el científico de Berkeley Lab, Gerbrand Ceder, uno de los líderes del proyecto. "Nuestro objetivo es extraer información para que las personas puedan encontrar información y relaciones no obvias. Esa es la idea del aprendizaje automático y el procesamiento del lenguaje natural que se aplicará en estos conjuntos de datos".

COVIDScholar se desarrolló en respuesta a un llamado a la acción del 16 de marzo de la Oficina de Política de Ciencia y Tecnología de la Casa Blanca que pidió a los expertos en inteligencia artificial que desarrollen nuevas técnicas de extracción de datos y texto para ayudar a encontrar respuestas a preguntas clave sobre COVID-19.

El equipo de Berkeley Lab puso en marcha un prototipo de COVIDScholar en aproximadamente una semana. Ahora, poco más de un mes después, ha recopilado más de 61,000 trabajos de investigación, de los cuales 8,000 son específicamente sobre COVID-19 y el resto sobre temas relacionados, como otros virus y pandemias en general, y está obteniendo más de 100 usuarios únicos. todos los días, todo de boca en boca.

Y se agregan más artículos todo el tiempo: se publican 200 nuevos artículos de revistas todos los días sobre el coronavirus. "Dentro de los 15 minutos posteriores a la publicación del artículo en línea, estará en nuestro sitio web", dijo Amalie Trewartha, una becaria postdoctoral que es uno de los principales desarrolladores.

Esta semana, el equipo lanzó una versión mejorada lista para uso público: la nueva versión ofrece a los investigadores la capacidad de buscar "documentos relacionados" y clasificar artículos mediante el ajuste de relevancia basado en el aprendizaje automático.

Lea también: Los 6 mejores juegos gratuitos de Android para la cuarentena

El volumen de investigación en cualquier campo científico, pero especialmente en este, es desalentador. "No hay duda de que no podemos seguir el ritmo de la literatura, como científicos", dijo la científica de Berkeley Lab, Kristin Persson, quien lidera el proyecto. "Necesitamos ayuda para encontrar rápidamente los documentos relevantes y para construir correlaciones entre los documentos que, en la superficie, no parecen estar hablando de lo mismo".

El equipo ha creado scripts automatizados para obtener nuevos documentos, incluidos los documentos de preimpresión, limpiarlos y hacer que se puedan buscar. En el nivel más básico, COVIDScholar actúa como un motor de búsqueda simple, aunque altamente especializado.

"Google Scholar tiene millones de documentos que puede buscar", dijo John Dagdelen, un estudiante graduado de UC Berkeley e investigador de Berkeley Lab, uno de los desarrolladores principales. "Sin embargo, cuando buscas 'bazo' o 'daño en el bazo', y ahora hay investigaciones que indican que el bazo puede ser atacado por el virus, obtendrás 100,000 documentos sobre bazos, pero no son realmente relevantes para lo que necesitas para COVID-19. Tenemos la mayor colección de literatura de un solo tema, sobre COVID-19 ".

Además de devolver resultados de búsqueda básicos, COVIDScholar también recomendará resúmenes similares y clasificará automáticamente los artículos en subcategorías, como pruebas o dinámicas de transmisión, lo que permitirá a los usuarios realizar búsquedas especializadas.

Ahora, después de haber pasado las primeras semanas configurando la infraestructura para recopilar, limpiar y cotejar los datos, el equipo está abordando la siguiente fase. "Estamos listos para hacer un gran progreso en términos del procesamiento del lenguaje natural para la 'ciencia automatizada'", dijo Dagdelen.

Por ejemplo, pueden entrenar sus algoritmos para buscar conexiones inadvertidas entre conceptos. "Puede usar las representaciones generadas para los conceptos de los modelos de aprendizaje automático para encontrar similitudes entre cosas que en realidad no ocurren juntas en la literatura, para que pueda encontrar cosas que deberían estar conectadas pero que aún no lo han estado", dijo Dagdelen.

Otro aspecto es trabajar con investigadores de la División de Genómica Ambiental y Biología de Sistemas de Berkeley Lab y el Innovative Genomics Institute de UC Berkeley para mejorar los algoritmos de COVIDScholar. "Estamos vinculando el aprendizaje automático no supervisado que estamos haciendo con lo que han estado trabajando, organizando toda la información en torno a los vínculos genéticos entre enfermedades y fenotipos humanos, y las posibles formas en que podemos descubrir nuevas conexiones dentro de nuestros datos ", dijo Dagdelen.

Lea también: Nuevo modelo puede evitar la bancarrota de un país

La herramienta completa se ejecuta en las supercomputadoras del Centro Nacional de Investigación Científica de Energía (NERSC) , una instalación de usuarios de la Oficina de Ciencia del DOE ubicada en Berkeley Lab. Esa sinergia entre disciplinas, desde biociencias hasta informática y ciencia de materiales, es lo que hizo posible este proyecto. El motor de búsqueda en línea y el portal funcionan con la plataforma en la nube Spin en NERSC; lecciones aprendidas de las operaciones exitosas del Proyecto Materiales , que sirve millones de registros de datos por día a los usuarios.

"No podría haber sucedido en otro lugar", dijo Trewartha. "Estamos progresando mucho más rápido de lo que hubiera sido posible en otros lugares. Es la historia de Berkeley Lab realmente. Trabajando con nuestros colegas en NERSC, en Biociencias [Área de Berkeley Lab], en UC Berkeley, podemos probar nuestras ideas rápidamente ".

También es clave que el grupo haya construido esencialmente la misma herramienta para la ciencia de los materiales, llamada MatScholar , un proyecto respaldado por el Toyota Research Institute y Shell. "La razón principal por la que todo esto podría hacerse tan rápido es que este equipo tenía tres años de experiencia en el procesamiento del lenguaje natural para la ciencia de los materiales", dijo Ceder.

Publicaron un estudio en Nature el año pasado en el que mostraron que un algoritmo sin capacitación en ciencia de materiales podría descubrir nuevos conocimientos científicos. El algoritmo escaneó los resúmenes de 3,3 millones de artículos publicados sobre ciencia de materiales y luego analizó las relaciones entre palabras; fue capaz de predecir descubrimientos de nuevos materiales termoeléctricos con años de anticipación y sugerir materiales aún desconocidos como candidatos para materiales termoeléctricos.

Más allá de ayudar en el esfuerzo de combatir COVID-19, el equipo cree que también podrán aprender mucho sobre la minería de textos. "Este es un caso de prueba de si un algoritmo puede ser mejor y más rápido en la asimilación de información que solo todos nosotros leyendo un montón de documentos", dijo Ceder.

COVIDScholar cuenta con el apoyo del programa de Investigación y Desarrollo Dirigido por el Laboratorio (LDRD) de Berkeley Lab. Su trabajo de ciencia de materiales, que sirvió de base para este proyecto, cuenta con el apoyo del Instituto de Energía y Biociencias (EBI) en UC Berkeley, el Instituto de Investigación Toyota y la Fundación Nacional de Ciencia.

 

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Botón volver arriba