Connect

Les innovations d'aujourd'hui reposent sur de la data organisée

6 novembre 2023

Par Ann-Marie Roche

Colorful image that evokes the concept of organized data. (Source: istock.com/NicoElNino)

Joe Mullen, directeur chez SciBite, se joindra à des experts en IA et en datapour le prochain webinaire intitulé "The perils and pitfalls of generative AI for R&D"

Si l'IA générative prend le monde d'assaut, un aspect plus fondamental de la science des données passionne encore plus le Dr Joe Mullen.

"Les technologies IA évoluent et changent, mais la gestion des données fondamentales est éternelle", affirme-t-il. "Le fait d'avoir vos données en ordre vous donne l'agilité nécessaire pour profiter rapidement des dernières innovations, qu'il s'agisse de l'apprentissage automatique, des LLM ou d'autres domaines.

Joe est directeur de la science des données et des services professionnels chez SciBite S’ouvre dans une nouvelle fenêtre, une société de logiciels d'analyse sémantique acquise par Elsevier en 2020. Il fera partie des quatre experts en science des données et en IA qui participeront mercredi à un webinaire gratuit S’ouvre dans une nouvelle fenêtre destiné à l'industrie pharmaceutique.

Se concentrer sur le problème

"Nous croyons fermement que les données alimentent la recherche et nous sommes toujours en quête des dernières applications technologiques pour aider à accélérer les percées scientifiques", déclare Joe.

"Bien entendu, il ne peut s'agir de n'importe quelles données", ajoute-t-il. "Il faut qu' elles aient une origine et qu' elles soient donc bien gérées. Ce n'est que par la suite[C(1] que vous pourrez prendre des décisions fondées sur des preuves pour générer une hypothèse - la pierre angulaire du progrès scientifique. Et les données doivent être construites de manière à être FAIR : repérables, laccessibles, interopérables et réutilisables. Alors vous avez vraiment atteint l’objectif"

Chart: FAIR data is findable, interoperable, accessible and reusable (Source: FAIR Principles; image by SciBite) — Les données FAIR sont repérables, [C(1] interopérables, accessibles et réutilisables (Source : principes FAIR S’ouvre dans une nouvelle fenêtre; image de SciBite)

À titre d'exemple, Joe a souligné que SciBite est en mesure de soutenir la R&D dans le domaine des sciences de la vie pour des questions telles que la hiérarchisation des cibles, la surveillance du marché, la détection des effets indésirables et les possibilités de repositionnement des médicaments :

Fondamentalement, notre équipe aide les clients à résoudre leurs problèmes en tirant le meilleur parti de leurs données. Il ne s'agit pas seulement d'accélérer l'extraction la récupérationdes informations, mais aussi d'abaisser les barrières à l'entrée pour que les clients puissent tirer le meilleur parti de ce que nous offrons. Et bien que nous utilisions les dernières technologies d'apprentissage automatique pour y parvenir, tout cela repose sur la compréhension du fait que toutes les meilleures stratégies numériques sont construites sur des bases de données solides. Et qu'il y a beaucoup de données qui attendent d'être structurées et exploitées pour en tirer de la valeur.

Webinaire : "Les dangers et les pièges de l'IA générative pour la R&D"

Le Dr Joe Mullen fera partie du panel d'experts en IA et en données qui participeront à un webinaire gratuit le mercredi 8 novembre 2023 à 9 heures (EST). Il s'agit du premier volet d'une série en quatre parties intitulée L'IA dans l'innovation : Les experts exploreront les dangers, les pièges et les promesses de l'IA générative pour la recherche et le développement. De l’insuffisance des données au problème du cadre, en passant par le RAG et l'IR vectorielle, ils se pencheront sur les problèmes qui peuvent faire dérailler vos projets d'IA. Ils répondront également à vos questions sur la manière dont Elsevier octroie des licences, fournit et met à jour les données utilisées dans l'IA générative.

En savoir plus et s'inscrire(S’ouvre dans une nouvelle fenêtre)

Une passion alimentée : c'est dans les chiffres

Joe dit qu'il a toujours été axé sur les solutions :

J'examine toujours les problèmes et j'essaie de trouver la meilleure façon de les résoudre. Au départ, j'étais très enthousiaste à l'idée de comprendre le fonctionnement du corps humain par le biais de la biologie. Mais c'est un petit module de mon cursus de biologie qui m'a donné envie de me lancer dans l'analyse des données.

Cette passion l'a conduit à obtenir un master, puis un doctorat :

J'ai trouvé fascinant de constater qu'il est possible de prendre un fichier rempli de tout ce bruit humain et d'en faire quelque chose pour identifier une hypothèse potentielle. Aujourd'hui, la technologie permettant de générer une telle hypothèse s'est considérablement développée. Et la façon dont nous analysons ces données est en constante évolution. Mais en fin de compte, notre objectif reste de pouvoir voir ce que les données peuvent révéler d'une manière aussi automatisée et transparente que possible.

Titulaire d'un doctorat en intégration de données sémantiques (développement de graphes de connaissances pour identifier de nouvelles utilisations de médicaments existants), Joe était le candidat idéal pour la startup SciBite : "J'ai été embauché en tant que numéro 13", se souvient-il. "Six ans plus tard, nous comptons environ 80 personnes. Faire partie de cette incroyable équipe de science des données - une équipe que j'ai maintenant la chance de diriger - a été très mouvementé et incroyablement gratifiant"

Un mariage au paradis des données structurées

"Nous avons toujours été un éditeur de logiciels qui permet à nos clients de tirer le meilleur parti de leurs données", explique Joe. "Et depuis que nous avons été rachetés par Elsevier - qui possède l'étalon-or en matière de données et de plates-formes de données - c'est un vrai plaisir de voir comment nos efforts combinés permettent de fournir des solutions encore meilleures aux problèmes que les clients nous soumettent.

"SciBite a toujours été petit petite et agile. Nous avons toujours pu tourner à gauche ou à droite quand nous le souhaitions. Et cela n'a pas beaucoup changé. Nous continuons d'opérer en tant qu'unité commerciale indépendante. Mais il existe une grande synergie entre nous et de grandes possibilités de collaboration. D'un point de vue technique et commercial, tout cela est parfaitement logique. Elsevier ne dispose pas seulement de données, mais aussi d'une expertise humaine.

"Et l'expertise humaine n'a pas de date de péremption. Je suis tout à fait d'accord avec cette expression : "L'IA ne va pas remplacer les humains, mais les humains avec l'IA vont remplacer les humains sans l'IA"

Q : Qu'est-ce qu'une donnée de qualité ? AR: Experts en la matière

"Il est évident que tout le monde dispose d'un grand nombre de données", explique M. Joe. "Maintenant, pour comprendre ces données, il faut que les experts en la matière S’ouvre dans une nouvelle fenêtre les trient pour établir les définitions et les normes - les ontologies - afin que nous puissions reconnaître les différentes entités dans les données, qu'il s'agisse d'un médicament, d'une maladie, d'une protéine ou d'un phénotype. Nous avons toujours eu beaucoup de PME dans le domaine des sciences de la vie. Aujourd'hui, Elsevier nous ouvre les portes en accueillant également des PME dans d'autres secteurs verticaux tels que la chimie et l'ingénierie. [C(2]

"Ce sont des personnes qui comprennent l'importance de construire des identifiants publics qui s'appuient sur les principes des données FAIR S’ouvre dans une nouvelle fenêtre. Oui, les technologies peuvent accélérer un grand nombre de ces tâches, mais vous avez besoin d'un être humain dans la boucle S’ouvre dans une nouvelle fenêtre pour valider l'information"

Les données sont reines

Le fait que SciBite conserve sa mentalité de startup s'accorde parfaitement avec l'idée d'une gestion solide des données de base. "Cela revient à dire que les technologies peuvent évoluer, mais que vos données restent constantes. En disposant d'une gestion des données de base de bonne qualité, vous pouvez pivoter avec agilité et utiliser la prochaine technologie de pointe dès qu'elle est disponible"

Les grands modèles linguistiques (LLM) en sont un bon exemple. Sa version la plus connue, ChatGPT, a certainement fait de la science des données un domaine passionnant pour le grand public. Toutefois, ces solutions générales ne sont tout simplement pas suffisantes dans un secteur qui repose sur des connaissances spécialisées. Et si Joe admet qu'une grande partie du travail de SciBite autour de l'organisation des données peut sembler aride pour certains, il n'en demeure pas moins fondamental. En fait, une fois que vous avez mis de l'ordre dans vos données, les choses peuvent devenir rapidement passionnantes.

Une nouvelle phase passionnante

"Souvent, nous sommes confrontés à des questions scientifiques plus profondes qui requièrent de nombreuses sources de données différentes", explique M. Joe. "Nous sommes dans une phase passionnante où nous avons mis en place les éléments fondamentaux qui nous permettront de mieux relier les différentes sources de données, qu'il s'agisse des larges bases de données d'Elsevier, des bases de données internes des clients ou des nombreuses sources de données ouvertes.

"Mais en même temps, à chaque étape du processus de R&D de nos clients, ils devront soumettre des éléments aux organismes de réglementation. Vous devez donc savoir exactement d'où proviennent ces hypothèses, où vous identifiez réellement ces informations"

En d'autres termes, il s'agit des pierres de touche de la science : la providence, la reproductibilité et la transparence - autant de lacunes actuelles des LLM :

Cela va au-delà des hallucinations - où les LLM génèrent de fausses informations. Il y a aussi l'ironie du refus d'OpenAI de divulguer quoi que ce soit sur ce qui a été fait dans GPT4. Il y a encore trop de questions à régler.

La transparence est essentielle

"Mais cela n'enlève rien au potentiel des LLM, qui sont déjà un outil formidable pour certaines tâches", ajoute Joe.

À terme, il estime que les LLM peuvent contribuer à abaisser la barrière qui empêche les utilisateurs d'explorer toutes les informations et les relations que les algorithmes d'apprentissage automatique ont trouvées.

"Ce sera le grand jeu : le client pourra interagir avec toutes ces bases de données en utilisant le langage naturel grâce à un LLM qui le convertira dans la syntaxe d'interrogation appropriée. Ce serait un grand pas en avant en termes de démocratisation des données. Mais encore une fois, vous aurez toujours besoin d'un être humain dans la boucle pour valider l'information"

Mais oui, nous n'en sommes pas encore là. En fait, à certains égards, les LLM s'avèrent être une distraction.

"Trop de gens considèrent le LLM comme une solution universelle", déclare Joe. "Nous devons nous réorienter et nous concentrer à nouveau sur le problème spécifique qui se pose. En fin de compte, les LLM peuvent faire partie de la solution, mais nous ne devrions pas être les premiers à l'utiliser. Nous avons besoin de temps pour trouver le juste milieu.

"Cependant nous ne pourrons le faire qu'avec une gestion des données de qualité. Nous serons alors prêts à faire face à la prochaine avancée technologique.

Contributeur