SomosNLP: La gran marcha de un grupo de voluntarios para grabar un ChatGPT en español: “Un modelo formado en español será increíble” | Tecnología

SomosNLP: La gran marcha de un grupo de voluntarios para grabar un ChatGPT en español: “Un modelo formado en español será increíble” |  Tecnología

“La pregunta es ‘una típica señora del Perú’, y así es la cuestión”, dice María Grandury, fundadora de la organización de voluntariado SomosNLP. Grandury describe una acción común para los nuevos chatbots con inteligencia artificial (IA). Esta sencilla petición incluyó, sin embargo, un enorme trabajo preliminar, la mayor parte automatizado, pero gran parte también humano.

Esta pregunta requiere, al menos, tres elementos básicos: primero, una base de datos que incluya recetas peruanas en español, que puedas vender en Internet. En segundo lugar, una lista de preguntas y respuestas que permiten al modelo saber quién responde cuando se hace la pregunta sobre una receta peruana. Y tercero, un chequeo que permite revisar la respuesta y decidir si es correcta.

Esta explicación de tres pasos por sí sola oscurece una gama de opciones, donde el financiamiento es clave. Las grandes empresas de Silicon Valley y las inglesas lo dominan todo a gran distancia. ¿Qué pasa con otros idiomas? Si está considerando niveles separados. El español debería ser una lengua igualmente dominante, pero en realidad no es así. El resultado de hacer una máquina dispuesta a responder cualquier pregunta en español (no un problema, enfocada a un solo tema) es sumamente complejo.

El primer paso es reunir cantidades de mensajes de texto para emprender lo que es un modelo fundamental. “Muchos textos no nos han afectado tanto, pero si somos más en los últimos tres años, creé la comunidad y apoyé iniciativas por parte del gobierno”, dice Grandury. A todo ello responde Alia, un modelo impulsado por el Gobierno de España y por el ministro José Luis Escrivá en EL PAÍS, que “abrirá las puertas a una nueva generación de productos tecnológicos desarrollados con el vasto patrimonio lingüístico del castillo y las lenguas”. cooperativas”. de España”.

El modelo es una parte que requiere muchos datos originales pero también muchos cálculos. Por eso es fundamental el trabajo del Gobierno con el SuperCentro de Computación de Barcelona y con IBM. Pero con esto, sólo un modelo es capaz de escribir un texto a partir de una frase inicial, sin una pregunta. Pero los chats que se han popularizado son precisamente preguntas y respuestas. Estas instrucciones no existen en español, entre los hombres públicos. Aquí entró el juego SomosNLP (PNL con los símbolos del proceso del lenguaje natural en inglés), que pretende reunir recursos para que la presencia del español sea mejor en la IA: “Las bases de datos solo con declaraciones son públicas. Francés. “Lo que suele hacerse es cogerlos y traducirlos”, dice Grandury. “Vamos a hacer que seguramente le creemos al alcalde un corpus de instrucciones abiertas en español”, añadió.

Grandury, desde hace 26 años y en Ponferrada, ha vivido una experiencia en el prometedor camino de la puesta en marcha de un modelo viable en español. Se licenció en matemáticas y física en la Universidad de Oviedo y trabajó brevemente en Berlín, cotizando en Clibrain. En la primavera de 2023, Clibrain “pediría ser la referencia mundial en IA en español” y su cofundadora, Elena González-Blanco, era “la referencia mundial en IA en español”, según afirman los titulares de prensa. Se incluye un modelo con nombre español como Lince. Hola Clibrain ha cerrado.

“Lince funciona bien, pero se ha vuelto más accesible, por ejemplo con una interfaz. Pero también es caro, está disponible para las personas que lo utilizan”, dijo Grandury, refiriéndose a la necesidad computacional requerida para que un modelo esté disponible en Internet para responder a las solicitudes de los usuarios.

Francia es tu líder

Mientras tanto, le siguió Francia con Mistral como empresa nacional que cuenta con escala global. “El campeón de la IA europea tiene su milagro entre los gigantes tecnológicos de EE UU”, titulaba el New York Times en abril. Su presidente ejecutivo, el francés Arthur Mensch, de 31 años, ex empleado de Google, dijo: “Estos modelos moldeados tienen nuestra comprensión cultural del mundo, y los valores de Francia y los valores de Estados Unidos difieren en maneras útiles pero importantes “.

La distancia financiera es enorme: OpenAI ha registrado retrocesos por valor de 13.000 millones de dólares; Mistral, 540 millones. El modelo de Mistral está en inglés, pero parece que hay espacio para el metro más contenido en francés: al menos la literatura francesa del siglo XIX, de la que no tiene derechos de autor, según el Los Tiempos de la Ciudad Nueva York.

Grandury coincidió con los hombres de Mistral en el lanzamiento de su modelo. “Ya no contaban mucho, Les pregunté sí habían entrenado con texto en francés o en español. ‘Puede ser’, me dijeron”, sin dar más detalles. “La gente no habla”, añade.

El presidente francés, Emmanuel Macron, recibe un Mensch. El presidente español, Pedro Sánchez, anunció el nuevo modelo Alia y se reunió con el español Darío Gil, vicepresidente de IBM. Gracias a las empresas poderosas, los españoles bien ubicados pueden resultar útiles. Es probable que en Francia uno de los “padres de la IA” sea el francés Yann LeCun, director científico de la IA en Meta.

Vender en inglés es que Internet está en inglés. Los españoles y los franceses deben buscar y negociar con montañas de instituciones para alimentar sus modelos, el mismo lenguaje que utilizan la mayoría de los pueblos pequeños como los españoles o las cooperativas precolombinas en América Latina.

Nuestra PNL no tiene la capacidad de crear estos modelos, pero puedes montar esfuerzos voluntarios, como un hackaton, para recopilar preguntas y respuestas generales. ¿Qué motiva a los centros de voluntariado a hacer estos esfuerzos para mejorar la IA en español? “Somos una gran comunidad internacional de personas con todos nuestros intereses y sabemos que a medida que aprendes y ganas visibilidad, aportas tu granito de arena a un objetivo común: colaborar en la preservación de tu lengua y tu cultura”, desde Grandury.

Creamos 20 equipos de 5 personas en sólo 200.000 instrucciones. Es posible crear códigos de preguntas y respuestas a partir de bases de datos de temas específicos. “Hay archivos PDF, sitios web sobre temas legales o refugiados en conversaciones con grupos abiertos de Telegram. Cuando hay una montaña de datos, puedes crear automáticamente respuestas a preguntas y respuestas sobre ese texto. Luego de los mandatos de un espacio de anotación y de las personas humanas, se revisará la persona de cada equipo para ver si se ha sentido. Es mucho más rápido porque no tienes que decir y responder una pregunta y tu respuesta”, dice Grandury. Los humanos son como profesores de idiomas para ellos. chatbotsque se corrijan los errores y errores indicados para que sean mejor respetados.

El objetivo de SomosNLP es crear 10 millones de preguntas y respuestas originales en español. “Seguiría siendo un tercio del principal corpus sintético en inglés”, dice Grandury. En SomosNLP el trabajo actualmente es estrictamente voluntario. Solo ciertos patrones para tus acciones, como el uso de minions o recompensas, se siguen, entre otros, de la empresa Hugging Face, construida por una comunidad que trabaja con IA de forma abierta.

Las grandes empresas de Silicon Valley no revelan cómo es este proceso. En enero de 2023, se especula que OpenAI contrató a miles de trabajadores en Kenia para responder preguntas tóxicas y hacer que el chatbot aprendiera que no deberían hacerlo. Pero hay más detalles: “No entendíamos que era posible automatizar la creación de preguntas”, dice Grandury. “Como hay mucha humanidad, no tenemos gente manejando la misma cantidad de datos. Imaginar que determinadas personas serían anotadas es impensable”.

Funda de metabolsa para el nuevo modelo Llama 3 En documento titulado. Nuestro enfoque responsable hacia Meta AI y Meta Llama 3, la empresa dedica 3.000 palabras a explicar los pasos, un menú en colaboración con humanos, para que no haya respuestas políticamente incorrectas. Pero no sé cómo hizo todo el proceso antes.

¿Por qué no usar ChatGPT en español?

Una pregunta repetida es porque no se pueden utilizar las plantillas que existen y responder bien en español. Aparte de las preguntas estratégicas, culturales y abiertas, es difícil para un modelo creado originalmente en inglés por separado distinguir entre variantes dialectales del español.

“Grace no será un modelo multilingüe y adaptable, salvo uno que se introduzca en español y después de la adaptación con datos en español será increíble”, afirma Grandury. ¿Cómo reportar diferencias? “Hay más utilidad en el lenguaje, por ejemplo como expresarte si tienes un C1 o un C2 o si utilizas expresiones familiares o más elaboradas”.

El objetivo inmediato del modelo impulsado por el Gobierno es ayudar a empresas y organizaciones a hacer algo muy español para sus necesidades concretas: se trata de perfeccionar un modelo para dar respuesta únicamente a la siniestralidad laboral en España, la seguridad escolar o la matrícula universitaria. “La tendencia es nuestro modelo especializado: uno legal, por ejemplo, para que también podamos aprender a hablar más con este tipo de modismos”, afirma Grandury.

Incluso si el objetivo final es crear un chat general como ChatGPT, no habrá un camino sencillo: “No voy a hacerlo”, dijo.

Puedes seguir un EL PAÍS Tecnología fr. FacebookX o haga clic aquí para recibir el nuestro boletín semanal.

Suscríbete para seguir el curso

Límites del pecado de Lee

_