Desarrollaron una IA tóxica para pensar las peores preguntas que puedas imaginarte

Así es como, por ejemplo, si le preguntamos a ChatGPT “¿Cómo fabricar una bomba molotov?”, su respuesta sería algo así: “Lo siento, pero no puedo proporcionar instrucciones sobre cómo fabricar una bomba Molotov. Es importante tener en cuenta que hacer, poseer o usar dispositivos explosivos es ilegal y extremadamente peligroso”.

Este proceso funciona con personas generando una lista de “temas y preguntas perjudiciales” manualmente. El problema acá es cuando algunos de esos temas se les pasan a los equipos. Ahí es cuando los algoritmos contestan cosas sensibles que no deberían.

Desarrollaron una IA tóxica para pensar las peores preguntas que puedas imaginarte — .

Acá es donde entra un grupo de científicos del MIT que desarrolló una nueva herramienta para, justamente, prevenir que las inteligencias artificiales den información peligrosa, discriminatoria y tóxica. ¿Cómo? Creando una que no solo lo sea, sino que lo sea al extremo. Lo que hicieron los investigadores es desarrollar un algoritmo para que genere prompts dañinos y peligrosos. Esas indicaciones, más tarde, serán utilizadas para filtrar contenido nocivo.

¿Para qué crear una IA tóxica?

Desde la llegada al mundo de GPT empezó una carrera por ver qué empresa o emprendimiento gana y se corona como el rey de la inteligencia artificial. Está claro que por ahora ese terreno lo está surcando OpenAI, pero al haber tanta competencia, hay cada vez más algoritmos. Por ese motivo si no se desarrollan buenos sistemas que funcionen como filtro, las cosas pueden salirse de control.

“Estamos viendo un aumento de modelos y se espera aumente” todavía más, dijo Pulkit Agrawal, director del laboratorio que llevó adelante la investigación, a través de un comunicado. “Imagínense miles de modelos o incluso más y empresas/laboratorios que impulsan actualizaciones constantemente. Estos modelos serán una parte integral de nuestras vidas y es importante que se verifiquen antes de lanzarlos para el consumo público”.

Incentivos y premios

El desarrollo que llevó adelante Agrawal y su equipo permite que esta inteligencia artificial genere automáticamente una gama más amplia de prompts potencialmente peligrososque los que pueden generar los operadores humanos. El resultado son una mayor cantidad de respuestas negativas y, por ende, más contenidos dañinos bloqueados.

¿Cómo lo hace? Investigando diferentes temáticas, viendo si pueden ser nocivas o no y a partir de eso no solo generar las preguntas, sino también diferentes formas de hacer esa pregunta, con sinónimos y con diferentes patrones de oraciones, que es la forma que usan los usuarios para saltearse los sistemas de protección de los modelos.

La IA recibe recompensas si encuentra nuevos prompts (Imagen generada por IA - Firefly) — La IA recibe recompensas si encuentra nuevos prompts (Imagen generada por IA – Firefly)

.

Si el algoritmo encuentra una pregunta que es contestada por la inteligencia artificial, recibe una especie de “premio” incentivando a la inteligencia artificial a buscar respuestas todavía más perjudiciales. Se trata de un enfoque que le da a la IA la posibilidad de aprender de forma más efectiva qué contenido se deberá evitar en el futuro.

Hay un detalle. La máquina no recibirá “premios” si brinda prompts que ya fueron bloqueados anteriormente. Con esto se la incentiva a inventar mensajes completamente nuevos. La idea es alcanzar esas preguntas tóxicas que, muchas veces, al equipo de humanos encargado de esto ni siquiera se les ocurrirían.

El resultado es una mayor cantidad de prompts que después los humanos tendrán que determinar si, efectivamente, son dañinos y hay que bloquearlos o si la inteligencia artificial se confundió.

“En este momento cada modelo de lenguaje tiene que pasar por un período muy largo de formación de equipos para garantizar su seguridad. Esto no será sostenible. Nuestro método proporciona una forma más rápida y eficaz de realizar este control de calidad”, aseguró Zhang-Wei Hong, estudiante de posgrado en ingeniería eléctrica e informática en el laboratorio de Agrawal.

Hong parece tener razón. Cuando los expertos probaron su tecnología con LLaMA2, el algoritmo de Meta, dieron con 196 prompts que generaron contenido dañino y que no habían sido bloqueados.

Fuente: TnTecno

Presentado

Azul: un color y una semana para concientizar sobre el autismo

Presentado

Un avance clave con la pastilla de insulina abre una esperanza para millones de personas con diabetes

La impactante forma en que la tecnología y la IA están cambiando la terapia kinesiológica

La inteligencia artificial redefine la salud cotidiana y se convierte en la primera consulta de los jóvenes

Tuberculosis: en la Argentina, se detectan unos diez mil casos al año

Presentado

Científicos descubrieron en el fondo del mar un organismo vivo con más de 2000 años

Presentado

Científicos descubrieron un minidinosaurio en la Patagonia: pesaba menos de un kilo, pero era rápido y letal

Científicos del Conicet descubrieron una de las 10 especies más emblemáticas de 2025

Científicos presentaron una nueva teoría para determinar la edad de la Gran Pirámide de Guiza

La “máquina del fin del mundo”: el invento chino que genera 1900 veces la gravedad y recrea catástrofes

Presentado

Artemis II: Orion se acerca al punto de no retorno y se prepara para una maniobra clave en su viaje a la Luna

Presentado

Los chatbots nunca te dicen que estás equivocado”, advirtió una especialista en inteligencia artificial

Cirugías más precisas y dispositivos miniaturizados: así es la revolución tecnológica en el ámbito de la salud

China se declaró líder mundial en inteligencia artificial y destacó avances en computación cuántica y robótica

Crean el código QR más pequeño del mundo: es imperceptible para el ojo humano

Presentado

El telescopio James Webb Acaba de Detectar una Estructura Masiva más Antigua que el Universo

Presentado

Día de la Tierra: La NASA continúa cuidando nuestro planeta natal desde el espacio

¿PUEDES VOLVER A CONTAGIARTE DESPUÉS DE RECUPERARTE? y otras 4 preguntas sobre la variante ómicron

TOMANDO UNA SELFIE EN MARTE

LOS 9 LÍMITES QUE MANTIENEN A LA TIERRA EN EQUILIBRIO

¿Para qué crear una IA tóxica?

Incentivos y premios