El último informe de la empresa de inteligencia artificial proporciona más información sobre cómo detecta el uso indebido de sus chatbots.

por Bruce Gil

El último informe de OpenAI sobre el uso malicioso de la IA pone de relieve el delicado equilibrio que deben mantener las empresas de IA entre prevenir el uso indebido de sus chatbots y asegurar a los usuarios que se respeta su privacidad.

El informe , publicado hoy, destaca varios casos en los que OpenAI investigó e interrumpió actividades perjudiciales relacionadas con sus modelos, centrándose en estafas, ciberataques y campañas de influencia gubernamentales. Sin embargo, llega en medio de un creciente escrutinio sobre otro tipo de riesgo de la IA: los posibles daños psicológicos de los chatbots. Solo este año se han registrado varios informes de usuarios que cometieron actos de autolesión, suicidio y homicidio tras interactuar con modelos de IA. Este nuevo informe, junto con las divulgaciones previas de la compañía, proporciona información adicional sobre cómo OpenAI modera los chats para detectar diferentes tipos de uso indebido.

OpenAI afirmó que, desde que comenzó a reportar amenazas públicas en febrero de 2024, ha interrumpido y reportado más de 40 redes que infringían sus políticas de uso. En el informe de hoy, la compañía compartió nuevos casos de estudio del último trimestre y detalles sobre cómo detecta e interrumpe el uso malicioso de sus modelos.

Por ejemplo, la empresa identificó una red de crimen organizado, presuntamente con sede en Camboya, que intentó usar IA para optimizar sus flujos de trabajo. Además, una operación de influencia política rusa presuntamente utilizó ChatGPT para generar indicaciones de video para otros modelos de IA. OpenAI también detectó cuentas vinculadas al gobierno chino que infringían sus políticas de seguridad nacional, incluyendo solicitudes para generar propuestas para sistemas a gran escala diseñados para monitorear conversaciones en redes sociales.

La compañía ha declarado previamente, incluso en su política de privacidad, que utiliza datos personales, como las solicitudes de los usuarios, para prevenir fraudes, actividades ilegales o el uso indebido de sus servicios. OpenAI también ha indicado que utiliza sistemas automatizados y revisores humanos para supervisar la actividad. Sin embargo, en el informe de hoy, la compañía ofreció información más detallada sobre su proceso de pensamiento para prevenir el uso indebido y, al mismo tiempo, proteger a los usuarios de forma más amplia.

“Para detectar e interrumpir las amenazas de manera efectiva sin interrumpir el trabajo de los usuarios cotidianos, empleamos un enfoque matizado e informado que se centra en los patrones de comportamiento de los actores de amenazas en lugar de interacciones de modelos aislados”, escribió la compañía en el informe.

Si bien monitorear las brechas de seguridad nacional es una cosa, la compañía también explicó recientemente cómo aborda el uso perjudicial de sus modelos por parte de usuarios que experimentan angustia emocional o mental. Hace poco más de un mes, la compañía publicó una entrada de blog que detallaba cómo gestiona este tipo de situaciones. La publicación surgió en medio de la cobertura mediática de incidentes violentos presuntamente relacionados con las interacciones de ChatGPT, incluyendo un asesinato-suicidio en Connecticut.

La compañía dijo que cuando los usuarios escriben que quieren hacerse daño, ChatGPT está entrenado para no obedecer y, en cambio, reconocer los sentimientos del usuario y orientarlo hacia ayuda y recursos del mundo real.

Cuando la IA detecta que alguien planea dañar a otros, las conversaciones se marcan para su revisión. Si un revisor determina que la persona representa una amenaza inminente, puede denunciarla a las autoridades.

OpenAI también reconoció que el rendimiento de seguridad de su modelo puede degradarse durante interacciones más prolongadas del usuario y dijo que ya está trabajando para mejorar sus protecciones.

Fuente: https://gizmodo.com/openai-gives-us-a-glimpse-of-how-it-monitors-for-misuse-on-chatgpt-2000669012

Deja una respuesta