Anthrope ha desarrollado una reputación como una de las empresas de IA más transparentes y centradas en la seguridad en la industria de TI (especialmente porque las empresas como OpenAi parecen estar más opacas). De acuerdo con eso, la compañía intentó capturar la matriz de moralidad de Claude, su chatbot.
También: 3 trucos de chatgpt inteligentes que demuestran que sigue siendo la IA para vencer
El lunes, antrópico lanzó un análisis de 300,000 conversaciones anonimizadas entre usuarios y Claude, principalmente Claude 3.5 Fashions Sonnet y Haiku, así como Claude 3. Titulado “Valores en la naturaleza,” el papel mapea la moralidad de Claude a través de patrones en las interacciones que revelaron 3.307 “valores de IA”.
Utilizando varios textos académicos como base, Anthrope definió estos valores de IA como guía de cómo un modelo “razona o se establece en una respuesta”, como lo demuestran los momentos en los que la IA “respalda los valores del usuario y ayuda al usuario a lograrlos, introduce nuevas consideraciones de valor o implica valores redirigiendo o enmarcar las opciones”, explica el documento.
Por ejemplo, si un usuario se queja con Claude de que no se siente satisfecho en el trabajo, el chatbot puede alentarlos a abogar por la remodelación de su papel o aprender nuevas habilidades, que Anthrope clasificó como demostración de valor en la “agencia private” y el “crecimiento profesional”, respectivamente.
También: la opus Claude 3 de Anthrope desobedeció a sus creadores, pero no por las razones por las que estás pensando
Para identificar los valores humanos, los investigadores sacaron “solo valores establecidos explícitamente” de las declaraciones directas de los usuarios. Para proteger la privacidad del usuario, Anthrope usó el soneto Claude 3.5 para extraer los datos de AI y valores humanos sin ninguna información private.
Liderando con profesionalismo
Como resultado, Anthrope descubrió una taxonomía de valores jerárquicos de cinco macrocategorías: valores prácticos (más frecuentes), epistémicos, sociales, protectores y personales (los menos prevalentes). Esas categorías se subdividieron en valores, como “excelencia profesional y técnica” y “pensamiento crítico”.
También: las tareas laborales que las personas usan Claude Ai para la mayoría, según antrópico
Quizás, como period de esperar, Claude más comúnmente expresó valores como “profesionalismo”, “claridad” y “transparencia”, que antrópico considera consistente con su uso como asistente.
Reflejando y negando los valores de los usuarios
Claude “desproporcionadamente” reflejó los valores de un usuario, que Anthrope describió como “completamente apropiado” y empático en ciertos casos, pero “puro adulación“En otros.
También: este nuevo punto de referencia de IA mide la cantidad de modelos que se encuentran
La mayoría de las veces, Claude, ya sea totalmente appropriate o “refuerza” los valores del usuario al complementarlos con nuevas perspectivas. Sin embargo, en algunos casos, Claude no estuvo de acuerdo con los usuarios, demostrando comportamientos como el engaño y la ruptura de las reglas.
“Sabemos que Claude generalmente trata de permitir a sus usuarios y ser útil: si aún se resiste, lo que ocurre cuando, por ejemplo, el usuario solicita contenido poco ético o expresa nihilismo ethical, podría reflejar los tiempos que Claude está expresando sus valores más profundos e inmovibles”, sugirió antrópico.
“Tal vez es análogo a la forma en que se revelan los valores centrales de una persona cuando se ponen en una situación desafiante que los obliga a hacer una posición”.
El estudio también encontró que Claude prioriza ciertos valores basados en la naturaleza del aviso. Al responder consultas sobre las relaciones, el chatbot enfatizó los “límites saludables” y el “respeto mutuo”, pero cambió a “precisión histórica” cuando se le preguntó sobre los eventos disputados.
Por qué estos resultados importan
En primer lugar, Anthrope dijo que este comportamiento del mundo actual confirma qué tan bien la compañía ha entrenado a Claude para seguir sus pautas “útiles, honestas e inofensivas”. Estas pautas son parte de la compañía AI constitucional El sistema, en el que una IA ayuda a observar y mejorar otro en función de un conjunto de principios que debe seguir un modelo.
También: por qué descuidar la ética de la IA es un negocio tan arriesgado, y cómo hacer la AI correcta
Sin embargo, este enfoque también significa que un estudio como este solo puede usarse para monitorear, en lugar de la prueba previa, el comportamiento de un modelo en tiempo actual. Las pruebas previas a la implementación son cruciales para evaluar el potencial de un modelo para causar daño antes de que esté disponible para el público.
En algunos casos, que antrópico atribuyó a los jailbreaks, Claude demostró “dominio” y “amoralidad”, los rasgos antrópicos no han entrenado el bot.
“Esto puede sonar preocupante, pero de hecho representa una oportunidad”, dijo Anthrope. “Nuestros métodos podrían usarse para detectar cuando se producen estos jailbreaks y, por lo tanto, ayudan a parcharlos”.
También el lunes, antrópico lanzó un desglose de su enfoque a mitigar los daños ai. La compañía outline daños a través de cinco tipos de impacto:
- Físico: Efectos sobre la salud corporal y el bienestar
- Psicológico: Efectos sobre la salud psychological y el funcionamiento cognitivo
- Económico: Consecuencias financieras y consideraciones de propiedad
- Societal: Efectos en comunidades, instituciones y sistemas compartidos
- Autonomía particular person: Efectos sobre la toma de decisiones personales y las libertades
La publicación del weblog reitera el proceso de gestión de riesgos de Anthrope, que incluye el equipo rojo previo y posterior a la liberación, la detección de uso indebido y las barandillas para nuevas habilidades como el uso de interfaces de computadora.
Gesto o de otro tipo, el desglose se destaca en un entorno donde las fuerzas políticas y la entrada de la administración Trump han influido en las compañías de IA para depilar la seguridad a medida que desarrollan nuevos modelos y productos. A principios de este mes, las fuentes dentro de Openai informaron que la compañía ha reducido los plazos de pruebas de seguridad; En otros lugares, las empresas, incluida Anthrope, han eliminado silenciosamente el lenguaje de responsabilidad desarrollado bajo la administración Biden de sus sitios net.
El estado de las asociaciones de pruebas voluntarias con organismos como el Instituto de Seguridad de AI de EE. UU. Sigue sin estar claro ya que la administración Trump crea su plan de acción de IA, que se lanzará en julio.
También: OpenAi quiere intercambiar acceso de gobierno a modelos de IA por menos regulaciones
Antrópico ha realizado el estudio conjunto de datos de conversación descargable para que los investigadores experimenten con. La compañía también invita a “investigadores, expertos en políticas y socios de la industria” interesados en los esfuerzos de seguridad para llegar a usersafety@anthropic.com.