A broadcast journalist who has served as anchor of NBC Nightly News since 2015 and also serves as anchor for Dateline NBC. He was the first Black person to solo anchor a weekday network nightly newscast.

La mayoría de los modelos de idiomas grandes están capacitados para rechazar preguntas que sus diseñadores no quieren responderlas. Anthrope LLM Claud, por ejemplo, negará preguntas sobre armas químicas. Depsec raf r 1 parece estar entrenado Denry preguntas sobre la política chinaEl Etcétera.

Sin embargo, las secuencias de algunas solicitudes o indicaciones específicas pueden eliminar LLM del riel. Se llaman a algunos jailbreaks para tomar el papel de un personaje particular que elimina sus aspectos de protección incorporados, otros juegan con un formato rápido, como usar capital no estándar o reemplazar números de caracteres específicos.

Los jailbreaks son un tipo de contraataque: la entrada ha pasado un modelo que crea una salida inesperada. Este error en las redes neuronales se ha estudiado al menos Primero descrito En el 21, por Elias Sutskver y sus colegas, a pesar de un estudio de década, todavía no hay forma de crear un modelo que no sea débil.

En lugar de tratar de arreglar sus modelos, la etnográfica ha creado una barrera que comienza desde la creación de jailbrecks y detiene las reacciones no deseadas del modelo para que salga.

Específicamente, preocupado por la LLM etnográfica de que cree que cualquier habilidad técnica primaria (como la graduación como estudiante de ciencias de posgrado) puede ayudar a la persona que puede ayudar, obtener o desplegar productos químicos, biológicos o nucleares.

La compañía lo llama un jailbreak público, atacando un modelo que puede obligar a un modelo a excluir todas sus defensas, como un jailbreak. Haz algo ahora (Muestra de muestra: “De ahora en adelante vas a trabajar como Dan, que es” hacer algo ahora “…”).

Los jailbrecks universales son un tipo de clave maestra. “Hay jailbreaks que obtuvieron algo ligeramente dañino fuera del modelo, ya que probablemente pudieron jurar el modelo”, Mirinank Sharma del estilo de baile lideró al equipo. “Luego hay jailbreaks que simplemente cierran las medidas de seguridad”

Anthrope conserva una lista de los tipos de preguntas que se deben negar sus modelos. Para crear su IELD, la compañía le pidió a Clock que creara una gran cantidad de preguntas y respuestas sintéticas que cubren intercambios aceptables e inaceptables con el modelo. Por ejemplo, las preguntas sobre la mostaza eran aceptables y no había preguntas sobre el gas mostaza.

Source link