Como investigador de IA, he entrenado un modelo de lenguaje grande en@OpenLedger ($OPEN ) con el propósito de generar artículos sobre "análisis del mercado de criptomonedas". Los datos de entrenamiento incluyen millones de artículos, informes y discusiones en comunidad. Cuando#OpenLedger el modelo genera una predicción sobre la volatilidad del precio de Bitcoin, me pregunto de qué datos de entrenamiento depende su juicio.

Si se utilizan métodos tradicionales, o bien el cálculo es demasiado lento, o bien solo se puede señalar de manera aproximada la contribución de todo el conjunto de datos, sin poder rastrear con precisión documentos o párrafos específicos. En este momento, se utiliza Infini-gram.#OpenLedger El sistema establece una correspondencia simbólica de cada palabra clave de salida del modelo con el corpus de entrenamiento, utilizando una estructura de matriz de sufijos para una comparación eficiente.

Los resultados muestran:

Cuando @OpenLedger el modelo predice "retraso a corto plazo de Bitcoin", se basa principalmente en tres artículos de análisis de mercado y un párrafo específico de una discusión en la comunidad. La influencia de cada documento se ha cuantificado, y puedo ver qué parte del texto contribuyó más a la decisión del modelo. Este proceso me permite:

  1. Verificar las decisiones del modelo: asegurar que el modelo no haya aprendido de datos sesgados;

  2. Retroalimentar a los contribuyentes de datos: cuantificar la contribución y otorgar recompensas a través de OpenLedger($OPEN );

  3. Optimizar el conjunto de datos: identificar datos de alta influencia y mejorar el rendimiento del modelo.

Para mí y mi equipo, Infini-gram no es solo tecnología, sino que hace que el valor de cada dato sea transparente. Cada juicio del modelo tiene una fuente clara y rastreable, y los contribuyentes de datos pueden recibir reconocimiento en la cadena, estableciendo así un ecosistema de IA justo y verificable.

$OPEN @OpenLedger #OpenLedger

OPEN
OPEN
--
--