Hoy es Miércoles 02 de Noviembre de 2022 y hoy hablaremos de proyectos.
AlphaFold2 Replication
AlphaFold2 es un algoritmo de aprendizaje profundo que aprovecha técnicas originadas en el procesamiento del lenguaje natural para hacer predicciones de estructuras de proteínas.
Fue anunciado por DeepMind en 2020 en la competición CASP 14, donde dejó boquiabierta a la competencia con su rendimiento.
CLASP
Recientemente los modelos contrastivos multimodales han tenido una explosión de potencia y popularidad, por ejemplo, ConVIRT, CLIP y ALIGN.
En este proyecto aplicamos una configuración similar, pero utilizamos secuencias de aminoácidos y su descripción lingüística como datos de entrenamiento procedentes del Universal Protein Resource (UniProt), una base de datos de proteínas anotada. El objetivo es crear un modelo que pueda ser utilizado como otros modelos tipo CLIP pero para secuencias de aminoácidos y texto.
OpenWebText2
WebText es un conjunto de datos de Internet creado a partir de URL extraídas de envíos de Reddit con una puntuación mínima de 3 como indicador de calidad. Se recopiló para entrenar el GPT-2 original y nunca se hizo público, pero los investigadores reprodujeron de forma independiente el proceso y publicaron el conjunto de datos resultante, llamado OpenWebTextCorpus (OWT)
The Pile
The Pile es un conjunto de datos de modelado lingüístico de código abierto, grande y diverso, que consta de muchos conjuntos de datos más pequeños combinados entre sí. El objetivo es obtener texto de tantas modalidades como sea posible para garantizar que los modelos entrenados con The Pile tengan una capacidad de generalización mucho más amplia.
PT-NeoX
GPT-NeoX es una implementación de modelos lingüísticos autorregresivos tipo GPT-3 en paralelo para GPUs distribuidas, basada en Megatron-LM y DeepSpeed.
GPT-NeoX se utilizó para entrenar GPT-NeoX-20B, un modelo de lenguaje de 20 mil millones de parámetros, en colaboración con CoreWeave. Anunciado el 2 de febrero de 2022 y publicado en The Eye junto con un informe técnico preliminar una semana después, se convirtió en el mayor modelo lingüístico autorregresivo denso jamás puesto a disposición del público en el momento de su publicación.
LAION
DATASETS
LAION-400M, LAION5B, Laion-coco, LAION5B High-Res
Un subconjunto de la base de datos LAION5B, con imágenes de alta resolución superiores a 1024×1024, que contiene 170 millones de muestras.
LAION-3D
Un esfuerzo por crear un conjunto de datos a gran escala compuesto por modelos 3D y pares de descriptores.
DreamStudio
una de las implementaciones comerciales de Stable Diffusion, la implementación de Stabiliti.AI para ser exactos, y este no es gratis por que pone infraestructura GPU
OPENBIOML
una nueva comunidad enfocada en el desarrollo abierto de inteligencia artificial para biología
Harmonai
Una organización impulsada por la comunidad que libera herramientas de audio generativo de código abierto para que la producción musical sea más accesible y divertida para todos
CarperAI
CARP
Los relatos escritos acompañados de críticas son una buena fuente de datos para el aprendizaje de preferencias. Las críticas pueden ser una medida muy rica en información para medir las preferencias sobre el contenido de las historias.
CARP-CoOp
La dirección en la que querían avanzar después de CARP era utilizar sus puntuaciones de similitud para guiar la generación de textos con preferencias.
CHEESE
Recoger las preferencias humanas sobre los contenidos generados por máquinas a escala es difícil.
TRLX
Normalmente, cuando se quiere adaptar un modelo generativo preentrenado (es decir, un modelo lingüístico que produce contenido textual), se necesita un conjunto de datos amplio y conciso para ponerlo a punto.