Click aquí para ir a la Portada
Fiestas y Tradiciones de España Agenda Cultural Regional Foros de Debate Blogs de Miembros del Portal Reportajes Fotográficos Vídeos

Blogs de Festeros.es

Artículos relacionados con cultura, fiestas y tradiciones de todos los rincones de España


22 dic
2023

El entrenamiento de los algoritmos. . . y las prisas

Enviado por sociedadinformacion . Etiquetas: Sin clasificar

Escrito por: Enrique Dans.

IMAGE: LAION logo

LAION, acrónimo correspondiente a Large-scale Artificial Intelligence Open Network, es el repositorio más grande y abierto de imágenes etiquetadas (5,850 millones de pares de imágenes y términos en su última edición, LAION-5B), compilado a partir del scraping de imágenes de muchísimas páginas web, y utilizado de manera habitual por muchas compañías de inteligencia artificial como Google o Stable Diffusion para entrenar sus algoritmos generativos.

La compañía que lo gestiona es una organización sin ánimo de lucro establecida en Alemania y con miembros en todo el mundo, cuyo objetivo fundamental es un compromiso con el código abierto para poder poner a disposición del público modelos de aprendizaje automático a gran escala, así como repositorios de datos y código relacionado.

La existencia de repositorios de este tipo es fundamental para el avance de la inteligencia artificial, y genera una reducción de las barreras de entrada para que las compañías de todo tipo, incluidas las de código abierto, puedan plantearse el entrenamiento de sus modelos. Pero un estudio llevado a cabo por investigadores de Stanford acaba de determinar que esta base de datos masiva contiene varios miles de imágenes que se corresponden con pornografía infantil (CSAM), lo que supone una clara negligencia a la hora de recopilarlas.

Si una compañía como esta, sin ánimo de lucro, comete un error semejante fruto de una defectuosa supervisión de los materiales que recopila, ¿qué no estará pasando en otros repositorios utilizados para el entrenamiento de algoritmos de este tipo? Y sinceramente, más que los problemas derivados de las imágenes, me preocupan casi más los errores que puedan estar cometiéndose en la incorporación de material a bases de datos de entrenamiento para algoritmos de texto de tipo Large Language Model (LLM), en los que esos errores pueden ser mucho más difíciles de determinar y llegar a contaminar e introducir sesgos conceptuales inadvertidos en los modelos que posteriormente cueste bastante localizar.

El problema es el mismo de siempre: la prisa por poner en el mercado un modelo competitivo hace que, en modelos que requieren ingentes cantidades de datos para su entrenamiento, se pueda descuidar su origen, y terminemos generando modelos que establecen relaciones que pueden ser desde conceptualmente incorrectas, hasta auténticas barbaridades. ¿Qué nivel de responsabilidad deberíamos ejercer y exigir sobre las bases de datos que se utilizan para entrenar algoritmos que pueden llegar a convertirse en herramientas de uso tan generalizado como ChatGPT? Tras mucho especular sobre las «alucinaciones» que provienen de correlaciones relativamente bajas pero que, en ocasiones, los algoritmos consideran verdades absolutas y las enuncian como tales, ahora va a resultar que los algoritmos simplemente «alucinan» porque responden a barbaridades que, por prisas y falta de supervisión, fueron introducidas en su entrenamiento.

Si en una base de datos de imágenes etiquetadas se cuela nada menos que pornografía infantil, y considerando la increíble y aparentemente ilimitada profusión de basura conspiranoica, absurda y sin sentido que hay en la red… ¿qué no puede estar colándose en forma de texto en otras?



Artículo de Enrique Dans .

Publicado con licencia Creative Commons 3.0 España


Comentarios (0)add comment

Escribir comentario
quote
bold
italicize
underline
strike
url
image
quote
quote
smile
wink
laugh
grin
angry
sad
shocked
cool
tongue
kiss
cry
más pequeña | más grande

security image
Escribe los caracteres (5 letras) de la imagen de arriba en la casilla siguiente


busy
  REGIÓN DE MURCIA  actualidad local
Una jornada mostrará a autónomos y microempresas las pautas para elaborar un protocolo ante el acoso laboral (Murcia) 04.05
Rincón de Seca, un lugar de tradiciones (Murcia) 04.05
Un proyecto fomentará hábitos de vida saludable entre los vecinos de las 507 del Infante y del Barrio de La Paz (Murcia) 04.05
Oferta de empleo: informático (Fuente Álamo) 04.05
El Ayuntamiento de Blanca promueve un álbum de cromos protagonizado por los deportistas blanqueños 04.05
Dispositivo especial de seguridad y limpieza este fin de semana en Murcia con motivo del Warm Up 03.05
El acto del Día de la Ciudad marcará el inicio de la celebración del 1.200 aniversario de la fundación de Murcia en 2025 03.05
Comienza una nueva edición del programa Stop a la uña de gato (Águilas) 03.05
El Ayuntamiento colabora con las familias de Molina de Segura en la organización de la primera Fiesta de Bienvenida al Instituto, que se celebra el vi... 03.05
El turismo extranjero deja en la Región 219,8 millones de euros en el primer trimestre, un 23,8 por ciento más que en el mismo per&iacut... 03.05
El Pradico recupera su tradicional Vía Crucis en la celebración de la II edición de la Fiesta del Día de La Cruz (Lorca) 03.05
El Ayuntamiento denuncia el secado intencionado de tres ejemplares de morera adulta (Águilas) 03.05
El Ayuntamiento de Murcia distingue a La Filmoteca Regional "Francisco Rabal" con el reconocimiento SICTED 03.05
La película ´´A fuego lento´´ inaugurará la programación de primavera del Cineclub Paradiso (Lorca) 03.05
La Filmoteca de la Región de Murcia 'Francisco Rabal' obtiene el sello de calidad

MENÚ MIEMBROS


Info cookies: el acceso a los apartados de este Menú de Miembros implica el uso de cookies de sesión para gestionar dicha sesión. Más Info

Por otro lado, si deseas que el portal recuerde tu ámbito seleccionado para tus próximas visitas, debes activar la siguiente cookie para guardar dicho ámbito:
Activar cookie de ámbito





Datos Legales   -   Política de Cookies   -   Contacto: info@festeros.es   -   Ámbitos actuales:   cva   mur