1
Transición Estructural / Re:PPCC: Pisitófilos Creditófagos. Primavera 2024
« Último mensaje por Cadavre Exquis en Hoy a las 19:07:17 »Le das el link del vídeo y le pides resumen del contenido en texto... me extraña que sólo haya tardado 5 segundosCasi con toda seguridad lo que hace ChatGPT no es "verse" el vídeo, sino hacer un resumen de los subtítulos del mismo. Comprobarlo sería tan fácil como buscar un vídeo que no tenga subtítulos y pedirle a ChatGPT que haga un resumen del mismo (*).
Existen muchas páginas que permiten obtener los subtítulos de un vídeo de YouTube, una de las de toda la vida sería esta:
https://anthiago.com/desgrabador/
Quizás Grok y GPT-4o tengan una ventana de contexto suficientemente grande como para que se les pueda pasar la transcripción devuelta por esa página directamente haciendo un copy/paste.
Saludos.
Nota: como verán, los subtítulos de YouTube no incluyen signos de puntuación ni su posición en el vídeo, aunque hace no mucho viendo un vídeo de YouTube –ya no recuerdo cual–, a la derecha, en donde suelen salir las miniaturas de vídeos recomandados por "el algoritmo" (o, en vídeos en directo, en donde aparece el chat) aparecía una opción que permitía ver los subtítulos con marcas de tiempo y con signos de puntuación y era posible moverse por el vídeo pinchando en ellos con el ratón y viceversa- Supongo que en algún momento YouTube lo aplicará a todos los vídeos.
(*) No olvidemos que hace tiempo OpenAI liberó su modelo de transcripción de voz a texo llamado Whisper que arroja unos resultados muchas veces incluso superiores a los de YouTube y tiene unos requerimientos de hardware increíblemente bajos y que, además, sí que es capaz de añadir signos de puntuación a la transcripción y ubicar el texto de la transcripción en el tiempo. De hecho, se rumorea que cuando OpenAI se quedó sin texto que utilizar para entrenar modelos más grandes que GPT-4, decidieron ir a por los los vídeos de YouTube, ya que no solo les daba acceso a un corpus de texto "nuevo" gigantesco, sino que, además, les permitía entrenar modelos enfocados a la generación de vídeo como Sora.