Black Forest Labs, una companyia formada per antics enginyers de Stability AI, han creat Flux.1 una eina de generació d'imatges amb intel·ligència artificial (IA) a partir de textos, que està revolucionant el sector. Es tracta d'un potent model d'IA de text a imatge de codi font obert que busca ampliar els límits de la creativitat, eficiència i diversitat en la generació d'imatges.

El sistema capaç de generar imatges fotorrealistas partint de descripcions en llenguatge natural està demostrant que treu el màxim rendiment als algoritmes i genera imatges d'alta resolució i definició de detalls de forma més precisa. I destaca per una de les seves característiques: la seva capacitat per escriure textos dins de la mateixa il·lustració generada, cosa que implica un salt en la qualitat de generació d'imatges.

El projecte l'ha desenvolupat l'equip de Black Forest Labs, al capdavant del qual hi ha els enginyers Robin Rombach, Andreas Blattmann i Dominik Lorenz, que provenen de Stabilty AI, i coneguts com a desenvolupadors dels models de Stable Diffusion, un motor d'intel·ligència artificial dissenyat per crear imatges a partir de text (Stable Diffusion XL, Stable Video Diffusion, Rectified Flow Transformers). A l'equip s'ha unit Patrick Esser. "Creiem que la IA generativa serà un component fonamental de totes les tecnologies futures. En posar els nostres models a disposició d'una àmplia audiència, volem portar els seus beneficis a tots, educar el públic i millorar la confiança en la seguretat d'aquests models. Estem decidits a construir l'estàndard de la indústria per als mitjans generatius", asseguren els seus impulsors.

També de text a vídeo

L'eina Flux.1 ha irromput en un mercat altament competitiu i està demostrant la seva profunda comprensió del llenguatge, amb què pot entendre i interpreta les descripcions més complexes i les converteix en creacions detallades i coherents. Molts usuaris estan començant a crear imatges per després utilitzar-les com a punt de partida en la generació de vídeos. De fet, aquest serà el pròxim pas que farà l'equip de Black Forest Labs, que ja ha anunciat els seus plans per desenvolupar un conjunt de sistemes generatius de text a vídeo, mitjançant un programa que, de moment, ha batejat amb el nom Sota.

"Creiem fermament que els models d'accés generalitzat no només fomenten la innovació i la col·laboració en la comunitat d'investigació i el món acadèmic, sinó que també augmenten la transparència, que és essencial per a la confiança i l'adopció generalitzada. El nostre equip s'esforça per desenvolupar tecnologia de la més alta qualitat i fer-la accessible a l'audiència més gran possible", determina l'estratègia de Black Forest Labs.

31 milions de finançament

El desenvolupament i distribució de Flux.1 ha estat possible gracias al tancament d'una ronda finançament inicial per 31 milions de dòlars (28,44 milions d'euros) per part d'Andreessen Horowitz, principal inversor de Black Forest Labs, i diversos business angels, com Brendan Iribe, Michael Ovitz, Garry Tan, Timo Aila i Vladlen Koltun. Així mateix, l'equip ha rebut inversions de seguiment de General Catalyst i MätchVC.

Black Forest Labs té per objectiu desenvolupar i promoure models d'aprenentatge profund generatiu d'última generació per a diverses formes de mitjans, com imatges i vídeos, i ampliar els límits de la creativitat, l'eficiència i la diversitat.

Diverses versions

L'eina s'ha presentat en tres versions. Flux.1 PRO per a professionals i empreses, Flux.1 DEV per a desenvolupadors, i Flux.1 SCHNELL per a usuaris particulars. La versió PRO proporciona un rendiment d'avantguarda amb un seguiment de prompts (instrucció, pregunta o un text que s'utilitza per interactuar amb sistemes d'intel·ligència artificial) de primer nivell i qualitat d'imatge, disponible a través del seu API i socis selectes. La versió DEV és un model de pesos oberts i guiat per a ús no comercial, oferint capacitats similars a la versió PRO, però de manera més eficient. La versió SCHNELL és la més ràpida, adaptada per a desenvolupament local i ús personal sota una llicència Apatxa 2.0. Totes les variants es poden accedir a través de diverses plataformes com Replicate i fal.ai, amb codi de codi font obert disponible en GitHub per a les versions DEV i SCHNELL, segons informa Computer Avui.