The Matrix-ögonblicket – HumanOrbit använder videofusion för 3D-rekonstruktion

Breaking News Teknik
A 3D holographic human figure projecting upward from a flat photograph on a sleek dark desk surface.
4K Quality
Forskare har presenterat HumanOrbit, en banbrytande videodiffusionsmodell som kan syntetisera en sömlös och geometriskt konsekvent 360-graders bana runt en person utifrån endast en bild. Genom att utnyttja videobaserad tidsmässig koherens undviker systemet de anatomiska distorsioner som är vanliga vid traditionell flervyssyntes, vilket möjliggör 3D-rekonstruktioner med hög detaljrikedom.

HumanOrbit representerar ett betydande avsteg från traditionell 3D-rekonstruktion genom att använda en fusion av videodiffusionstekniker för att syntetisera kontinuerliga 360-gradersvyer från en enda bild. Medan konventionella metoder förlitar sig på statisk multivysyntes som ofta resulterar i anatomiska distorsioner, utnyttjar HumanOrbit temporal koherens för att säkerställa att subjektets identitet, klädtexturer och fysiska proportioner förblir stabila ur alla vinklar. Ramverket, som utvecklats av forskarna Lei Wang, Peng Liu och Bang Du, överbryggar effektivt klyftan mellan 2D-generativ AI och 3D-modellering med hög precision.

Hur skiljer sig HumanOrbit från andra metoder för 3D-rekonstruktion av människor?

HumanOrbit skiljer sig från befintliga metoder för 3D-rekonstruktion av människor genom att flytta fokus från generering av enskilda bilder till kontinuerlig videobaserad omloppsgenerering. Traditionella ramverk drabbas ofta av "identitetsdrift", där en persons drag förändras när kameran rör sig. Genom att använda en videodiffusionsmodell säkerställer HumanOrbit att varje bildruta i en 360-graders rotation är fysiskt och geometriskt konsekvent med det ursprungliga ingångsfotot.

Den främsta utmaningen inom 3D-rekonstruktion av människor har länge varit "hallucinering" av drag. När en AI försöker förutsäga hur baksidan av en person ser ut baserat på enbart ett foto framifrån, genererar den ofta inkonsekvent geometri eller suddiga texturer. Nuvarande ledande modeller anpassar vanligtvis bildbaserad diffusion för multivysyntes, men dessa saknar ofta den strukturella stringens som krävs för digitala tvillingar av professionell kvalitet. Den fusion av temporala data som sker inom HumanOrbit gör att systemet kan behandla kamerans bana som en logisk progression, vilket förhindrar de ryckiga övergångar som är vanliga vid syntes av enstaka bildrutor.

Den tekniska grunden för HumanOrbit vilar på dess förmåga att bibehålla geometrisk konsistens. Genom att simulera en kamera som kretsar kring subjektet bevarar modellen det spatiala förhållandet mellan olika kroppsdelar. Detta förhindrar vanliga fel som att lemmar ändrar form eller att klädmönster skiftar onaturligt under rotationen. Resultatet är en sömlös övergång mellan vyer som fungerar som en tillförlitlig ritning för att skapa en tredimensionell tillgång.

Vilka är fördelarna med att använda videodiffusionsmodeller för multivysyntes?

Den främsta fördelen med att använda videodiffusionsmodeller för multivysyntes är den inneboende temporala koherensen som stabiliserar visuella drag över olika perspektiv. Till skillnad från statiska modeller bibehåller videodiffusion ett "minne" av tidigare bildrutor, vilket säkerställer att fina detaljer som tygveck och ansiktsdrag förblir identiska. Detta tillvägagångssätt resulterar i 3D-modeller med hög detaljrikedom och överlägsen fullständighet jämfört med bildbaserade baslinjer.

Inom området datorseende (Computer Vision) har videodiffusionsmodeller visat en unik förmåga att generera fotorealistiska resultat som strikt följer en given prompt eller referensbild. HumanOrbit drar nytta av detta genom att behandla 360-gradersomloppet som en filmsekvens. Denna metod möjliggör en mer naturlig fusion av perspektiv, där AI:n förstår den mänskliga kroppens 3D-volym snarare än att bara förutsäga en serie platta bilder. Fördelarna inkluderar:

  • Temporal stabilitet: Eliminerar flimmer och förvrängningar mellan olika betraktningsvinklar.
  • Bevarande av identitet: Säkerställer att den "digitala tvillingen" förblir igenkännbar som den specifika individen i källfotot.
  • Hög upplösning: Stöder generering av intrikata texturer och kläddetaljer som ofta går förlorade i modellering med lägre dimensioner.
  • Automatiserat arbetsflöde: Minskar behovet av manuell efterbehandling genom att producera geometriskt korrekta initiala bildrutor.

Kan HumanOrbit användas för virtuell provning eller modeapplikationer?

HumanOrbit är exceptionellt väl lämpad för virtuell provning och modeapplikationer tack vare sin förmåga att generera högupplösta texturerade meshar från ett enda fotografi. Genom att producera en konsekvent 360-gradersvy gör modellen det möjligt för återförsäljare att skapa digitala tvillingar av kunder eller plagg. Detta gör det möjligt för användare att visualisera hur kläder faller och passar från alla möjliga vinklar i en Virtual Reality-miljö.

Forskarna, däribland Lei Wang och kollegor, framhåller att de genererade multivybilderna matas in i en specialiserad rekonstruktionspipeline. Denna pipeline omvandlar videodata till en texturerad mesh, vilket är standardformatet för 3D-tillgångar inom e-handel och gaming. I ett detaljhandelssammanhang innebär detta att en kund kan ladda upp ett foto och omedelbart se en 3D-avatar av sig själv bära en ny kollektion, komplett med korrekta representationer av tygets textur och passform.

Utöver mode är implikationerna för generativ AI inom underhållning betydande. Karaktärsskapare för videospel och filmiska visuella effekter kräver ofta timmar av manuellt arbete för att förvandla en konceptskiss till en 3D-modell. HumanOrbit effektiviserar detta genom att tillhandahålla en startpunkt med hög precision som bevarar den ursprungliga konstnärliga intentionen. Denna fusion av hastighet och precision representerar ett stort steg framåt för automatiserat skapande av 3D-innehåll.

Framtiden för högupplöst 3D-rekonstruktion

Inför framtiden siktar forskarteamet på att förfina HumanOrbit-ramverket för att hantera ännu mer komplexa poser och varierande ljusförhållanden. Medan den nuvarande modellen utmärker sig vid stående subjekt, kan framtida iterationer inkludera dynamiska rörelser, vilket möjliggör rekonstruktion av människor i rörelse. I takt med att datorseende fortsätter att utvecklas kommer verktyg som HumanOrbit sannolikt att bli grundläggande i utvecklingen av metaversum och avancerad telepresence-teknik.

De experimentella resultaten av studien validerar att HumanOrbit överträffar nuvarande toppmoderna baslinjer i både visuell kvalitet och strukturell noggrannhet. Genom att prioritera fusionen av videokoherens med 3D-geometri har Lei Wang, Peng Liu och Bang Du tillhandahållit en robust lösning på ett av de mest ihållande problemen inom AI-drivet innehållsskapande: att göra övergången från en platt bild till en levande digital dubbelgångare.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q Hur skiljer sig HumanOrbit från andra metoder för 3D-rekonstruktion av människor?
A Sökresultaten nämner inte HumanOrbit eller jämför det direkt med andra metoder för 3D-rekonstruktion av människor. Tillgänglig information fokuserar på ramverk som TwinOR för digitala tvillingar av operationssalar och generella mänskliga digitala tvillingar (HDTs) som modellerar fysiologiska och psykologiska faktorer. Utan specifika detaljer om HumanOrbit kan dess skillnader inte fastställas utifrån det tillhandahållna sammanhanget.
Q Vilka är fördelarna med att använda videodiffusionsmodeller för multivysyntes?
A Sökresultaten refererar inte till videodiffusionsmodeller eller deras användning i multivysyntes. Diskussionerna fokuserar på digitala tvillingar för förkroppsligad AI (embodied AI), såsom TwinOR:s rekonstruktion av statiska och dynamiska element i operationssalar, men saknar specifika uppgifter om diffusionsmodeller. Fördelar i detta sammanhang förblir oadresserade.
Q Kan HumanOrbit användas för virtuell provning eller modeapplikationer?
A De tillhandahållna sökresultaten diskuterar inte HumanOrbits tillämpbarhet på virtuell provning eller modeapplikationer. Innehållet täcker digitala tvillingar i medicinska sammanhang och sammanhang för förkroppsligad AI, som HDTs för hälsoövervakning och TwinOR för kirurgiska simuleringar, utan att nämna moderelaterade användningsområden. Lämplighet för sådana applikationer stöds inte av data.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!