Gemma 3 vs Minicpm vs Qwen 2.5 VL

Prezantim
Modelet në gjuhën e vizionit (VLM) po bëhen me shpejtësi thelbi i shumë aplikacioneve gjeneruese të AI, nga chatbots multimodale dhe sisteme agjentësh deri tek mjetet e automatizuara të analizës së përmbajtjes. Ndërsa modelet me burim të hapur piqen, ato ofrojnë alternativa premtuese për sistemet e pronarit, duke u mundësuar zhvilluesve dhe ndërmarrjeve të ndërtojnë zgjidhje me kosto efektive, të shkallëzueshme dhe të personalizueshme të AI.
Sidoqoftë, numri në rritje i VLMS paraqet një dilemë të zakonshme: Si e zgjidhni modelin e duhur për rastin tuaj të përdorimit? Shpesh është një veprim balancues midis cilësisë së daljes, latencës, xhiros, gjatësisë së kontekstit dhe kostos së infrastrukturës.
Ky blog synon të thjeshtojë procesin e vendimmarrjes duke siguruar standarde të hollësishme dhe përshkrime të modelit për tre VLM me burim të hapur: GEMMA-3-4B, MINICPM-O 2.6, dhe QWEN2.5-VL-7B-instruksion. Të gjitha standardet u ekzekutuan duke përdorur orkestrimin e llogaritjes së Clarifai, motorin tonë të konkluzionit, për të siguruar kushte të qëndrueshme dhe krahasime të besueshme në të gjitha modelet.
Para se të zhyteni në rezultate, këtu është një ndarje e shpejtë e metrikës kryesore të përdorura në standardet. Të gjitha rezultatet u krijuan duke përdorur orkestrimin e llogaritjes së Clarifai në GPU -të NVIDIA L40S, me shenjat e hyrjes të vendosura 500 dhe shenjat e daljes të vendosura në 150.
- Vonesa për shenjë: Kohën që duhet për të gjeneruar çdo shenjë daljeje. Vonesa më e ulët nënkupton përgjigje më të shpejta, veçanërisht të rëndësishme për përvojat e ngjashme me bisedën.
- Koha për në shenjën e parë (TTFT): Masat se sa shpejt modeli gjeneron shenjën e parë pas marrjes së hyrjes. Ndikon në reagimin e perceptuar në detyrat e gjenerimit të transmetimit.
- Xhiros në fund në fund: Numri i shenjave që modeli mund të gjenerojë për sekondë për një kërkesë të vetme, duke marrë parasysh kohën e përpunimit të kërkesës së plotë. Rrjedha më e lartë nga fundi në fund do të thotë që modeli mund të gjenerojë në mënyrë efikase dalje duke mbajtur vonesën e ulët.
-
Xhiroja e përgjithshme: Numri i përgjithshëm i shenjave të krijuara për sekondë në të gjitha kërkesat e njëkohshme. Kjo pasqyron aftësinë e modelit për të shkallëzuar dhe ruajtur performancën nën ngarkesë.
Tani, le të zhyten në detajet e secilit model, duke filluar me Gemma-3-4b.
Gemma3-4b
GEMMA-3-4B, pjesë e familjes më të fundit të Google GEMMA 3 të modeleve të hapura multimodale, është krijuar për të trajtuar inputet e tekstit dhe imazhit, duke prodhuar përgjigje koherente dhe kontekstualisht të pasura me tekst. Me mbështetje për deri në 128k Tokens Context, 140+ gjuhëdhe detyra si gjenerimi i tekstit, mirëkuptimi i imazhit, arsyetimi dhe përmbledhja, është ndërtuar për aplikime të shkallës së prodhimit në raste të ndryshme të përdorimit.
Përmbledhje e Benchmark: Performanca në GPU L40S
GEMMA-3-4B vazhdon të tregojë performancë të fortë në të dy detyrat e tekstit dhe të imazhit, me sjellje të vazhdueshme nën nivele të ndryshme të njëkohshme. Të gjitha standardet u ekzekutuan duke përdorur Clarifai Llogaritni orkestrimin me madhësinë e hyrjes prej 500 shenjat dhe madhësinë e daljes prej 150 shenjat. GEMMA-3-4B është optimizuar për përpunimin e tekstit me latencë të ulët dhe merret me inputet e imazhit deri në 512px me xhiros të qëndrueshme në të gjithë nivelet e konkurencës.
Pikat kryesore të performancës së tekstit:
-
Vonesa për shenjë: 0.022 sek (1 kërkesë e njëkohshme)
-
Koha për në shenjën e parë (TTFT): 0.135 sekondë
-
Xhiros në fund në fund: 202.25 Token/sekondë
-
Kërkesat për minutë (rpm): Deri në 329.90 në 32 kërkesa të njëkohshme
-
Xhiroja e përgjithshme: 942.57 Tokens/Sek në 32 Concurrency
Performanca multimodale (imazhi + teksti) (xhiroja e përgjithshme):
-
256px Imazhe: 718.63 Tokens/Sec, 252.16 RPM në 32 Concurrency
-
512px Imazhe: 688.21 Tokens/Sec, 242.04 rpm
Peshoret me njëkohësi (xhiros nga fundi në fund):
-
Në 2 kërkesa të njëkohshme:
-
Në 8 kërkesa të njëkohshme:
-
Në 16 kërkesa të njëkohshme:
-
Në 32 kërkesa të njëkohshme:
Pasqyrë e përgjithshme:
GEMMA-3-4B siguron një performancë të shpejtë dhe të besueshme për detyrat e gjuhës së shikimit të rëndë dhe të strukturuar. Për inputet e mëdha të imazhit (512px), performanca mbetet e qëndrueshme, por mund t’ju duhet të shkallëzoni burimet e llogaritjes për të ruajtur latente të ulët dhe xhiros të lartë.
Nëse jeni duke vlerësuar performancën e GPU për t’i shërbyer këtij modeli, ne kemi botuar një krahasim të veçantë të A10 vs. L40duke ju ndihmuar të zgjidhni pajisjen më të mirë për nevojat tuaja.
Minicpm-o 2.6
MiniCPM-O 2.6 paraqet një kërcim të madh në LLM multimodal të anës fundore. Ai zgjeron modalitetet e hyrjes në imazhe, video, audio dhe tekst, duke ofruar bisedë në të folur në kohë reale dhe mbështetje multimodale të transmetimit.
Me një arkitekturë që integron Siglip-400M, Whisper-Medium-300M, Chattts-200M dhe QWEN2.5-7B, modeli krenohet me gjithsej 8 miliardë parametra. MiniCPM-O-2.6 demonstron përmirësime të konsiderueshme mbi paraardhësit e tij, MiniCPM-V 2.6, dhe prezanton biseda në të folur në kohë reale, transmetim multimodal të drejtpërdrejtë dhe efikasitet superior në përpunimin e shenjave.
Përmbledhje e Benchmark: Performanca në GPU L40S
Të gjitha standardet u ekzekutuan duke përdorur orkestrimin e llogaritjes së Clarifai me madhësinë e hyrjes prej 500 shenjat dhe madhësinë e daljes prej 150 shenjat. MiniCPM-O-2.6 performon jashtëzakonisht mirë në të dy tekstet dhe ngarkesat e punës, duke shkallëzuar pa probleme në nivelet e njëkohshme. Shërbimi i përbashkët VLLM siguron fitime të konsiderueshme në xhiros së përgjithshme duke ruajtur latente të ulët.
Pikat kryesore të performancës së tekstit:
-
Vonesa për shenjë: 0.022 sek (1 kërkesë e njëkohshme)
-
Koha për në shenjën e parë (TTFT): 0.087 sekondë
-
Xhiros në fund në fund: 213.23 Token/sekondë
-
Kërkesat për minutë (rpm): Deri në 362.83 në 32 kërkesa të njëkohshme
-
Xhiroja e përgjithshme: 1075.28 Tokens/Sek në 32 Concurrency
Performanca multimodale (imazhi + teksti) (xhiroja e përgjithshme):
-
256px Imazhe: 1039.60 Tokens/Sec, 353.19 RPM në 32 Concurrency
-
512px Imazhe: 957.37 Tokens/Sec, 324.66 RPM
Peshoret me njëkohësi (xhiros nga fundi në fund):
-
Në 2 kërkesa të njëkohshme:
-
Në 8 kërkesa të njëkohshme:
-
Në 16 kërkesa të njëkohshme:
-
Në 32 kërkesa të njëkohshme:
Pasqyrë e përgjithshme:
MiniCPM-O-2.6 performon në mënyrë të besueshme në një gamë të detyrave dhe madhësive të hyrjes. Ai mban latente të ulët, peshore në mënyrë lineare me njëkohësisht dhe mbetet performues edhe me inputet e imazhit 512px. Kjo e bën atë një zgjedhje të fortë për aplikacionet në kohë reale që funksionojnë në GPU moderne si L40S. Këto rezultate pasqyrojnë performancën në atë konfigurim specifik të harduerit, dhe mund të ndryshojnë në varësi të mjedisit ose nivelit të GPU.
Instruksion qwen2.5-vl-7b
QWEN2.5-VL është një model në gjuhën e vizionit të krijuar për njohjen vizuale, arsyetimin, analizën e gjatë të videos, lokalizimin e objektit dhe nxjerrjen e strukturuar të të dhënave.
Arkitektura e saj integron vëmendjen e dritares në transformatorin e vizionit (VIT), duke përmirësuar ndjeshëm si trajnimin ashtu edhe efikasitetin e konkluzionit. Optimizime shtesë si aktivizimi Swiglu dhe rmsnorm më tej rreshtojnë VIT me QWEN2.5 LLM, duke rritur performancën dhe konsistencën e përgjithshme.
Përmbledhje e Benchmark: Performancë në GPU L40S
Instruksion qwen2.5-vl-7b jep performancë të qëndrueshme në të dyja tekst dhe detyra të bazuara në imazh. Standardet nga orkestrimi i llogaritjes së Clarifai nxjerr në pah aftësinë e tij për të trajtuar inputet multimodale në shkallë, me xhiros dhe reagim të fortë nën nivele të ndryshme të njëkohshme.
Pikat kryesore të performancës së tekstit:
-
Vonesa për shenjë: 0.022 sek (1 kërkesë e njëkohshme)
-
Koha për në shenjën e parë (TTFT): 0.089 sekondë
-
Xhiros në fund në fund: 205.67 Token/sekondë
-
Kërkesat për minutë (rpm): Deri në 353.78 në 32 kërkesa të njëkohshme
-
Xhiroja e përgjithshme: 1017.16 Tokens/Sec në 32 Concurrency
Performanca multimodale (imazhi + teksti) (xhiroja e përgjithshme):
-
256px Imazhe: 854.53 Tokens/Sec, 318.64 RPM në 32 Concurrency
-
512px Imazhe: 832.28 Tokens/Sec, 345.98 rpm
Peshoret me njëkohësi (xhiros nga fundi në fund):
-
Në 2 kërkesa të njëkohshme:
-
Në 8 kërkesa të njëkohshme:
-
Në 16 kërkesa të njëkohshme:
-
Në 32 kërkesa të njëkohshme:
Pasqyrë e përgjithshme:
QWEN2.5-VL-7B-instruksion është i përshtatshëm si për tekstin ashtu edhe për detyrat multimodale. Ndërsa imazhet më të mëdha prezantojnë tregtinë e latencës dhe xhiros, modeli performon në mënyrë të besueshme me inpute të vogla dhe të mesme edhe me njëkohësisht të lartë. Shtë një zgjedhje e fortë për tubacionet e shkallëzimit të gjuhës së vizionit që i japin përparësi xhiros dhe latencës së moderuar.
Cili VLM është i duhuri për ju?
Zgjedhja e modelit të duhur të gjuhës së vizionit (VLM) varet nga lloji juaj i ngarkesës së punës, modaliteti i hyrjes dhe kërkesat e konkurencës. Të gjitha standardet në këtë raport u krijuan duke përdorur GPU -të NVIDIA L40S përmes orkestrimit të llogaritjes së Clarifai.
Këto rezultate reflektojnë performancën në infrastrukturën e shkallës së ndërmarrjes. Nëse jeni duke përdorur pajisje të nivelit më të ulët ose duke synuar madhësi më të mëdha të grupeve ose latente ultra të ulët, performanca aktuale mund të ndryshojë. Shtë e rëndësishme të vlerësoni bazuar në konfigurimin tuaj specifik të vendosjes.
Minicpm-o-2.6
MiniCPM ofron performancë të vazhdueshme në të dy detyrat e tekstit dhe të imazhit, veçanërisht kur vendoset me VLLM të përbashkët. Ajo shkallëzon në mënyrë efikase deri në 32 kërkesa të njëkohshme, duke mbajtur xhiros të lartë dhe latente të ulët edhe me inputet e imazhit 1024px.
Nëse aplikacioni juaj kërkon performancë të qëndrueshme nën ngarkesë dhe fleksibilitet nëpër modalitete, MiniCPM është zgjedhja më e rrumbullakosur në këtë grup.
GEMMA-3-4B
Gemma performon më së miri në ngarkesat e punës të rënda me tekst me input të rastit të imazhit. Ajo merret me njëkohësisht deri në 16 kërkesa, por fillon të zhyten në 32, veçanërisht me imazhe të mëdha si 2048px.
Nëse rasti i përdorimit tuaj është përqendruar kryesisht në gjenerimin e shpejtë, me cilësi të lartë të tekstit me hyrje të imazheve të vogla dhe të mesme, GEMMA siguron performancë të fortë pa pasur nevojë për shkallëzim të nivelit të lartë.
Instruksion qwen2.5-vl-7b
QWEN2.5 është optimizuar për detyra të strukturuara në gjuhën e vizionit, siç janë analizimi i dokumenteve, OCR, dhe arsyetimi multimodal, duke e bërë atë një zgjedhje të fortë për aplikacionet që kërkojnë mirëkuptim të saktë vizual dhe tekstual.
Nëse përparësia juaj është arsyetimi i saktë vizual dhe mirëkuptimi multimodal, QWEN2.5 është një përshtatje e fortë, veçanërisht kur cilësia e daljes ka më shumë rëndësi sesa kulmi i pikut.
Për t’ju ndihmuar të krahasoni me një shikim, këtu është një përmbledhje e metrikës kryesore të performancës për të tre modelet në 32 kërkesa të njëkohshme në të gjithë inputet e tekstit dhe imazhit.
Përmbledhje e Modelit të Gjuhës së Vizionit Përmbledhje (32 Kërkesa të njëkohshme, GPU L40S)
Metrik | Model | Vetëm me tekst | Imazhi 256px | Imazhi 512px |
---|---|---|---|---|
Latente për shenjë (sekondë) | GEMMA-3-4B | 0.027 | 0.036 | 0.037 |
Minicpm-o 2.6 | 0.024 | 0.026 | 0.028 | |
Instruksion qwen2.5-vl-7b | 0.025 | 0.032 | 0.032 | |
Koha për në shenjën e parë (SEC) | GEMMA-3-4B | 0.236 | 1.034 | 1.164 |
Minicpm-o 2.6 | 0.120 | 0.347 | 0.786 | |
Instruksion qwen2.5-vl-7b | 0.121 | 0.364 | 0.341 | |
Xhiros në fund në fund (shenja/s) | GEMMA-3-4B | 168.45 | 124.56 | 120.01 |
Minicpm-o 2.6 | 188.86 | 176.29 | 160.14 | |
Instruksion qwen2.5-vl-7b | 186.91 | 179.69 | 191.94 | |
Rrjedha e përgjithshme (shenjat/s) | GEMMA-3-4B | 942.58 | 718.63 | 688.21 |
Minicpm-o 2.6 | 1075.28 | 1039.60 | 957.37 | |
Instruksion qwen2.5-vl-7b | 1017.16 | 854.53 | 832.28 | |
Kërkesat për minutë (rpm) | GEMMA-3-4B | 329.90 | 252.16 | 242.04 |
Minicpm-o 2.6 | 362.84 | 353.19 | 324.66 | |
Instruksion qwen2.5-vl-7b | 353.78 | 318.64 | 345.98 |
Shënim: Këto standarde u drejtuan në GPU -të e L40 -ve. Rezultatet mund të ndryshojnë në varësi të klasës GPU (të tilla si A100 ose H100), kufizimet e CPU, ose konfigurimet e ekzekutimit, duke përfshirë grumbullimin, kuantizimin ose variantet e modelit.
Përfundim
Ne kemi parë standardet në MiniCPM-2.6, GEMMA-3-4B, dhe QWEN2.5-VL-7B-instrukt, duke mbuluar performancën e tyre në latente, xhiros dhe shkallëzueshmëri nën nivele të ndryshme të njëkohshme dhe madhësive të imazhit. Secili model kryen ndryshe bazuar në detyrat dhe kërkesat e ngarkesës së punës.
Nëse doni të provoni këto modele, ne kemi nisur një shesh lojrash të re AI ku mund t’i eksploroni direkt. Ne do të vazhdojmë të shtojmë modelet më të fundit në platformë, kështu që mbani një sy në azhurnimet tona dhe bashkohuni me komunitetin tonë të Discord për njoftimet më të fundit.
Nëse jeni duke kërkuar të vendosni këto VLM me burim të hapur në llogaritjen tuaj të dedikuar, platforma jonë mbështet konkluzionin e shkallës së prodhimit dhe vendosjet e shkallëzueshme. Ju mund të filloni shpejt me vendosjen e pishinës tuaj të nyjeve dhe të ekzekutoni konkluzionin në mënyrë efikase. Shikoni tutorialin më poshtë për të filluar.