Testante la "Plej Inteligentan en la Mondo" Grok3

AIPU WATON GRUPO (1)

Enkonduko

Ĉu vi opinias, ke Grok3 estos la "finpunkto" de antaŭtrejnitaj modeloj?

Elon Musk kaj la teamo xAI oficiale lanĉis la plej novan version de Grok, Grok3, dum rekta elsendo. Antaŭ ĉi tiu evento, signifa kvanto da rilataj informoj, kune kun la 24/7 reklama bruo de Musk, levis tutmondajn atendojn por Grok3 al senprecedencaj niveloj. Nur antaŭ semajno, Musk memfide deklaris dum rekta elsendo komentante pri DeepSeek R1, "xAI baldaŭ lanĉos pli bonan AI-modelon." El la datumoj prezentitaj rekte, Grok3 laŭdire superis ĉiujn nunajn ĉefajn modelojn en komparnormoj por matematiko, scienco kaj programado, kun Musk eĉ asertante, ke Grok3 estos uzata por komputilaj taskoj rilataj al la Marsaj misioj de SpaceX, antaŭdirante "sukcesojn je la Nobel-premia nivelo ene de tri jaroj." Tamen, ĉi tiuj estas nuntempe nur asertoj de Musk. Post la lanĉo, mi testis la plej novan beta-version de Grok3 kaj prezentis la klasikan ruzdemandon por grandaj modeloj: "Kiu estas pli granda, 9.11 aŭ 9.9?" Bedaŭrinde, sen iuj ajn kvalifikiloj aŭ markadoj, la tiel nomata plej inteligenta Grok3 ankoraŭ ne povis respondi ĉi tiun demandon ĝuste. Grok3 ne sukcesis precize identigi la signifon de la demando.

 

Ĉi tiu testo rapide altiris konsiderindan atenton de multaj amikoj, kaj koincide, diversaj similaj testoj eksterlande montris Grok3 luktantan kun bazaj fizikaj/matematikaj demandoj kiel "Kiu pilko falas unue de la Oblikva Turo de Pizo?" Tial, ĝi estis humure etikedita kiel "geniulo nevola respondi simplajn demandojn."

640

Grok3 estas bona, sed ĝi ne estas pli bona ol R1 aŭ o1-Pro.

Grok3 spertis "malsukcesojn" en multaj testoj pri komuna scio en praktiko. Dum la lanĉa evento de xAI, Musk montris la uzon de Grok3 por analizi la klasojn kaj efikojn de roluloj el la ludo Path of Exile 2, kiun li asertis ludi ofte, sed la plej multaj respondoj donitaj de Grok3 estis malĝustaj. Musk dum la rekta elsendo ne rimarkis ĉi tiun evidentan problemon.

 

Ĉi tiu eraro ne nur provizis pliajn pruvojn por ke transmaraj retumantoj moku Musk pro "trovado de anstataŭaĵo" en videoludado, sed ankaŭ levis signifajn zorgojn pri la fidindeco de Grok3 en praktikaj aplikoj. Por tia "geniulo", sendepende de ĝiaj faktaj kapabloj, ĝia fidindeco en ekstreme kompleksaj aplikaĵaj scenaroj, kiel ekzemple Marsaj esploraj taskoj, restas dubinda.

 

Nuntempe, multaj testantoj, kiuj ricevis aliron al Grok3 antaŭ semajnoj, kaj tiuj, kiuj ĵus testis la kapablojn de la modelo dum kelkaj horoj hieraŭ, ĉiuj montras al komuna konkludo: "Grok3 estas bona, sed ĝi ne estas pli bona ol R1 aŭ o1-Pro."

640 (1)

Kritika Perspektivo pri "Interrompado de Nvidia"

En la oficiale prezentita PPT dum la eldono, Grok3 montriĝis "multe antaŭe" en la Chatbot-Areno, sed ĉi tio lerte uzis grafikajn teknikojn: la vertikala akso sur la ranglisto nur listigis rezultojn en la poentaro 1400-1300, igante la originalan 1%-an diferencon en testrezultoj ŝajni escepte signifa en ĉi tiu prezento.

640

En faktaj rezultoj de modelpoentado, Grok3 estas nur 1-2% antaŭ DeepSeek R1 kaj GPT-4.0, kio respondas al la spertoj de multaj uzantoj en praktikaj testoj, kiuj trovis "neniun rimarkeblan diferencon". Grok3 nur superas siajn posteulojn je 1%-2%.

640

Kvankam Grok3 atingis pli altan poentaron ol ĉiuj nuntempe publike testitaj modeloj, multaj ne prenas tion serioze: finfine, xAI antaŭe estis kritikita pro "poentara manipulado" en la Grok2-epoko. Ĉar la rangotabelo punis la stilon de respondolongo, la poentaroj multe malpliiĝis, kio igis industriajn spertulojn ofte kritiki la fenomenon de "alta poentaro sed malalta kapablo".

 

Ĉu per "manipulado" de la rangolisto aŭ per dezajnaj trukoj en ilustraĵoj, ili malkaŝas xAI kaj la obsedon de Musk pri la nocio "gvidi la grupon" en modelaj kapabloj. Musk pagis altan prezon por ĉi tiuj marĝenoj: dum la lanĉo, li fanfaronis pri uzado de 200 000 H100 GPU-oj (asertante "pli ol 100 000" dum la rekta elsendo) kaj atingado de totala trejna tempo de 200 milionoj da horoj. Ĉi tio igis iujn kredi, ke ĝi reprezentas alian signifan benon por la GPU-industrio kaj konsideri la efikon de DeepSeek sur la sektoron kiel "malsaĝan". Rimarkinde, iuj kredas, ke pura komputila povo estos la estonteco de modela trejnado.

 

Tamen, kelkaj retumantoj komparis la konsumon de 2000 H800 GPU-oj dum du monatoj por produkti DeepSeek V3, kalkulante ke la efektiva trejna energikonsumo de Grok3 estas 263-oble pli alta ol tiu de V3. La diferenco inter DeepSeek V3, kiu atingis 1402 poentojn, kaj Grok3 estas iom malpli ol 100 poentoj. Post la publikigo de ĉi tiuj datumoj, multaj rapide komprenis, ke malantaŭ la titolo de Grok3 kiel la "plej forta de la mondo" kuŝas klara marĝena utileca efiko — la logiko de pli grandaj modeloj generantaj pli fortan rendimenton komencis montri malpliiĝantajn rendimentojn.

640 (2)

Eĉ kun "alta poentado sed malalta kapablo", Grok2 havis vastajn kvantojn da altkvalitaj propraj datumoj de la platformo X (Twitter) por subteni uzadon. Tamen, dum la trejnado de Grok3, xAI nature renkontis la "plafonon", kiun OpenAI nuntempe alfrontas - la manko de altkvalitaj trejnaj datumoj rapide malkaŝas la marĝenan utilecon de la kapabloj de la modelo.

 

La programistoj de Grok3 kaj Musk verŝajne estas la unuaj, kiuj profunde komprenas kaj identigas ĉi tiujn faktojn, tial Musk konstante menciis en sociaj retoj, ke la versio, kiun uzantoj nun spertas, estas "ankoraŭ nur la beta-versio" kaj ke "la plena versio estos publikigita en la venontaj monatoj." Musk alprenis la rolon de produktmanaĝero de Grok3, sugestante, ke uzantoj donu rimarkojn pri diversaj problemoj renkontitaj en la komenta sekcio. Li eble estas la plej sekvata produktmanaĝero sur la Tero.

 

Tamen, ene de unu tago, la agado de Grok3 sendube vekis alarmon por tiuj, kiuj esperas fidi je "enorme komputila povo" por trejni pli fortajn grandajn modelojn: surbaze de publike haveblaj informoj de Microsoft, GPT-4 de OpenAI havas parametrograndecon de 1,8 trilionoj da parametroj, pli ol dekoble pli grandan ol GPT-3. Onidiroj sugestas, ke la parametrograndeco de GPT-4.5 eble estas eĉ pli granda.

 

Dum la grandeco de la modelaj parametroj ŝvebas, la trejnadkostoj ankaŭ eksplodas. Kun la ĉeesto de Grok3, konkurantoj kiel GPT-4.5 kaj aliaj, kiuj volas daŭre "bruligi monon" por atingi pli bonan modelan rendimenton per parametrograndeco, devas konsideri la limon, kiu nun estas klare videbla, kaj pripensi kiel superi ĝin. Nuntempe, Ilya Sutskever, iama ĉefa sciencisto ĉe OpenAI, antaŭe deklaris lastan decembron, "La antaŭtrejnado, kiun ni konas, finiĝos", kio reaperis en diskutoj, instigante klopodojn trovi la veran vojon por trejni grandajn modelojn.

640 (3)

La vidpunkto de Ilja sonigis la alarmon en la industrio. Li precize antaŭvidis la baldaŭan elĉerpiĝon de alireblaj novaj datumoj, kondukante al situacio kie rendimento ne plu povas esti plibonigita per datenakiro, komparante ĝin al la elĉerpiĝo de fosiliaj brulaĵoj. Li indikis, ke "kiel nafto, hom-generita enhavo en la interreto estas limigita rimedo." Laŭ la antaŭdiroj de Sutskever, la sekva generacio de modeloj, post-antaŭ-trejnado, posedos "veran aŭtonomecon" kaj rezonkapablojn "similajn al la homa cerbo."

 

Male al la hodiaŭaj antaŭtrejnitaj modeloj, kiuj ĉefe dependas de enhava kongruigo (bazita sur la antaŭe lernita modelenhavo), estontaj AI-sistemoj povos lerni kaj establi metodologiojn por solvi problemojn laŭ maniero simila al la "pensado" de la homa cerbo. Homo povas atingi fundamentan kompetentecon en fako per nur baza faka literaturo, dum granda AI-modelo postulas milionojn da datenpunktoj por atingi nur la plej bazan enirnivelan efikecon. Eĉ kiam la vortigo estas iomete ŝanĝita, ĉi tiuj fundamentaj demandoj eble ne estas ĝuste komprenitaj, montrante ke la modelo ne vere pliboniĝis en inteligenteco: la bazaj sed nesolveblaj demandoj menciitaj komence de la artikolo reprezentas klaran ekzemplon de ĉi tiu fenomeno.

微信图片_20240614024031.jpg1

Konkludo

Tamen, preter kruda forto, se Grok3 efektive sukcesos malkaŝi al la industrio, ke "antaŭtrejnitaj modeloj alproksimiĝas al sia fino", tio havus signifajn implicojn por la kampo.

Eble post kiam la frenezo ĉirkaŭ Grok3 iom post iom trankviliĝos, ni atestos pliajn kazojn kiel la ekzemplon de Fei-Fei Li pri "agordado de alt-efikecaj modeloj sur specifa datumbazo por nur 50 dolaroj", finfine malkovrante la veran vojon al AGI.

Trovu ELV-Kablan Solvon

Kontrolaj Kabloj

Por BMS, BUS, Industria, Instrumentada Kablo.

Strukturita Kabla Sistemo

Reto kaj Datumoj, Fibro-Optika Kablo, Konektilo-Ŝnuro, Moduloj, Vizaĝplato

Revuo de Ekspozicioj kaj Eventoj de 2024

16a-18a de aprilo 2024, Mezoriento-Energio en Dubajo

16-18 apr. 2024 Securika en Moskvo

9-a de majo 2024 Lanĉo de novaj produktoj kaj teknologioj en Ŝanhajo

22-25 okt. 2024 SEKURECA ĈINIO en Pekino

19-20 novembro 2024 KONEKTITA MONDO KSA


Afiŝtempo: 19-a de februaro 2025