Az MI nem mindig gyorsítja meg a fejlesztési folyamatokat - ITBUSINESS


Egy friss kutatás eredményei szerint az MI-eszközök 19 százalékkal lassították le a nyílt forráskódú szoftvereket készítő fejlesztőket, akik több időt töltöttek az MI utasításainak megfogalmazásával és az eredmények ellenőrzésével, mint amennyit a kódoláskor nyertek.

A mesterséges intelligencia alapú megoldásokat fejlesztő vállalatok gyakran kiemelik, hogy a nagyméretű nyelvi modellek (LLM-ek) jelentős mértékben fokozhatják a programozók teljesítményét. Nem véletlen, hogy a programozási segédeszközökért folytatott verseny élesedik, hiszen a piacon való érvényesülés kulcsfontosságú. Egy friss, randomizált kontrollált kutatás azonban meglepő eredményeket hozott: a tapasztalt, nyílt forráskódú fejlesztők a jelenlegi mesterséges intelligencia eszközök alkalmazásával valójában csökkentették hatékonyságukat.

A kutatást a METR (Model Evaluation and Threat Research) végezte, mely során tizenhat, jelentős tapasztalattal rendelkező fejlesztőt vontak be, akik nyílt forráskódú projektekben dolgoztak. A résztvevők összesen 246 egyéni feladatot teljesítettek, amelyek általában hibajavításokat, új funkciók integrálását vagy kódfelújításokat foglaltak magukban. Az esetek felében a programozók mesterséges intelligencia eszközöket használtak, mint például a Cursor Prót vagy az Anthropic Claude-ot, míg a másik felében ezek nélkül dolgoztak. A feladatokhoz szükséges időt előre megbecsülték, hogy a nehézségi szintek kiegyenlítése érdekében pontosabb összehasonlítást végezhessenek. Az elemzés részeként azt is vizsgálták, hogy mennyi időt igényeltek a pull requestek módosításai a visszajelzések alapján.

A vizsgálat előtt a fejlesztők úgy becsülték, 24 százaléknyi időt takaríthatnak meg MI-eszközöket használva. A feladatok elvégzése után is úgy érezték, hogy átlagosan 20 százalékkal gyorsabban haladtak az MI-vel. A valóságban viszont azok a feladatok, melyeket MI-t használva oldottak meg, átlagosan 19 százalékkal lassabban készültek el, mint azok, amelyeket MI segítsége nélkül végeztek.

Kompromisszumok és korlátok

A METR kutatói a kutatásuk egyik részterületén, képernyőfelvételek elemzésével, azt tapasztalták, hogy a mesterséges intelligencia eszközök jelentősen csökkentették az aktív kódolásra, a tesztelésre és a hibakeresésre, valamint az információkeresésre fordított időt. Ugyanakkor a megfigyelések azt mutatták, hogy ezt az időnyereséget meghaladta az az időtartam, amelyet a fejlesztők a promptok megfogalmazására, az MI által generált kód ellenőrzésére, az MI válaszaira való várakozásra, valamint a képernyőfelvételeken inaktívként megjelenő "járulékos holtidőre" fordítottak.

A fejlesztők körében a mesterséges intelligencia által előállított kódnak csupán 44%-át fogadták el anélkül, hogy módosításra lett volna szükség. A válaszadók többsége jelezte, hogy az MI által javasolt megoldásokon változtatásokra volt szükség. Az ehhez kapcsolódó felülvizsgálatok a MI által támogatott feladatok összes időtartamának 9%-át tették ki.

Első ránézésre a METR eredményei ellentmondanak más méréseknek, amelyek az MI-eszközöket a kódolási hatékonyság növeléseként mutatják be. Azonban ezek a vizsgálatok gyakran egyszerűsített metrikákra (mint a kódsorok száma, pull requestek száma) támaszkodnak, amelyek gyenge mutatói lehetnek a valódi hatékonyságnak.

A meglévő benchmarkok általában mesterségesen generált, algoritmusokkal értékelhető feladatokat alkalmaznak, míg a METR valós és létező kódbázisokkal dolgozik. A tanulmányban részt vevő fejlesztők véleménye szerint a saját projektjeik bonyolultsága – amelyek átlagosan 10 évesek és több mint egy millió sor kódot tartalmaznak – jelentősen korlátozta a mesterséges intelligencia alkalmazásának lehetőségeit. A kutatók kiemelték, hogy az MI nem tudta teljes mértékben kihasználni a fejlesztők mögöttes tudását és a projektkörnyezet specifikus kontextusát, míg az emberek sokkal hatékonyabban tudtak navigálni a számukra jól ismert kódokban.

Az MI nem a minőség barátja

A kutatók megállapították, hogy a jelenlegi mesterséges intelligencia eszközök nem mindig felelnek meg a legmagasabb minőségi elvárásoknak, különösen olyan környezetekben, ahol számos implicit követelmény is érvényesül, mint például a részletes dokumentáció, a tesztlefedettség és a formázási normák. Ezeknek az elvárásoknak a megértése és alkalmazása emberi oldalon jelentős időráfordítást igényel. Míg ezek a kihívások nem feltétlenül jelentkeznek egyszerűbb, gazdaságilag fontos projektek esetén, a mesterséges intelligencia hatékonyságát komolyan befolyásolhatják bonyolult, valós környezetekben.

Végső soron a kutatók bizakodóak: amennyiben a mesterséges intelligencia eszközök megbízhatóbbá, gyorsabbá és relevánsabbá válhatnak, például a promptok struktúrázásával vagy finomhangolással, akkor a fejlesztők munkáját jelentősen felgyorsíthatják. Az elmúlt időszakban például a Claude 3.7 modell képes volt több, a vizsgálatok során felmerült problémát hatékonyan megoldani. Azonban a METR tanulmányának eredményei világosan rámutatnak arra, hogy az MI-eszközök alkalmazása a kódolás terén komoly kihívásokkal nézhet szembe, különösen bonyolult és valós fejlesztési feladatok esetén.

Related posts