Parsadh teacsa a’ cleachdadh chatGPT
Tha mion-sgrùdadh teacsa, no mèinneadh teacsa, na dhòigh-obrach deatamach airson seallaidhean luachmhor a tharraing à meudan mòra de dhàta teacsa neo-structaraichte.
Tha e a’ toirt a-steach a bhith ag obrachadh agus a’ sgrùdadh teacsa gus pàtrain, gluasadan agus dàimhean a lorg.
Leigidh e le companaidhean, luchd-rannsachaidh agus buidhnean co-dhùnaidhean a dhèanamh stèidhichte air fiosrachadh a gheibhear bho theacsaichean.
Mar a tha na tha de dhàta neo-structaraichte a’ sìor fhàs gu h-iongantach, tha an fheum air innealan anailis teacsa ceart agus èifeachdach air a bhith a’ sìor fhàs deatamach thar ghnìomhachasan cho eadar-dhealaichte ri margaidheachd, ionmhas, cùram slàinte agus saidheansan sòisealta.
Gu traidiseanta, chaidh mion-sgrùdadh teacsa a dhèanamh a’ cleachdadh dhòighean stèidhichte air riaghailtean agus dòighean ionnsachaidh inneal leithid SpaCY agus an dòigh cruth-atharrachaidh. Ged a tha na modhan sin air a bhith èifeachdach, tha feum aca air oidhirp mhòr agus eòlas airson a bhith foirfe.
Le teachd modailean mòra cànain (LLM) leithid Bruidhinn GPT di OpenAI. Tha e air comasan iongantach a nochdadh ann a bhith a’ gineadh teacsa coltach ri duine agus a’ tuigsinn co-theacsa, ga fhàgail na inneal gealltanach airson gnìomhan mion-sgrùdadh teacsa leithid entity recognition
, sentiment analysis
, e topic modeling
.
Chì sinn a-nis mar as urrainn dhuinn parsadh teacsa a dhèanamh a’ cleachdadh ChatGPT.
Modh traidiseanta (modalan singilte) vs. LLM
San àm a dh’ fhalbh, bha sinn a-riamh air diofar mhodalan a chleachdadh airson diofar ghnìomhan ann an ionnsachadh innealan. Mar eisimpleir, ma tha mi airson eòlas a tharraing à teacsa, feumaidh mi modal aithneachaidh eintiteas ainmichte (NER - a chleachdadh). Named Entity Recognition
), ma dh’ fheumas mi an teacsa agam a sheòrsachadh ann an clasaichean air leth, bidh feum agam air modal seòrsachaidh. Dh'fheumadh gach gnìomh eadar-dhealaichte na modailean a bhith air an trèanadh ann an dòigh eadar-dhealaichte airson gach gnìomh, an dara cuid tro ionnsachadh gluasaid no tro thrèanadh.
Le toirt a-steach an Large Language Models (LLM), bidh modal LLM comasach air iomadh gnìomh NLP a dhèanamh le no às aonais trèanadh. Faodar gach gnìomh a mhìneachadh dìreach le bhith ag atharrachadh an stiùireadh anns na molaidhean.
A-nis chì sinn mar a nì sinn obair thraidiseanta NLP a-steach Bruidhinn GPT agus coimeas a dhèanamh eadar e agus an dòigh thraidiseanta. Na gnìomhan NLP a thèid a choileanadh le Bruidhinn GPT san artaigil seo tha:
- Toirt air falbh Eòlais (NER)
- Seòrsachadh teacsa
Sentiment analysis
- Geàrr-chunntas
Toirt air falbh Eòlais (NER)
Tha Aithneachadh Aonad Ainmichte (NER) a’ toirt iomradh air a’ ghnìomh a bhith ag aithneachadh bhriathran gu fèin-ghluasadach ann an diofar bhlocaichean de dhàta teacsa. Tha e air a chleachdadh sa mhòr-chuid gus roinnean eintiteas cudromach leithid ainmean dhrogaichean a thoirt a-mach à notaichean clionaigeach, teirmean co-cheangailte ri tubaist bho thagraidhean àrachais, agus teirmean eile a tha sònraichte don raon bho chlàran.
Thoir an aire gu bheil an gnìomhachd seo sònraichte don raon meidigeach. B’ àbhaist dha iarraidh oirnn barrachd air 10.000 sreath de dhàta a chomharrachadh agus a thrèanadh airson aon mhodail gus eòlas fhaighinn air a’ chlas agus an teirm sònraichte san teacsa. Is urrainn do ChatGPT an teirm aithneachadh gu ceart às aonais teacsa ro-thrèanadh no gleusadh, a tha na thoradh math!
Seòrsachadh teacsa
Tha seòrsachadh teacsa a’ toirt iomradh air a’ phròiseas fèin-ghluasadach airson a bhith a’ lorg agus a’ seòrsachadh teacsa ann an roinnean bho dhàta mòr, tha àite deatamach aige ann an lorg dàta teacsa agus às-tharraing. Tha eisimpleirean de thagraidhean seòrsachaidh teacsa a’ toirt a-steach rabhaidhean clionaigeach no seòrsachadh factaran cunnairt, seòrsachadh breithneachaidh fèin-ghluasadach, agus lorg spama.
Sentiment analysis
Sentiment analysis
gabhail a-steach a bhith a’ dearbhadh an fhaireachdainn no na faireachdainnean a tha air an cur an cèill ann am pìos teacsa. Tha e ag amas air an teacsa a sheòrsachadh a-steach do roinnean ro-mhìnichte, leithid dearbhach, àicheil no neodrach, stèidhichte air an fhaireachdainn bunaiteach a chuir an t-ùghdar an cèill.
Tha cleachdadh mion-sgrùdadh faireachdainn a’ toirt a-steach:
- mion-sgrùdadh air lèirmheasan luchd-cleachdaidh agus fios air ais,
- cumail sùil air faireachdainn nam meadhanan sòisealta,
- cumail sùil air gluasadan margaidh e
- tomhas faireachdainn poilitigeach rè iomairtean taghaidh.
Geàrr-chunntas
Tha geàrr-chunntasan fèin-ghluasadach a’ toirt iomradh air a’ phròiseas leis am bi prìomh chuspairean aon sgrìobhainn no barrachd air an comharrachadh agus air an taisbeanadh ann an dòigh pongail agus ceart. Leigidh seo leis an neach-cleachdaidh sùil a thoirt air pìosan mòra de dhàta ann an ùine ghoirid. Tha eisimpleirean de thagraidhean a’ toirt a-steach siostam geàrr-chunntas a leigeas le geàrr-chunntasan a ghineadh gu fèin-ghluasadach bho artaigilean naidheachdan agus geàrr-chunntas fiosrachaidh le bhith a’ toirt a-mach seantansan bho gheàrr-chunntasan pàipear rannsachaidh.
Tha ChatGPT na inneal geàrr-chunntas sàr-mhath, gu sònraichte airson artaigilean fada agus lèirmheasan toinnte. Le bhith a’ cur seachad na lèirmheasan ann an ChatGPT, is urrainn dhuinn gu furasta eòlas fhaighinn air geàrr-chunntas ath-bhreithneachaidh toraidh.
Crìochan nan LLMn
Leis gur e adhbhar an artaigil seo sgrùdadh a dhèanamh air comas LLMn gnìomhan mion-sgrùdadh teacsa a dhèanamh, tha e riatanach cuideachd na crìochan aca aithneachadh. Am measg cuid de na prìomh chuingealachaidhean aig LLMn tha:
- Cleachdadh stòrais : Le bhith a’ cleachdadh LLMn tha feum air goireasan àireamhachd agus ionmhais nach beag, a dh’ fhaodadh a bhith na dhùbhlan do bhuidhnean nas lugha no luchd-rannsachaidh fa leth aig nach eil mòran ghoireasan. Mar an latha an-diugh, chan eil ChatGPT a’ gabhail ach ri timcheall air 8.000 comharran airson cuir a-steach agus toradh, gus tòrr dàta a pharsadh, ag iarraidh air an neach-cleachdaidh teacsa a bhriseadh ann an grunn phìosan dàta, agus is dòcha gu feum iad grunn ghairmean API airson gnìomhan.
- Mothachadh airson abairtean a bhrosnachadh : Faodaidh buaidh a bhith aig coileanadh LLMn leis an dòigh anns a bheilear a’ sgrìobhadh mholaidhean. Faodaidh atharrachadh beag ann am briathrachas sgiobalta toraidhean eadar-dhealaichte a thoirt gu buil, a dh’ fhaodadh a bhith na adhbhar dragh nuair a thathar a’ coimhead airson toradh cunbhalach agus earbsach.
- Dìth eòlas sònraichte air raon : Ged a tha tuigse choitcheann aig LLM air diofar raointean, is dòcha nach eil an aon ìre de eòlas aca ri modalan sònraichte air an trèanadh air dàta a tha sònraichte don àrainn. Mar thoradh air an sin, is dòcha nach bi an coileanadh aca cho math ann an cuid de chùisean agus dh’ fhaodadh gum feum iad mion-sgrùdadh no eòlas bhon taobh a-muigh, gu sònraichte nuair a bhios iad a’ dèiligeadh ri fiosrachadh fìor speisealta no teicnigeach.
Ercole Palmeri