Razumijevanje Jieba algoritma za segmentaciju kineskog teksta: Kako radi, zašto je važan i gdje se ističe u obradi prirodnog jezika
- Uvod u segmentaciju kineskog teksta
- Pregled Jieba algoritma
- Osnovne značajke i mogućnosti Jieba
- Kako Jieba obavlja segmentaciju riječi
- Prilagodba i upravljanje rječnicima
- Integracija s Pythonom i drugim platformama
- Mjerne jedinice izvedbe i točnost
- Uobičajeni slučajevi korištenja i stvarne aplikacije
- Ograničenja i izazovi
- Usporedbe s drugim alatima za segmentaciju kineskog jezika
- Početak: Instalacija i osnovna upotreba
- Napredne tehnike i savjeti
- Zaključak i buduće perspektive
- Izvori i reference
Uvod u segmentaciju kineskog teksta
Segmentacija kineskog teksta je osnovni zadatak u obradi prirodnog jezika (NLP) za kineski jezik, jer jezik ne koristi razmake za delimitaciju riječi. To čini nužnim identificiranje granica riječi prije nego što se mogu izvesti daljnje lingvističke analize, kao što su označavanje dijelova govora ili strojno prevođenje. Jieba algoritam za segmentaciju kineskog teksta jedan je od najšire prihvaćenih alata otvorenog koda u tu svrhu, osobito u Python ekosustavu. Jieba, što na kineskom znači “rezati u segmente”, dizajniran je da učinkovito i točno segmentira kineske rečenice u pojedinačne riječi ili smislene jedinice.
Jieba koristi kombinaciju metoda temeljenih na rječnicima i statističkih modela za postizanje visoke točnosti segmentacije. Koristi unaprijed izgrađen rječnik kako bi pronašao najduže moguće riječi u rečenici, tehnika poznata kao “maksimalno usklađivanje”. Dodatno, Jieba uključuje skriveni Markov model (HMM) za obradu nepoznatih riječi i dvosmislenih slučajeva, čime dodatno poboljšava svoju robusnost i prilagodljivost raznim tekstualnim domenama. Algoritam također podržava korisnički definirane rječnike, omogućavajući prilagodbu za specifične vokabularne ili industrijske žargon.
Zbog svoje jednostavnosti upotrebe, proširivosti i snažne izvedbe, Jieba je postao standardni alat za pripremu kineskog teksta u akademskim istraživanjima i industrijskim aplikacijama. Njegova otvoreno kodna priroda i aktivna podrška zajednice doprinijeli su širokoj primjeni i kontinuiranom poboljšanju. Za više informacija i pristup izvornom kodu, pogledajte Jieba GitHub repozitorij.
Pregled Jieba algoritma
Jieba algoritam za segmentaciju kineskog teksta je široko prihvaćen alat otvorenog koda koji je dizajniran za rješavanje jedinstvenih izazova segmentacije kineskih riječi. Za razliku od jezika koji koriste razmake za delimitaciju riječi, kineski tekst se piše kao neprekidna niz znakova, čineći automatsku segmentaciju složenim zadatkom. Jieba, što znači “rezati u segmente”, koristi kombinaciju metoda temeljenih na rječnicima i statističkih modela za točno prepoznavanje granica riječi unutar kineskih rečenica.
U svojoj srži, Jieba koristi prefiksni rječnik za efikasno pretraživanje riječi, omogućavajući mu brzo usklađivanje najdužih mogućih riječi u zadanoj rečenici. Ovaj pristup pojačava upotreba skrivenog Markov modela (HMM) za slučajeve gdje usklađivanje temeljen na rječniku nije dovoljno, kao s novim riječima ili imenima koja nisu prisutna u rječniku. Jieba također podržava korisnički definirane rječnike, što omogućuje prilagodbu i poboljšanu točnost u aplikacijama specifičnim za područje.
Algoritam je implementiran u Pythonu i poznat je po svojoj jednostavnosti korištenja, brzini i proširivosti. Jieba nudi tri primarna načina segmentacije: precizni način (za najtočniju segmentaciju), puni način (koji navodi sve moguće kombinacije riječi) i način pretraživača (optimiziran za pretraživačke upite). Njegova svestranost učinila ga je popularnim izborom za zadatke obrade prirodnog jezika kao što su pretraživanje informacija, klasifikacija teksta i analiza sentimenta u kontekstu kineskog jezika. Za više detalja i izvorni kod, pogledajte Jieba GitHub repozitorij i Jieba PyPI projekt.
Osnovne značajke i mogućnosti Jieba
Jieba je poznata po svom robusnom i fleksibilnom pristupu segmentaciji kineskog teksta, nudeći niz osnovnih značajki koje ga čine popularnim izborom za zadatke obrade prirodnog jezika. Jedna od njegovih glavnih mogućnosti je korištenje modela temeljenog na prefiksnom rječniku, koji omogućuje efikasnu i točnu segmentaciju riječi usklađujući najduže moguće riječi iz sveobuhvatnog leksikona. Jieba podržava tri načina segmentacije: precizni način za najtočniju segmentaciju, puni način za iscrpno vađenje riječi, i način pretraživača, koji je optimiziran za scenarije pretraživanja generiranjem finijih segmenata.
Još jedna ključna značajka je podrška Jieba za prilagođene rječnike, što korisnicima omogućuje dodavanje specifičnog vokabulara ili novih riječi, čime se poboljšava točnost segmentacije u specijaliziranim kontekstima. Jieba također integrira označavanje dijelova govora (POS), koje dodjeljuje gramatičke kategorije segmentiranim riječima, olakšavajući downstream zadatke kao što su sintaktička analiza i prepoznavanje imenskih entiteta. Dodatno, Jieba pruža vađenje ključnih riječi koristeći TF-IDF i TextRank algoritme, omogućavajući korisnicima identificiranje najrelevantnijih pojmova unutar dokumenta.
Jieba je implementirana u Pythonu, što je čini dostupnom i lako integrirajućom u razne aplikacije. Njegova otvorena priroda i aktivna podrška zajednice dodatno pridonose njegovoj prilagodljivosti i proširivosti. Ravnoteža između brzine i točnosti algoritma, uz modularni dizajn, učinili su Jieba osnovnim alatom u procesima obrade kineskog jezika. Za više detalja, pogledajte Jieba GitHub repozitorij i Jieba PyPI projekt.
Kako Jieba obavlja segmentaciju riječi
Jieba izvodi segmentaciju kineskih riječi kombinacijom metoda temeljenih na rječnicima i probabilističkih modela, omogućavajući mu efikasno upravljanje inherentnom dvosmislenošću kineskog teksta, gdje riječi nisu odvojene razmacima. Glavni proces segmentacije u Jieba uključuje tri glavna koraka: maksimalno usklađivanje temeljen na rječnicima, prepoznavanje na temelju skrivenog Markov modela (HMM) i integraciju korisnički definiranog rječnika.
Prvo, Jieba koristi unaprijed izgrađen rječnik za izvođenje segmentacije temeljenom na maksimalnoj vjerojatnosti. Konstrukcija usmjerenog acikličnog grafa (DAG) za ulaznu rečenicu, gdje svaki čvor predstavlja moguću riječ iz rječnika. Jieba zatim primjenjuje Viterbi algoritam za pronalaženje najvjerojatnijeg puta kroz DAG, učinkovito segmentirajući rečenicu u najvjerojatniju sekvencu riječi na temelju statistike učestalosti riječi iz velikih korpusa (Jieba GitHub repozitorij).
Za riječi ili imena koja nisu prisutna u glavnom rječniku, Jieba koristi skriveni Markov model (HMM) za prepoznavanje novih riječi modeliranjem sekvenci znakova kao Markovskog procesa. HMM se trenira na označenim podacima kako bi prepoznao granice riječi na temelju vjerojatnosti prijelaza između znakova, što omogućuje Jieba segmentiranje riječi izvan rječnika i pravilnih imena (Jianshu tehnički blog).
Osim toga, Jieba omogućuje korisnicima dodavanje prilagođenih riječi u svoj rječnik, osiguravajući da se specifični termini pravilno segmentiraju. Ovaj hibridni pristup—kombiniranje pretraživanja rječnika, probabilističkog modeliranja i prilagodbe korisnika—omogućuje Jieba postizanje visoke točnosti i prilagodljivosti u zadacima segmentacije kineskih riječi.
Prilagodba i upravljanje rječnicima
Jedna od ključnih snaga Jieba algoritma za segmentaciju kineskog teksta leži u njegovoj snažnoj podršci za prilagodbu i upravljanje rječnicima, što je od suštinskog značaja za prilagodbu segmentacije vokabularima specifičnim za područje i evoluirajuću upotrebu jezika. Jieba omogućuje korisnicima učitavanje prilagođenih rječnika pored svojih ugrađenih leksikona, omogućujući prepoznavanje novih riječi, pravilnih imena, tehničkih termina ili slenga koji možda nisu prisutni u zadanom rječniku. Ovo je posebno vrijedno za aplikacije u specijaliziranim područjima kao što su medicina, pravo ili tehnologija, gdje standardna segmentacija može propasti u točnom prepoznavanju relevantnih termina.
Prilagođeni rječnici u Jieba su jednostavne tekstualne datoteke, gdje svaki redak specificira riječ, njenu učestalost i opcionalnu oznaku dijela govora. Prilagođavajući učestalosti riječi, korisnici mogu utjecati na ponašanje segmentacije Jieba, osiguravajući da se poštuju preferirane granice riječi. Jieba također pruža API-jeve za dinamičko dodavanje ili brisanje riječi tijekom izvođenja, nudeći fleksibilnost za interaktivne ili adaptivne aplikacije.
Nadalje, Jieba podržava upotrebu korisnički definiranih popisa stop riječi i crnih lista, što omogućuje isključivanje nevažnih ili nepoželjnih termina iz rezultata segmentacije. Ova razina kontrole je ključna za zadaće kao što su pretraživanje informacija, analiza sentimenta i prepoznavanje imenskih entiteta, gdje preciznost granica riječi izravno utječe na performanse. Jednostavnost upravljanja rječnikom, zajedno s učinkovitim algoritmima Jieba, čini ga popularnim izborom za istraživačke i produkcijske okruženja koja zahtijevaju prilagođene rješenja za obradu kineskog teksta (Jieba GitHub repozitorij).
Integracija s Pythonom i drugim platformama
Jieba je poznata po besprijekornoj integraciji s Pythonom, što ga čini popularnim izborom za segmentaciju kineskog teksta u projektima znanosti o podacima, obradi prirodnog jezika i strojnog učenja. Osnovna Jieba biblioteka je implementirana u Pythonu, omogućujući korisnicima jednostavnu instalaciju putem upravitelja paketa kao što je pip. Njegov API je intuitivan, podržavajući funkcije kao što su precizni način, puni način i način pretraživača, kao i označavanje dijelova govora. Ova jednostavnost omogućuje brzo prototipiranje i implementaciju u Python okruženjima, uključujući Jupyter bilješke i web okvire poput Flaska i Django.
Osim Pythona, Jieba također nudi podršku za druge platforme. Postoje portovi i omotači dostupni za jezike kao što su Java (jieba-analysis), C++ (cppjieba) i Go (gojieba). Ove implementacije održavaju kompatibilnost s originalnom verzijom u Pythonu, osiguravajući dosljedne rezultate segmentacije kroz različite tehnološke strukture. Ova podrška preko jezika je posebno vrijedna za organizacije s heterogenim sustavima ili one koje implementiraju mikroservise na više jezika.
Proširivost Jieba dodatno je poboljšana njegovom sposobnošću učitavanja prilagođenih rječnika, što ga čini prilagodljivim specifičnim vokabularima. Integracija s drugim Python knjižnicama, kao što su scikit-learn za strojnо učenje ili pandas za analizu podataka, je jednostavna, omogućujući end-to-end cjevovode za obradu kineskog teksta. Aktivna zajednica otvorenog koda i sveobuhvatna dokumentacija na Jieba GitHub repozitoriju dodatno olakšavaju integraciju i rješavanje problema preko platformi.
Mjerne jedinice izvedbe i točnost
Performanse i točnost Jieba algoritma za segmentaciju kineskog teksta učinile su ga popularnim izborom za zadatke obrade prirodnog jezika koji uključuju kineski tekst. Jieba je poznata po ravnoteži između brzine i preciznosti segmentacije, što je ključno s obzirom na složenost granica kineskih riječi. U mjernim testovima, Jieba obično postiže brzine segmentacije od 100,000 do 200,000 znakova u sekundi na standardnom hardveru, čineći ga pogodnim za oboje, i stvarno vrijeme i serijsku obradu. Njegov temeljni pristup temeljen na rječnicima, poboljšan upotrebom skrivenog Markov modela (HMM) za prepoznavanje nepoznatih riječi, omogućuje Jieba održavanje visoke točnosti—često premašuje 95% F1-score na standardnim skupovima podataka kao što su SIGHAN Bakeoff korpusi.
Točnost u Jieba dodatno se poboljšava njegovom podrškom za korisnički definirane rječnike, omogućujući integraciju vokabulara specifičnih za područje i poboljšano upravljanje pravilnim imenima ili tehničkim terminima. Komparativne studije su pokazale da, iako segmentatori temeljeni na dubokom učenju mogu nadmašiti Jieba u određenim rubnim slučajevima, Jieba ostaje vrlo konkurentna zbog svojih niskih zahtjeva za resursima i jednostavne prilagodbe. Štoviše, performanse algoritma mogu se fino podešavati podešavanjem prioriteta rječnika i korištenjem njegovih mogućnosti označavanja dijelova govora.
Za praktične aplikacije, kvaliteta segmentacije Jieba obično je dovoljna za zadatke kao što su indeksiranje pretraživača, vađenje ključnih riječi i klasifikacija teksta. Njegova otvorena priroda i aktivna podrška zajednice osiguravaju kontinuirana poboljšanja i mjerenja protiv novih skupova podataka. Za detaljnije metrike performansi i komparativne studije, pogledajte službenu dokumentaciju i istraživačke radove koje pruža Jieba i organizatori SIGHAN Bakeoffa.
Uobičajeni slučajevi korištenja i stvarne aplikacije
Jieba algoritam za segmentaciju kineskog teksta široko je prihvaćen u akademskim i industrijskim okruženjima zbog svoje učinkovitosti i jednostavnosti integracije. Jedna od njegovih najčešćih upotreba je u pretraživačima, gdje je točna segmentacija riječi ključna za indeksiranje i pronalaženje relevantnih dokumenata na kineskom jeziku. Segmentiranjem upita korisnika i sadržaja dokumenata, Jieba omogućuje preciznije usklađivanje i rangiranje, značajno poboljšavajući kvalitetu pretraživanja za platforme kao što su e-commerce web stranice i digitalne biblioteke.
Još jedna prisutna primjena je u cjevovodima obrade prirodnog jezika (NLP), gdje Jieba služi kao temeljni korak za zadatke poput analize sentimenta, modeliranja tema i strojnog prevođenja. Na primjer, alati za praćenje društvenih medija koriste Jieba za razdvajanje sadržaja koji generiraju korisnici u smislene tokene, olakšavajući kasniju analizu kao što su vađenje mišljenja i otkrivanje trendova.
Jieba je također ključna u klasifikaciji teksta i sustavima preporuka. Agregatori vijesti i platformski sadržaji koriste algoritam za segmentiranje članaka i komentara korisnika, omogućujući točnije kategoriziranje i personaliziranu isporuku sadržaja. Dodatno, chatbotovi i virtualni asistenti koriste Jieba za prepoznavanje namjera i vađenje entiteta, poboljšavajući njihovu sposobnost razumijevanja i odgovaranja na korisničke unose na kineskom jeziku.
Osim ovoga, Jieba se koristi u akademskim istraživanjima, posebno u studijama korpusne lingvistike i računalne lingvistike, gdje je potrebna segmentacija teksta u velikom obimu. Njegova otvoreno kodna priroda i aktivna podrška zajednice doveli su do široke primjene i kontinuiranog poboljšanja, čineći ga alatkom odabranom za obradu kineskog teksta u raznim domenama (Jieba GitHub repozitorij).
Ograničenja i izazovi
Iako se Jieba algoritam za segmentaciju kineskog teksta široko usvaja zbog svoje jednostavnosti korištenja i razumnе točnosti, suočava se s nekoliko značajnih ograničenja i izazova. Jedan od glavnih problema je njegov oslonac na unaprijed definirani rječnik za segmentaciju riječi. Ovaj pristup može dovesti do poteškoća u radu s riječima izvan rječnika (OOV), kao što su novokovanice, stručni žargon ili pravilna imena koja nisu prisutna u rječniku. Kao rezultat, Jieba može nepravilno segmentirati ili ne prepoznati ove riječi, utječući na downstream zadatke obrade prirodnog jezika (NLP).
Još jedan izazov je ograničena sposobnost algoritma da riješi dvosmislenosti riječi u kontekstu. Kineski tekst često sadrži riječi koje se mogu segmentirati na više valjanih načina ovisno o okolnom kontekstu. Zadani način Jieba, koji koristi kombinaciju metoda temeljenih na rječnicima i skrivenih Markov modela (HMM), možda ne odabere uvijek najsemantički primjernu segmentaciju, osobito u složenim ili dvosmislenim rečenicama. To može smanjiti točnost aplikacija kao što su analiza sentimenta ili pretraživanje informacija.
Nadalje, performanse Jieba mogu se pogoršati s vrlo velikim korpusima ili u aplikacijama u stvarnom vremenu, jer mu brzina segmentacije nije optimizirana za visoku propusnost. Algoritam također nema napredne značajke kao što su razumijevanja konteksta temeljenog na dubokom učenju, koje su sve važnije u modernom NLP-u. Ova ograničenja naglašavaju potrebu za kontinuiranim poboljšanjima i integracijom sofisticiranijih modela za rješavanje evolutivnih zahtjeva obrade kineskog jezika (Jieba GitHub repozitorij; Udruženje za rađunske lingvistike).
Usporedbe s drugim alatima za segmentaciju kineskog jezika
Jieba je jedan od najpopularnijih algoritama za segmentaciju kineskog teksta, ali nije jedini alat dostupan za ovu zadaću. Kada se usporedi s drugim mainstream alatima za segmentaciju kineskog jezika kao što su THULAC, HanLP i ICTCLAS, Jieba se ističe svojom jednostavnošću korištenja, fleksibilnošću i podrškom zajednice. Jieba koristi kombinaciju metoda temeljenih na prefiksnom rječniku i skrivenih Markov modela (HMM) za otkrivanje novih riječi, što ga čini posebno učinkovitim za opće primjene i brzo prototipiranje. Njegova implementacija u Pythonu i jednostavan API pridonijeli su širokoj usvajanju među programerima i istraživačima.
Nasuprot tome, THULAC (Kineski leksikalni analizator Sveučilišta Tsinghua) optimizirana je za brzinu i točnost, koristeći diskriminativni model i podatke velike skale za trening. THULAC se često preferira u scenarijima gdje je ključna učinkovitost obrade. HanLP nudi obuhvatniji paket alata za obradu prirodnog jezika, uključujući naprednu segmentaciju, označavanje dijelova govora i parsiranje zavisnosti, i poznat je po svojoj visokoj točnosti i podršci za više jezika. ICTCLAS (Institut za računalnu tehnologiju, sustav analize kineskog leksika) još je jedan robusan alat, široko koristi u akademskim i industrijskim okruženjima, i prepoznat je po visokoj preciznosti segmentacije i podršci za prilagodbu specifičnim domenama.
Iako je Jieba vrlo proširiv i omogućava korisnicima jednostavno dodavanje prilagođenih rječnika, neki od drugih alata, poput HanLP-a i ICTCLAS-a, pružaju sofisticiranije lingvističke značajke i bolju izvedbu na specijaliziranim korpusima. Na kraju, izbor između Jieba i drugih alata za segmentaciju ovisi o specifičnim zahtjevima aplikacije, poput brzine, točnosti, proširivosti i jednostavnosti integracije.
Početak: Instalacija i osnovna upotreba
Da biste počeli koristiti Jieba algoritam za segmentaciju kineskog teksta, prvo trebate instalirati paket. Jieba je Python biblioteka, a preporučena metoda instalacije je putem Pythonovog upravitelja paketa, pipa. Jednostavno pokrenite pip install jieba
u vašem terminalu ili naredbenom retku. Ovo će preuzeti i instalirati najnoviju stabilnu verziju Jieba i njezine ovisnosti iz Python Package Index-a (Python Package Index).
Nakon instalacije, možete brzo početi segmentirati kineski tekst. Uvezite Jieba u svoj Python skriptu s import jieba
. Najčešća metoda za segmentaciju je jieba.cut()
, koja vraća generator koji daje segmentirane riječi. Na primjer:
import jieba text = "我来到北京清华大学" words = jieba.cut(text) print("/".join(words))
Ovo će dati izlaz: 我/来到/北京/清华大学
. Jieba podržava tri načina segmentacije: precizni način (zadano), puni način (koristeći jieba.cut(text, cut_all=True)
), i način pretraživača (koristeći jieba.cut_for_search(text)
). Svaki način je optimiziran za različite primjene, poput opće analize teksta ili indeksiranja pretraživača.
Jieba također omogućuje dodavanje prilagođenih riječi u svoj rječnik pomoću jieba.add_word()
, što je korisno za specifične termine za područje. Za više napredne upotrebe i dokumentacije, pogledajte službeni Jieba GitHub repozitorij.
Napredne tehnike i savjeti
Dok se Jieba algoritam za segmentaciju kineskog teksta široko cijeni zbog svoje jednostavnosti korištenja i performansi odmah nakon instalacije, napredni korisnici mogu iskoristiti nekoliko tehnika za dodatno poboljšanje točnosti segmentacije i učinkovitosti. Jedan učinkovit pristup je prilagodba korisničkog rječnika. Dodavanjem pojmova specifičnih za područje ili pravilnih imena u Jiebin korisnički rječnik, korisnici mogu značajno poboljšati rezultate segmentacije za specijalizirane tekstove, poput medicinskih, pravnih ili tehničkih dokumenata.
Druga napredna tehnika uključuje podešavanje unutar Jieba skrivenog Markov modela (HMM) za otkrivanje novih riječi. Omogućujući HMM, Jieba može prepoznati i segmentirati prethodno nevidljive riječi, što je osobito korisno za obradu dinamičnih ili evoluirajućih korpusa. Za velike aplikacije, korisnici također mogu unaprijed učitati rječnike i segmentirati tekstove paralelno koristeći Jiebuovu podršku za višekratnu obradu, čime se optimizira izvedba za velike podatke.
Jieba također omogućuje podešavanje težina učestalosti riječi. Modifikacijom učestalosti određenih riječi u rječniku, korisnici mogu utjecati na odluke o segmentaciji Jieba, rješavajući dvosmislenosti u konteksto osjetljivim slučajevima. Dodatno, integracija Jieba s drugim alatima za obradu prirodnog jezika, poput označivača dijelova govora ili prepoznavača imenskih entiteta, može dodatno poboljšati izlaz segmentacije.
Za istraživačka i produkcijska okruženja, preporučuje se redovito ažuriranje rječnika i retreniranje modela s novim podacima kako bi se održala točnost segmentacije. Za više detalja i naprednu upotrebu, pogledajte službenu dokumentaciju koju pruža Jieba algoritam za segmentaciju kineskog teksta.
Zaključak i buduće perspektive
Jieba algoritam za segmentaciju kineskog teksta uspostavio se kao široko usvojen i učinkovit alat za zadatke obrade prirodnog jezika (NLP) na kineskom jeziku. Njegova kombinacija metoda temeljenih na rječnicima, skrivenih Markov modela i podrške za korisnički definirane rječnike omogućava robusnu segmentaciju u raznim domenima i tipovima teksta. Otvoreno kodna priroda Jieba i jednostavnost integracije doprinijeli su njegovoj popularnosti u akademskim istraživanjima i industrijskim aplikacijama, od pretraživača do analize sentimenta i strojnog prevođenja.
Gledajući unaprijed, buduće perspektive za Jieba su obećavajuće, ali također predstavljaju nekoliko izazova i prilika. Kako se pristupi segmentaciji kineskih riječi temeljeni na dubokom učenju nastavljaju razvijati, integracija modela neuronskih mreža s postojećim okvirom Jieba mogla bi dodatno poboljšati točnost segmentacije, posebno za rješavanje riječi izvan rječnika i dvosmislenosti ovisnih o kontekstu. Dodatno, proširenje podrške za dijalektalne varijacije i specifične vokabularne će biti ključno za održavanje relevantnosti Jieba u specijaliziranim aplikacijama.
Još jedan važan pravac je optimizacija performansi za obradu u velikom obimu i u stvarnom vremenu, što može uključivati paralelizaciju ili korištenje hardverske akceleracije. Razvoj zajednice i doprinosi vjerojatno će igrati ključnu ulogu u rješavanju ovih izazova i osiguravanju da Jieba ostane na čelu tehnologije segmentacije kineskog teksta. Za trajna ažuriranja i suradnički razvoj, korisnici mogu se obratiti službenom repozitoriju na Jieba GitHub.
Izvori i reference
- Jieba GitHub repozitorij
- Jieba PyPI projekt
- Jianshu tehnički blog
- scikit-learn
- pandas
- Udruženje za računalnu lingvistiku
- THULAC
- HanLP