Razumevanje Jieba algoritma za segmentaciju kineskog teksta: kako funkcioniše, zašto je važan i gde se ističe u obradi prirodnog jezika
- Uvod u segmentaciju kineskog teksta
- Pregled Jieba algoritma
- Osnovne karakteristike i sposobnosti Jieba
- Kako Jieba vrši segmentaciju reči
- Prilagođavanje i upravljanje rečnikom
- Integracija sa Pythonom i drugim platformama
- Benchmarkovi performansi i tačnost
- Uobičajeni slučajevi korišćenja i primene u stvarnom svetu
- Ograničenja i izazovi
- Poređenja sa drugim alatima za segmentaciju kineskog jezika
- Kako početi: Instalacija i osnovna upotreba
- Napredne tehnike i saveti
- Zaključak i buduće perspektive
- Izvori i reference
Uvod u segmentaciju kineskog teksta
Segmentacija kineskog teksta je osnovni zadatak u obradi prirodnog jezika (NLP) za kineski, jer jezik ne koristi razmake za deljenje reči. Ovo čini neophodnim identifikovanje granica reči pre nego što se može izvršiti dalja lingvistička analiza, poput označavanja delova govora ili mašinskog prevođenja. Jieba algoritam za segmentaciju kineskog teksta je jedan od najšire usvojenih open-source alata za ovu svrhu, posebno u Python ekosistemu. Jieba, što u kineskom znači „seći u segmente“, osmišljen je da efikasno i tačno segmentira kineske rečenice na pojedinačne reči ili značne jedinice.
Jieba koristi kombinaciju metoda zasnovanih na rečniku i statističkih modela da bi postigao visoku tačnost segmentacije. Koristi unapred izgrađeni rečnik kako bi se podudarili najduži mogući izrazi u rečenici, tehnika poznata kao „maximum matching“ algoritam. Pored toga, Jieba uključuje i model skrivenog Markova (HMM) za rukovanje nepoznatim rečima i dvosmislenim slučajevima, čime se dodatno poboljšava njegova otpornost i prilagodljivost različitim domenima teksta. Algoritam takođe podržava korisnički definisane rečnike, omogućavajući prilagođavanje za specifične rečnike ili stručnu terminologiju.
Zbog svoje jednostavnosti korišćenja, proširivosti i snažne performanse, Jieba je postao standardni alat za pripremu kineskog teksta u akademskim istraživanjima i industrijskim primenama. Njegova open-source priroda i aktivna podrška zajednice doprinose širokoj upotrebi i kontinuiranom napretku. Za više informacija i pristup izvornom kodu, pogledajte Jieba GitHub repositorijum.
Pregled Jieba algoritma
Jieba algoritam za segmentaciju kineskog teksta je široko usvojeni open-source alat osmišljen da reši jedinstvene izazove kineske segmentacije reči. Za razliku od jezika koji koriste razmake za deljenje reči, kineski tekst se piše kao kontinuirani niz karaktera, što automatizovanu segmentaciju čini složenim zadatkom. Jieba, što u kineskom znači „seći u segmente“, koristi kombinaciju metoda zasnovanih na rečniku i statističkih modela za tačno identifikovanje granica reči unutar kineskih rečenica.
U svom osnovnom obliku, Jieba koristi prefiksni rečnik za efikasan pretraživački sistem, omogućavajući mu da brzo podudara najduže moguće reči u datoj rečenici. Ovaj pristup je osnažen upotrebom modela skrivenog Markova (HMM) za slučajeve kada pretraživanje rečnika nije dovoljno, kao što su nove reči ili imena koja nisu prisutna u rečniku. Jieba takođe podržava korisnički definisane rečnike, omogućavajući prilagođavanje i poboljšanu tačnost u primenama specifičnim za domen.
Algoritam je implementiran u Pythonu i poznat je po svojoj jednostavnosti korišćenja, brzini i proširivosti. Jieba pruža tri osnovna režima segmentacije: precizni režim (za najtačniju segmentaciju), puni režim (koji navodi sve moguće kombinacije reči) i režim pretraživača (optimizovan za pretraživačke upite). Njegova svestranost je učinila popularnim izborom za zadatke obrade prirodnog jezika kao što su pretraga informacija, klasifikacija teksta i analiza sentimenta u kontekstu kineskog jezika. Za više informacija i izvorni kod, pogledajte Jieba GitHub repositorijum i Jieba PyPI projekat.
Osnovne karakteristike i sposobnosti Jieba
Jieba je poznata po svom robusnom i fleksibilnom pristupu segmentaciji kineskog teksta, nudeći skup osnovnih karakteristika koje ga čine popularnim izborom za zadatke obrade prirodnog jezika. Jedna od njegovih primarnih sposobnosti je korišćenje modela zasnovanog na prefiksnom rečniku, koji omogućava efikasnu i tačnu segmentaciju reči podudaranjem najdužih mogućih reči iz sveobuhvatnog leksikona. Jieba podržava tri režima segmentacije: precizni režim za najtačniju segmentaciju, puni režim za iscrpnu ekstrakciju reči i režim pretraživača, koji je optimizovan za scenarije pretrage generisanjem finijih segmenata.
Još jedna ključna karakteristika je podrška Jieba za prilagođene rečnike, omogućavajući korisnicima da dodaju specifičnu terminologiju ili nove reči, čime se povećava tačnost segmentacije u specijalizovanim kontekstima. Jieba takođe integriše označavanje delova govora (POS), što dodeljuje gramatičke kategorije segmentiranim rečima, olakšavajući dalji rad kao što su sintaktička analiza i prepoznavanje imenskih entiteta. Dodatno, Jieba pruža ekstrakciju ključnih reči koristeći TF-IDF i TextRank algoritme, omogućavajući korisnicima da identifikuju najrelevantnije izraze unutar dokumenta.
Jieba je implementirana u Pythonu, što je čini dostupnom i jednostavnom za integraciju u razne aplikacije. Njena open-source priroda i aktivna podrška zajednice dodatno doprinose njenoj prilagodljivosti i proširivosti. Ravnoteža između brzine i tačnosti algoritma, zajedno sa njegovim modularnim dizajnom, učinila je Jiebu osnovnim alatom u procesnim tokovima obrade kineskog jezika. Za više informacija, pogledajte Jieba GitHub repositorijum i Jieba PyPI projekat.
Kako Jieba vrši segmentaciju reči
Jieba vrši segmentaciju kineskih reči putem kombinacije metoda zasnovanih na rečniku i probabilističkih modela, omogućavajući mu da efikasno rukuje inherentnom dvosmislenošću kineskog teksta, gde reči nisu odvojene razmacima. Osnovni proces segmentacije u Jieba uključuje tri glavna koraka: maksimalno usklađivanje zasnovano na rečniku, prepoznavanje zasnovano na modelu skrivenog Markova (HMM) i integraciju korisnički definisanog rečnika.
U početku, Jieba koristi unapred izgrađeni rečnik za izvršavanje segmentacije maksimalne verovatnoće. Konstruira usmereni aciklični graf (DAG) za ulaznu rečenicu, gde svaki čvor predstavlja moguću reč iz rečnika. Jieba zatim primenjuje Viterbijev algoritam kako bi pronašao najverovatniji put kroz DAG, efikasno segmentirajući rečenicu u najverovatniju sekvencu reči na osnovu statistike frekvencije reči iz velikih korpusa (Jieba GitHub repositorijum).
Za reči ili imena koja nisu prisutna u glavnom rečniku, Jieba koristi model skrivenog Markova (HMM) kako bi identifikovao nove reči modelovanjem sekvence karaktera kao Markovog procesa. HMM se obučava na označenim podacima kako bi prepoznao granice reči na osnovu verovatnoća prelaza između karaktera, što Jieba omogućava da segmentira reči van rečnika i imena (Jianshu Tehnički Blog).
Pored toga, Jieba omogućava korisnicima da dodaju prilagođene reči u svoj rečnik, obezbeđujući tačnu segmentaciju specifičnih termina. Ovaj hibridni pristup—kombinacija pretraživanja rečnika, probabilističkog modelovanja i prilagođavanja korisnika—omogućava Jieba postizanje visoke tačnosti i prilagodljivosti u zadacima segmentacije kineskih reči.
Prilagođavanje i upravljanje rečnikom
Jedna od ključnih prednosti Jieba algoritma za segmentaciju kineskog teksta leži u njegovoj robusnoj podršci za prilagođavanje i upravljanje rečnikom, što je od suštinskog značaja za prilagođavanje segmentacije specifičnim rečnicima i evolutivnoj upotrebi jezika. Jieba omogućava korisnicima da učitavaju prilagođene rečnike pored svog ugrađenog leksikona, omogućavajući prepoznavanje novih reči, poznatih imena, tehničkih termina ili slenga koji možda nisu prisutni u podrazumevanom rečniku. Ovo je posebno korisno za primene u specijalizovanim oblastima kao što su medicina, pravo ili tehnologija, gde standardna segmentacija možda neće tačno identifikovati relevantne termine.
Prilagođeni rečnici u Jieba su jednostavni tekstualni fajlovi, pri čemu se svaka linija definiše rečju, njenom frekvencijom i opcionim oznakom dela govora. Povećanjem frekvencije reči, korisnici mogu uticati na ponašanje segmentacije Jieba, osiguravajući da se poštuju preferirane granice reči. Jieba takođe obezbeđuje API-je za dinamičko dodavanje ili brisanje reči u vreme izvođenja, pružajući fleksibilnost za interaktivne ili adaptivne aplikacije.
Štaviše, Jieba podržava korišćenje korisnički definisanih lista reči za zaustavljanje i crnih lista, što omogućava isključivanje nerelevantnih ili neželjenih termina iz rezultata segmentacije. Ova nivo kontrole je ključan za zadatke kao što su pretraga informacija, analiza sentimenta i prepoznavanje imenskih entiteta, gde preciznost u granicama reči direktno utiče na performanse u nastavku. Laka upravljivost rečnikom, u kombinaciji sa efikasnim algoritmima Jieba, čini ga popularnim izborom za istraživačke i produkcijske okruženja koja zahtevaju prilagođene rešenja za obradu kineskog teksta (Jieba GitHub repositorijum).
Integracija sa Pythonom i drugim platformama
Jieba je poznata po svojoj besprijekornoj integraciji sa Pythonom, što ga čini popularnim izborom za segmentaciju kineskog teksta u projektima podatkovnih nauka, obrade prirodnog jezika i mašinskog učenja. Osnovna Jieba biblioteka je implementirana u Pythonu, što korisnicima omogućava laku instalaciju putem upravitelja paketa kao što je pip. Njegov API je intuitivan, podržavajući funkcije kao što su precizni režim, puni režim, i režim pretraživača, kao i označavanje delova govora. Ova jednostavnost omogućava brzo prototipiranje i primenu u Python zaokruženjima, uključujući Jupyter beležnice i web okvire kao što su Flask i Django.
Pored Pythona, Jieba takođe nudi podršku za druge platforme. Postoje portovi i omotači dostupni za jezike kao što su Java (jieba-analysis), C++ (cppjieba) i Go (gojieba). Ove implementacije održavaju kompatibilnost sa originalnom Python verzijom, osiguravajući dosledne rezultate segmentacije preko različitih tehnologija. Ova podrška za više jezika je posebno vredna za organizacije sa heterogenim sistemima ili onima koje primenjuju mikroservise na više jezika.
Proširivost Jieba dodatno je poboljšana njegovom sposobnošću da učitava prilagođene rečnike, čineći ga prilagodljivim za specifične rečnike. Integracija sa drugim Python bibliotekama, kao što su scikit-learn za mašinsko učenje ili pandas za analizu podataka, je jednostavna, omogućavajući end-to-end procese obrade kineskog teksta. Aktivna open-source zajednica i sveobuhvatna dokumentacija na Jieba GitHub repositorijumu dodatno olakšavaju integraciju i rešavanje problema među platformama.
Benchmarkovi performansi i tačnost
Performanse i tačnost Jieba algoritma za segmentaciju kineskog teksta učinile su ga popularnim izborom za zadatke obrade prirodnog jezika koji uključuju kineski tekst. Jieba je poznata po svojoj ravnoteži između brzine i preciznosti segmentacije, koja je ključna s obzirom na složenost granica reči u kineskom jeziku. U benchmark testovima, Jieba obično postiže brzine segmentacije od 100,000 do 200,000 karaktera u sekundi na standardnoj opremi, što ga čini pogodnim za real-time i batch procesuiranje. Njegov temeljni pristup zasnovan na rečniku, poboljšan modelom skrivenog Markova (HMM) za prepoznavanje nepoznatih reči, omogućava Jieba održavanje visokih stopa tačnosti—često premašujući 95% F1-skora na standardnim skupovima podataka kao što su SIGHAN Bakeoff korpusi.
Tačnost u Jieba dodatno potkrepljuje podrška za korisnički definisane rečnike, omogućavajući integraciju specifične rečničke terminologije i poboljšano rukovanje poznatim imenima ili tehničkim terminima. Uporedne studije su pokazale da iako segmentatori zasnovani na dubokom učenju mogu nadmašiti Jieba u određenim rubnim slučajevima, Jieba ostaje visoko konkurentna zbog svojih niskih zahteva za resursima i lakoće prilagođavanja. Pored toga, performanse algoritma mogu se fino podešavati prilagođavanjem prioriteta rečnika i korišćenjem njegovih sposobnosti označavanja delova govora.
Za praktične primene, kvalitet segmentacije Jieba je obično dovoljan za zadatke poput indeksiranja pretrage, ekstrakcije ključnih reči i klasifikacije teksta. Njegova open-source priroda i aktivna podrška zajednice osiguravaju kontinuirana poboljšanja i benchmarking protiv novih podataka. Za detaljnije metrike performansi i uporedne studije, pogledajte zvaničnu dokumentaciju i istraživačke radove koje pruža Jieba i organizatori SIGHAN Bakeoff-a.
Uobičajeni slučajevi korišćenja i primene u stvarnom svetu
Jieba algoritam za segmentaciju kineskog teksta široko se usvaja u akademskim i industrijskim postavkama zbog svoje efikasnosti i jednostavne integracije. Jedan od njegovih najčešćih slučajeva korišćenja je u pretraživačima, gde je tačna segmentacija reči ključna za indeksiranje i preuzimanje relevantnih dokumenata na kineskom jeziku. Segmentacijom korisničkih upita i sadržaja dokumenata, Jieba omogućava preciznije podudaranje i rangiranje, značajno poboljšavajući kvalitet pretrage za platforme kao što su sajtovi za e-trgovinu i digitalne biblioteke.
Još jedna rasprostranjena primena je u procesima obrade prirodnog jezika (NLP), gde Jieba služi kao osnovni korak za zadatke poput analize sentimenta, modelovanja tema i mašinskog prevođenja. Na primer, alati za praćenje društvenih medija koriste Jieba za razbijanje sadržaja generisanog od strane korisnika na značne tokene, olakšavajući analizu kao što su rudarstvo mišljenja i otkrivanje trendova.
Jieba je takođe ključna u klasifikaciji teksta i sistemima preporuka. Agregatori vesti i sadržajni portali koriste algoritam za segmentaciju članaka i komentara korisnika, omogućavajući tačniju kategorizaciju i personalizovanu isporuku sadržaja. Pored toga, chatboti i virtuelni asistenti koriste Jieba za prepoznavanje namera i ekstrakciju entiteta, poboljšavajući svoju sposobnost da razumeju i reaguju na ulaze korisnika na kineskom.
Osim ovoga, Jieba se koristi u akademskim istraživanjima, posebno u studijama korpus lingvistike i računarske lingvistike, gde je potrebna segmentacija velikih razmera. Njegova open-source priroda i aktivna podrška zajednice dovele su do široke upotrebe i kontinuiranog poboljšanja, čineći ga prvim izborom za obradu kineskog teksta u raznim domenima (Jieba GitHub repositorijum).
Ograničenja i izazovi
Iako je Jieba algoritam za segmentaciju kineskog teksta široko usvojen zbog svoje jednostavnosti korišćenja i razumnosti tačnosti, suočava se sa nekoliko značajnih ograničenja i izazova. Jedan od glavnih problema je njegovo oslanjanje na unapred definisan rečnik za segmentaciju reči. Ovaj pristup može dovesti do teškoća u rukovanju rečima koje nisu u rečniku (OOV), kao što su novokovanice, stručni žargon ili vlastita imena, koja nisu prisutna u rečniku. Kao rezultat, Jieba može pogrešno segmentirati ili propustiti prepoznavanje ovih reči, što utiče na daljnje zadatke obrade prirodnog jezika (NLP).
Još jedan izazov je ograničena sposobnost algoritma da reši dvosmislenosti reči u kontekstu. Kineski tekst često sadrži reči koje se mogu segmentirati na više validnih načina, u zavisnosti od okruženja. Podrazumevani režim Jieba, koji koristi kombinaciju metoda zasnovanih na rečniku i modela skrivenog Markova (HMM), možda ne bira uvek najsemantičniju segmentaciju, posebno u složenim ili dvosmislenim rečenicama. Ovo može smanjiti tačnost aplikacija kao što su analiza sentimenta ili pretraga informacija.
Dodatno, performanse Jieba mogu opadati sa vrlo velikim korpusima ili u real-time aplikacijama, jer njegova brzina segmentacije nije optimizovana za okruženja sa visokim protokom. Algoritam takođe nema napredne funkcije poput razumevanja konteksta zasnovanog na dubokom učenju, koje su sve važnije u modernom NLP-u. Ova ograničenja naglašavaju potrebu za kontinuiranim poboljšanjima i integracijom sofisticiranijih modela kako bi se odgovorilo na evoluirajuće zahteve obrade kineskog jezika (Jieba GitHub repositorijum; Asocijacija za računarsku lingvistiku).
Poređenja sa drugim alatima za segmentaciju kineskog jezika
Jieba je jedan od najpopularnijih algoritama za segmentaciju kineskog teksta, ali nije jedini alat dostupan za ovaj zadatak. Kada se poredi sa drugim glavnim alatima za segmentaciju kineskog jezika kao što su THULAC, HanLP i ICTCLAS, Jieba se izdvaja po svojoj jednostavnosti korišćenja, fleksibilnosti i podršci zajednice. Jieba koristi kombinaciju metoda zasnovanih na prefiksnom rečniku i modela skrivenog Markova (HMM) za otkrivanje novih reči, što ga čini posebno efikasnim za opšte primene i brzo prototipiranje. Njegova Python implementacija i jednostavan API doprineli su širokoj upotrebi među programerima i istraživačima.
Nasuprot tome, THULAC (Kineski leksički analizer Tsinghua univerziteta) je optimizovan za brzinu i tačnost, koristeći diskriminativni model i velike trening podatke. THULAC se često preferira u scenarijima gde je efikasnost obrade ključna. HanLP nudi sveobuhvatniji paket alata za obradu prirodnog jezika, uključujući naprednu segmentaciju, označavanje delova govora i parsiranje zavisnosti, i poznat je po svojoj visokoj tačnosti i podršci za više jezika. ICTCLAS (Institut za računarsku tehnologiju, Kineski sistem za leksičku analizu) je još jedan robusni alat, široko korišćen u akademskim i industrijskim okruženjima, i prepoznat je po visokoj preciznosti segmentacije i podršci za prilagođavanje specifičnoj domeni.
Iako je Jieba vrlo proširiv i omogućava korisnicima lako dodavanje prilagođenih rečnika, neki od drugih alata, kao što su HanLP i ICTCLAS, nude sofisticiranije lingvističke karakteristike i bolje performanse na specijalizovanim korpusima. Konačno, izbor između Jieba i drugih alata za segmentaciju zavisi od specifičnih zahteva aplikacije, kao što su brzina, tačnost, proširivost i jednostavnost integracije.
Kako početi: Instalacija i osnovna upotreba
Da biste počeli koristiti Jieba algoritam za segmentaciju kineskog teksta, prvo morate instalirati paket. Jieba je Python biblioteka, a preporučena metoda instalacije je putem Pythona upravitelja paketa, pip. Jednostavno pokrenite pip install jieba
u vašem terminalu ili komandnom prozoru. Ovo će preuzeti i instalirati najnoviju stabilnu verziju Jieba i njene zavisnosti iz Python Package Index-a (Python Package Index).
Nakon što je instalirana, možete brzo početi sa segmentacijom kineskog teksta. Uvezite Jieba u vašem Python skriptu sa import jieba
. Najčešća metoda za segmentaciju je jieba.cut()
, koja vraća generator koji vraća segmentirane reči. Na primer:
import jieba text = "我来到北京清华大学" words = jieba.cut(text) print("/".join(words))
Ovo će ispisati: 我/来到/北京/清华大学
. Jieba podržava tri režima segmentacije: precizni režim (podrazumevano), puni režim (koristeći jieba.cut(text, cut_all=True)
), i režim pretraživača (koristeći jieba.cut_for_search(text)
). Svaki režim je optimizovan za različite slučajeve upotrebe, kao što su opšta analiza teksta ili indeksiranje pretrage.
Jieba takođe omogućava dodavanje prilagođenih reči u svoj rečnik koristeći jieba.add_word()
, što je korisno za specifične termine. Za više napredne upotrebe i dokumentaciju, pogledajte zvanični Jieba GitHub repositorijum.
Napredne tehnike i saveti
Iako je Jieba algoritam za segmentaciju kineskog teksta široko cenjen zbog svoje jednostavnosti korišćenja i performansi „iz kutije“, napredni korisnici mogu iskoristiti nekoliko tehnika za dalje poboljšanje tačnosti i efikasnosti segmentacije. Jedan od efikasnih pristupa je prilagođavanje korisničkog rečnika. Dodavanjem specifičnih termina ili poznatih imena u Jiebin korisnički rečnik, korisnici mogu značajno poboljšati rezultate segmentacije za specijalizovane tekstove, kao što su medicinski, pravni ili tehnički dokumenti.
Još jedna napredna tehnika uključuje podešavanje Jiebinog internog modela skrivenog Markova (HMM) za otkrivanje novih reči. Omogućavanjem HMM-a, Jieba može identifikovati i segmentirati prethodno neviđene reči, što je posebno korisno za obradu dinamičnih ili evolutivnih korpusa. Za aplikacije velikih razmera, korisnici takođe mogu unapred učitati rečnike i segmentirati tekstove paralelno koristeći Jiebinu podršku za višekratnost, čime se optimizuje performansa za big data scenarije.
Jieba takođe omogućava prilagođavanje težina frekvencija reči. Modifikacijom frekvencije određenih reči u rečniku, korisnici mogu uticati na izbore segmentacije Jieba, razrešavajući dvosmislenosti u kontekstualnim slučajevima. Pored toga, integracija Jieba sa drugim alatima za obradu prirodnog jezika, kao što su označivači delova govora ili prepoznavači imenskih entiteta, može dodatno poboljšati ishod segmentacije.
Za istraživačka i produkciona okruženja preporučuje se redovno ažuriranje rečnika i retreniranje modela sa novim podacima kako bi se održala tačnost segmentacije. Za više informacija i napredne upotrebe, pogledajte zvaničnu dokumentaciju koju pruža Jieba algoritam za segmentaciju kineskog teksta.
Zaključak i buduće perspektive
Jieba algoritam za segmentaciju kineskog teksta je uspostavio sebe kao široko usvojen i efikasan alat za zadatke obrade prirodnog jezika (NLP) u kineskom jeziku. Njegova kombinacija metoda zasnovanih na rečniku, modela skrivenog Markova i podrške za korisnički definisane rečnike omogućava robusnu segmentaciju u različitim domenima i tipovima teksta. Jieba open-source priroda i jednostavnost integracije doprinose njegovoj popularnosti u akademskim istraživanjima i industrijskim primenama, od pretraživača do analize sentimenta i mašinskog prevođenja.
Gledajući unapred, buduće perspektive za Jieba su obećavajuće, ali takođe donose nekoliko izazova i prilika. Kako se pristupi zasnovani na dubokom učenju za segmentaciju kineskih reči nastavljaju da napreduju, integracija neuralnih mrežnih modela sa postojećim Jiebinim okvirom mogla bi dodatno poboljšati tačnost segmentacije, posebno za rukovanje rečima van rečnika i dvosmislenih fraza zavisno od konteksta. Takođe, proširenje podrške za dijalekatske varijacije i specifične rečnike biće ključno za održavanje relevantnosti Jieba u specijalizovanim aplikacijama.
Još jedan važan pravac je optimizacija performansi za obradu velikih razmera i u realnom vremenu, što može uključivati paralelizaciju ili korišćenje hardverske akceleracije. Razvoj i doprinos zajednice verovatno će igrati ključnu ulogu u rešavanju ovih izazova i obezbeđivanju da Jieba ostane na čelu tehnologije segmentacije kineskog teksta. Za najnovije vesti i saradnički razvoj, korisnici mogu se obratiti zvaničnom repozitorijumu na Jieba GitHub.
Izvori i reference
- Jieba GitHub repositorijum
- Jieba PyPI projekat
- Jianshu Tehnički Blog
- scikit-learn
- pandas
- Asocijacija za računarsku lingvistiku
- THULAC
- HanLP