FormationKolehiyo ug mga unibersidad

Unsa ang Corpus Linguistics?

Pipila lang ka dekada na ang milabay sa automate sa mga pinulongan research, ang mga siyentipiko lamang ka damgo sa. Ang buhat nga gihimo pinaagi sa kamot, kini attracts sa usa ka dako nga gidaghanon sa mga estudyante, adunay usa ka malig-kalagmitan "danghag" sayop, ug labing importante - ang tanan nga kini gikuha sa usa ka dugay, dugay nga panahon.

Uban sa pagpalambo sa computer teknolohiya nahimong posible nga sa pagpahigayon og research sa kapunongan sa magnitude mas paspas, ug karon ang usa sa labing maayong mga direksyon diha sa pagtuon sa pinulongan mao ang sa usa ka corpus pinulongan. Ang nag-unang bahin mao ang paggamit sa dako nga kantidad sa impormasyon nga teksto, impormasyon ngadto sa usa ka ka database, sa usa ka espesyal nga paagi, ug gitawag ang dakong lawas.

Sa petsa, adunay daghan nga mga gambalay nga gibuhat sa lain-laing mga katuyoan sa basehan sa mga nagkalain-laing pinulongan nga materyal nga mikabat gikan sa minilyon ngadto sa napulo sa bilyones sa kadamuon nga mga yunit. direksyon Kini nga giila nga usa ka nagsaad ug nagpakita sa mahinungdanon nga pag-uswag ngadto sa aplikasyon ug research katuyoan. Mga eksperto, ang usa ka paagi o sa lain nga pagbuhat uban sa natural nga pinulongan, kini girekomendar sa masinati sa mga lawas sa mga teksto sa labing menos sa usa ka nag-unang mga ang-ang.

Kasaysayan sa corpus pinulongan

Ang pagporma sa niini nga Trend mao ang tungod sa paglalang sa Estados Unidos sa Brown lawas sa unang bahin sa 60-dad sa mga sa katapusan nga nga siglo. koleksyon naglakip sa mga teksto sa tanan nga 1 milyon sa mga porma sa pulong, ug karon sa lawas sa niini nga gidak-on nga hingpit uncompetitive. Kini mao ang kadaghanan tungod sa lakang sa pagpalambo sa computer teknolohiya, ingon man sa mga nagtubo nga mga panginahanglan alang sa bag-ong mga kapanguhaan sa research.

Sa 90s corpus pinulongan mitumaw ngadto sa usa ka bug-os nga ug independente nga disiplina, usa ka koleksyon sa mga teksto nga nadani ug gimarkahan alang sa daghang mga pinulongan. Sa niini nga panahon kini gibuhat, alang sa panig-ingnan, ang British National Corpus 100 milyon timaan.

Uban sa kalamboan sa niini nga dapit sa pinulongan, tomo text nga nahimong labaw pa ug mas (ug pagkab-ot sa binilyon sa diksyonaryo mga yunit), ug ang layout nahimong mas lain-laing mga. Sa petsa, sa Internet nga luna makita lawas nga patay gisulat ug gisulti nga pinulongan, multilingual, ug pagkat-on-oriented sa arte o sa academic literatura, ingon man usab sa daghang uban pang mga sakop sa henero nga.

Unsa ang mga housing

matang sa lawas sa mga pinulongan sa lawas mahimo nga alang sa pipila ka mga rason. Gihunahuna, ang basehan alang sa classification mahimong usa ka text nga pinulongan (Russian, German nga), ang access mode (dayag nga tinubdan, sirado, komersyal nga), ang genre sa tinubdan nga materyal (fiction, documentary, academic, journalism).

Makapaikag nga paagi og mga materyales sa gisulti nga pinulongan. Sukad sa tinuyo nga recording sa maong sinultihan sa paghimo sa usa ka artipisyal nga palibot alang sa mga respondents, ug ang resulta sa materyal nga dili mahimong gitawag nga "diha-diha", modernong corpus pinulongan na sa lain nga paagi. Ang usa ka boluntaryo ang himan sa usa ka mikropono, ug sa panahon sa adlaw og usa ka talaan sa tanan nga mga panag-istoryahanay, nga kini moapil. Ang mga tawo sa palibot, siyempre, mahimong dili mahibalo nga sa paglabay sa adlaw-adlaw nga panag-istorya ambag ngadto sa pagpalambo sa siyensiya.

Sa ulahi nakadawat rekord nga gitipigan sa database ug inubanan sa naimprinta nga matang nga teksto transcript. Busa, kini mahimong posible nga markup nga gikinahanglan sa paghimo sa usa ka oral adlaw-adlaw nga sinultihan housing.

aplikasyon

Bisan asa posible nga sa paggamit sa pinulongan, ug tingali sa paggamit sa mga building teksto. Pamaagi sa paggamit sa kasko sa pinulongan mahimong:

  • Paghimo sa usa ka programa sa pagtino sa yawe, ang kaylap nga gigamit sa politika ug negosyo sa pagbantay sa track sa positibo ug negatibo nga mga tubag sa mga botante ug sa mga kustomer, sa tinagsa.
  • Koneksyon sa impormasyon nga sistema sa mga diksiyonaryo ug mga maghuhubad sa pagpauswag sa ilang performance.
  • Usa ka matang sa research buluhaton nga makaamot sa pagsabot sa yunit pinulongan, ang kasaysayan sa iyang kalamboan ug panagna sa mga kausaban sa sa duol nga umaabot.
  • Development sa impormasyon retrieval sistema sa base sa morpolohiya, syntactic, semantiko ug uban pang mga bahin.
  • Pagkamalaumon sa lain-laing mga pinulongan nga mga sistema ug sa uban.

Paggamit sa mga building

susama nga kapanguhaan interface uban sa usa ka tipikal nga search engine, ug moaghat sa mga user sa pagsulod sa usa ka pulong o kombinasyon sa mga pulong sa pagpangita alang sa impormasyon base. Gawas maporma ang eksaktong pangutana makagamit sa enhanced bersyon, nga nagtugot sa pagpangita sa teksto nga impormasyon sa halos sa bisan unsa nga pinulongan criteria.

search base mahimong:

  • mga miyembro sa usa ka partikular nga grupo sa mga bahin sa pagsulti;
  • gramatika nga mga bahin;
  • semantiko;
  • stylistic ug emosyonal nga pagkolor.

Ikaw mahimo usab nga combine criteria search alang sa usa ka han-ay sa mga pulong, pananglitan, sa pagpangita sa tanan nga mga higayon nga makita sa mga berbo diha sa present tense, unang tawo nga singular, nga moabut human sa preposisyon "sa" ug ang nombre sa accusative kaso. Ang solusyon sa maong usa ka yano nga buluhaton nga makakuha user sa usa ka pipila ka segundo ug nagkinahanglan lamang sa pipila ka mga clicks mouse diha sa mga bungat kaumahan.

Ang proseso sa pagmugna

Ang search sa iyang kaugalingon mahimong gidala sa gawas sa tanan nga subcorpus ug usa ilabi pinili, depende sa mga panginahanglan sa pagkab-ot sa usa ka partikular nga tumong:

  1. Ang unang lakang mao ang nagpaila nga mga teksto maporma ang basehan alang sa kaso. Alang sa praktikal nga katuyoan, kanunay kini gigamit journalistic, mga istorya balita, online nga mga komentaryo. Ang research nga proyekto mao ang paggamit sa usa ka halapad nga matang sa matang sa package, apan ang teksto kinahanglan nga pinili nga sumala sa pipila ka komon nga yuta.
  2. Ang resulta koleksyon sa mga teksto nga gipailalom sa pretreatment, adunay pagtul-id sa mga sayop, kon sa bisan unsa nga, giandam sa bibliographic ug extra-pinulongan nga paghulagway sa teksto.
  3. Ang giwagtang sa tanan nga non-teksto nga impormasyon: Hinloan ang mga graphic, mga hulagway, mga lamesa.
  4. Mao ang usa ka alokasyon sa mga ilhanan, nga mao ang kasagaran sinultihan, alang sa dugang nga pagproseso.
  5. Sa katapusan, kini gidala morpolohiya, syntactical ug uban pang mga marka nga nakuha dinaghan nga mga elemento.

Ang resulta sa tanan nga mga transaksyon nga gihimo sa usa ka syntactic gambalay uban sa-apod-apod niini sa usa ka dinaghan nga mga elemento, ang matag usa sa nga giila nga bahin sa sinultihan, gramatika ug, sa pipila ka mga kaso, ang mga semantiko hiyas.

Mga kalisdanan sa pagmugna sa mga building

Kini mao ang importante nga makasabut nga dili igo sa pagbutang sa tingub sa usa ka hugpong sa mga pulong o mga tudling-pulong alang sa lawas. Sa usa ka bahin, usa ka koleksyon sa mga teksto kinahanglan nga balanse, nga mao, nagrepresentar sa lain-laing matang sa mga teksto sa pipila ka katimbangan. Sa uban nga mga - ang mga sulod sa hawanan kinahanglan nga spaced sa usa ka espesyal nga paagi.

Ang unang problema mao ang masulbad pinaagi sa usa ka kasabutan: kay sa panig-ingnan, sa koleksyon naglakip sa 60% sa mga literary mga teksto, 20% sa mga documentaries, usa ka porsiyento gihatag ang usa ka sinulat nga representasyon sa pinulongan, pamalaod, siyentipikanhong mga buhat, ug uban pa hingpit nga resipe balanse nga lawas karon wala anaa ...

Ang ikaduha nga pangutana, mahitungod sa mga sulod layout, pagsulbad sa lisod nga. Adunay espesyal nga mga programa ug mga algorithms nga gigamit alang sa automatic nga nagtimaan sa mga teksto, apan sila dili paghatag sa usa ka hingpit nga resulta, hinungdan kasamok ug nagkinahanglan manwal rework. Oportunidad ug mga hagit sa pagpakig-angot sa problema niini nga gihulagway diha sa detalye sa usa ka papel V. P. Zaharova sa corpus pinulongan.

Text markup implementar sa pipila ka ang-ang, nga ilista kita sa ubos.

morpolohiya tomo

Gikan sa eskwelahan, atong hinumduman nga sa Russian nga pinulongan, adunay lain-laing mga bahin sa pagsulti, ug sa matag usa kanila adunay iyang kaugalingon nga mga kinaiya. Kay sa panig-ingnan, ang berbo may kategoriya sa mga hilig ug ang panahon sa nga walay noun. ang usa ka lumad nga mamumulong nga walay ukon-ukon mobalibad nombre ug conjugate berbo, apan sa pagtimaan sa lawas sa 100 milyon. gamit diha manwal nga trabaho dili sa trabaho. Ang tanan nga mga gikinahanglan nga mga operasyon mahimo ipakanaug ang computer, Apan, alang niini nga kini kinahanglan nga matudloan.

Morpolohiya tomo, ang computer kinahanglan "nga makasabut" matag pulong nga ingon sa usa ka bahin sa sinultihan nga may pipila ka gramatika bahin. Tungod kay ang Russian nga (ug sa bisan unsa nga lain nga mga pinulongan) naglihok sa usa ka gidaghanon sa mga regular nga mga lagda, kini mao ang posible nga sa pagtukod sa usa ka automatic nga pamaagi alang sa morpolohiya pagtuki, og sa sakyanan alang sa usa ka gidaghanon sa mga algorithms. Apan, adunay mga eksepsiyon sa pagmando sa, ingon man sa nagkalain-laing mga complicating mga hinungdan. Ingon sa usa ka resulta, pukot computer pagtuki sa karon mao ang sa halayo gikan sa sulundon nga, ug bisan 4% sayop abot sa usa ka bili sa 4 mln. Pulong sa sa lawas sa 100 milyones. Units, nagkinahanglan manwal rework.

Detalyado nga basahon naghulagway sa mga problema Zaharova V. P. "Corpus Linguistics".

syntactic annotation

Parsing o parsing - usa ka pamaagi nga motino sa relasyon sa mga pulong sa usa ka tudling-pulong. Pinaagi sa paggamit sa usa ka hugpong sa algorithms mao ang posible nga sa pagtino sa teksto sa hilisgutan, predicate, pagdugang, daghang puli sa sinultihan. Susiha nga mga pulong mao ang mga nag-unang han-ay, ug nga - nagsalig, kita epektibo nga kinuha sa impormasyon gikan sa teksto ug sa pagtudlo sa makina sa isyu sa tubag sa usa ka hangyo search lamang sa impormasyon makapaikag kanato.

Pinaagi sa dalan, ang modernong search maquina sa paggamit niini nga sa paghatag sa piho nga mga numero sa baylo nga sa taas nga mga teksto sa tubag sa mga may kalabutan nga mga pangutana sama sa "sa unsa nga paagi sa daghang mga kaloriya sa usa ka mansanas" o "ang gilay-on gikan sa Moscow ngadto sa St. Petersburg." Apan, sa pagsabut bisan ang mga sukaranan sa mga proseso nga gihulagway sa panginahanglan sa mokonsulta sa "Pasiuna sa Corpus Linguistics" o uban pang mga nag-unang mga tutorial.

semantiko markup

Ang semantiko sa pulong - mao, sa yano nga mga pulong, ang kahulogan. Kaylap nga magamit nga paagi sa semantiko pagtuki sa usa ka pulong Attribution tags, pagpamalandong sa iyang nga sakop sa usa ka hugpong sa semantiko mga kategoriya ug mga subkategorya. Ang maong impormasyon bililhon alang sa usbaw sa algorithms analisar sa text tono, automatic summarization ug uban pang mga buluhaton pamaagi sa corpus pinulongan.

Adunay usa ka gidaghanon sa mga "gamut" sa kahoy, nga nagrepresentar sa usa ka abstract pulong uban sa usa ka kaayo nga halapad semantiko. Ingon sa usa ka sanga sa kahoy binurotan mga nag-umol, nga naglangkob sa dugang ug mas piho nga kadamuon elemento. Pananglitan, ang pulong "linalang" mahimo nga nakig-uban sa maong mga konsepto sama sa "sa tawo" ug sa "mananap nga". Ang unang pulong magpadayon sa branch ngadto sa lain-laing mga propesyon, kinship termino, nasyonalidad, ug ang ikaduha - sa mga klase ug mga matang sa mga mananap.

Ang paggamit sa impormasyon retrieval sistema sa

Mga dapit sa paggamit sa corpus pinulongan pagtabon sa lain-laing mga kaumahan sa kalihokan. Housings gigamit alang sa pag-andam ug pagtul-id sa mga diksiyonaryo, paghimo automated nga sistema sa paghubad, annotating, nga mabawi kamatuoran, pagtino sa tono ug uban pang mga teksto sa pagproseso.

Dugang pa, ang maong mga kapanguhaan aktibo nga gigamit sa pagtuon sa pinulongan kalibutan ug sa mga mekanismo sa naglihok sa pinulongan sa kinatibuk-. Access sa dako nga volume sa pre-andam nga impormasyon nagpahigayon paspas ug komprehensibo nga pagtuon sa dagan sa mga pinulongan development, ug lig-on nga formation neologisms sinultihan sa tibook nga pagsingkamot kausaban bili nga kadamuon mga yunit ug sa uban.

Tungod kay ang buhat uban sa ingon ka dako nga kantidad sa data nagkinahanglan automation, karon adunay suod nga interaction tali sa computer ug sa corpus pinulongan.

Russian nga National Corpus

Kini nga kaso (abbreviated NKRYA) naglakip sa usa ka gidaghanon sa mga subcorpus, nagtugot sa paggamit sa usa ka kapanguhaan alang sa usa ka halapad nga matang sa buluhaton.

Ang mga materyales sa database nga gibahin NKRYA:

  • sa mga publikasyon sa mga media '90s ug 2000, ang duha domestic ug langyaw nga;
  • pagtala sinultihan;
  • aktsentologicheski nagtimaan sa teksto (pananglitan, ang mga timaan sa stress);
  • pinulongan nga sinultihan;
  • balak;
  • Mga materyales sa syntactic ug uban pang mga marka.

Ang impormasyon nga sistema naglakip usab Subcorpus uban sa susama nga mga hubad sa mga buhat gikan sa Russian nga sa Iningles, German, French ug daghan pang ubang mga pinulongan (ug vice versa).

Usab sa database adunay usa ka seksyon sa kasaysayan teksto, nga nagrepresentar sa sinulat nga pakigpulong sa Russian nga sa lain-laing mga panahon sa iyang development. Adunay usab usa ka pagbansay-bansay nga lawas, nga mahimong mapuslanon alang sa mga langyaw nga mga lungsoranon sa batid sa mga Russian nga pinulongan.

Russian nga National Corpus naglangkob sa 400 ka milyon nga kadamuon nga mga yunit, ug sa daghang mga paagi sa unahan sa usa ka mahinungdanon nga bahin sa mga pinulongan sa Uropa lawas.

palaaboton

Tinuod pabor sa pag-ila sa niini nga Trend mao ang anaa sa nagsaad laboratory corpus pinulongan sa Russian nga unibersidad, ingon man usab sa mga langyaw nga. Uban sa paggamit sa ug research diha sa gambalay sa impormasyon ug search niini nga mga kapanguhaan naglakip sa sa pagpalambo sa pipila ka mga dapit sa kapatagan sa hatag-as nga mga teknolohiya, pangutana-pagtubag sa mga sistema sa, apan kini mao ang gihisgutan sa ibabaw.

Dugang pa nga kalamboan sa corpus pinulongan mao ang gitagna diha sa tanan nga lebel, gikan sa teknikal ug sa mga termino sa pagpatuman sa bag-ong mga algorithms nga optimize sa mga proseso sa pagpangita ug sa pagproseso sa mga impormasyon, paghatag gahum computer, labaw pa RAM, ug sa consumer, tungod kay ang mga tiggamit mao ang labaw pa ug mas mga paagi sa paggamit niini nga matang sa kapanguhaan diha sa ilang adlaw-adlaw nga kinabuhi ug buhat.

sa konklusyon

Sa tunga-tunga sa katapusan nga siglo sa 2017 daw layo nga umaabot, diin ang spaceships pagbiyahe pinaagi sa uniberso ug sa mga robot pagbuhat sa tanan nga buhat alang sa mga tawo. Sa pagkatinuod, ang siyensiya mao ang puno sa "puti nga spots" ug sa paghimo sa desperado pagsulay sa pagtubag sa mga pangutana sa katawhan sulod sa daghang siglo nagtugaw. Mga pangutana naglihok sa pinulongan dinhi okupar sa usa ka dapit sa kadungganan, ug sa kabinete ug computational pinulongan makatabang kanato sa pagtubag kanila.

Processing sa dako nga set data makamatikod sumbanan, kaniadto inaccessible, pagtagna sa kalamboan sa piho nga mga bahin sa pinulongan sa pag-monitor sa pagporma sa mga pulong sa halos tinuod nga panahon.

Sa usa ka praktikal nga ang-ang, sa global nga mga engaste nga makita, alang sa panig-ingnan, ingon sa usa ka potensyal nga himan sa pagtimbang-timbang sa mga publiko nga mood - sa Internet mao ang usa ka kanunay updated sa adlaw-adlaw nga basehan sa nagkalain-laing mga teksto gibuhat sa tinuod nga mga tiggamit: kini mga komentaryo ug mga reviews, ug mga artikulo, ug daghan pang ubang mga matang sa sinultihan.

Dugang pa, pagtrabaho uban sa mga lawas ambag ngadto sa pagpalambo sa sa mao gihapon nga hardware, nga nalambigit sa impormasyon retrieval, kita pamilyar sa pag-alagad "Google" o "Yandex", makina nga paghubad, electronic diksiyonaryo.

Kita masaligon ihingusog nga ang corpus pinulongan naghimo lamang sa unang mga lakang, ug sa haduol nga umaabot molambo.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 ceb.birmiss.com. Theme powered by WordPress.