28.11.2019

Извличане на данни / Data Extraction

Извличане на данни / Data Extraction – Дума на деня – EVS Translations
Извличане на данни / Data Extraction – Дума на деня – EVS Translations

Независимо дали го осъзнаваме или не, всеки ден събираме и обработваме огромно количество информация, която влияе на нашите бъдещи действия. Например, състоянието на транспорта може да промени маршрута, който сме решили да изберем, а финансовите новини могат да ни накарат да преосмислим навиците ни за харчене или инвестиционните ни планове. В много отношения фирмите (и по-специално правни кантори) правят същото като физическите лица и този процес – наречен извличане на данни – е днешната дума.

Нека разчленим израза на съставните му думи: data, множествено число на латинската datum, която означава „информация, сведения“, е използвана за пръв път в английския език от сър Уилям Батън в творбата му от 1630 г. Most Easie Way Finding Sunnes Amplitude, а думата extraction, със значение „процес на извличане или получаване на нещо“, произлиза от средновековния латински, навлиза в английския език през старофренската extracion и може да бъде открита за пръв път в Acts of Parliament of 1530-31 (Парламентарни закони 1530-31).

По същия начин, по който човек евентуално би прегледал световните данни за метеорологичната прогноза, за да открие текущите условия, засягащи местонахождението му, процесът на извличане на данни – особено когато чрез така нареченото електронно откриване се откриват електронни документи – включва анализирането на огромно количество електронни данни, за да бъде намерена необходимата и подходяща информация.

Разбира се, ако отидем отвъд нашата проста аналогия с прогнозата за времето и като се има предвид, че бизнесът вече е локален и глобален, „информацията“ не е монолитна:

има много разнообразни източници на много езици, което често води до огромен обем информация, която трябва да бъде прегледана. За да получите представа за какви обеми става въпрос, ето един пример – 10 GB „груби“ данни за електронно откриване се равняват на 10 камиона документи в хартиен вид, които трябва да бъдат прегледани, а ускоряването на процеса налага използването на специализиран машинен превод.

Трябва да имаме предвид и това, че…

  • През последните 5 години 3 пъти повече компании са изправени пред вероятността да прибягнат до законодателството, свързано с организационния риск.
  • Проблем, посочен от 49% от професионалистите в индустрията, е разнообразието, обемът и скоростта на различните форми на данни в процеса на електронно откриване.
  • 98% от юридическите специалисти, използващи ранната оценка на случаите, която се базира в голяма степен на електронното откриване и извличане на данни, го посочват като необходим и ефективен подход.
  • 70% от разходите за електронно откриване се дължат на прегледа на документи – 18 000 долара за 1 GB.

Няма съмнение, че намирането на информационната „игла“ в нарастващата пословично купа „информационно сено“ ще става все по-важно, но и по-голямото предизвикателство е да бъде извършвано по рентабилен начин.

Изтеглете бялата книга „Езикови технологии за правните кантори“ и разберете как да приложите решения, базирани на AI, към проблема с търсенето на големи количества данни на чужд език.