Перевод текста в удобную для анализа форму

Если вы хотите провести любой анализ, в основе которого лежит текстовый материал, для этого вам нужен, разумеется, подходящий для этого текст. У большинства компаний уже имеется огромное количество доступных текстовых данных, которые могут быть подвергнуты анализу, но для этого некоторые из них нужно перевести в такой формат, которым можно воспользоваться на практике. Под этим всегда понимается электронный вид, причем текст должен быть не только оцифрован, но и представлен в виде данных.

Этапы оцифровки текста

Отсканировав текстовый документ, вы фактически создали электронный образ документа, что означает, что документ оцифрован и существует в виде нематериальной копии, однако в этом случае он не представлен в виде данных. Вы не можете найти в таком отсканированном документе какую-то фразу или провести какой-либо анализ текста, потому что каждое слово не хранится отдельно в виде текста, а весь документ хранится как отдельный файл изображения. Это означает, что, хотя человек может открыть эту электронную копию документа и его прочитать, машина этого сделать не может. Поэтому, если вы хотите проанализировать текст, он должен быть представлен в виде данных.

Почему этот инструмент важен

Перевод текста в удобную для анализа форму (далее для краткости будем это называть переформатированием текста) полезен тем, что с помощью самых современных аналитических инструментов, имеющихся в настоящее время, теперь из текста можно извлечь гораздо больше идей, чем когда-либо в прошлом. Эти идеи относятся не только к фактическому содержанию текста, т. е. к тому, о чем в нем говорится непосредственно, но и к той информации, которая выходит далеко за пределы слов и фраз, используемых в нем для передачи смысла, а относится к эмоциям и чувствам, стоящим за словами.

Способ обработки и хранения текста

Кроме того, как уже упоминалось выше, у большинства компаний уже накоплено множество самых различных текстовых материалов. Часто эти документы сохраняются в первозданном виде, однако при небольших усилиях из них можно извлечь много коммерчески ценных идей, которые могут улучшить показатели деятельности бизнеса и повысить его прибыльность.

Как следует пользоваться инструментом

Есть много способов, позволяющих осуществить переформатирование текста. Если объем текста, который вы хотите проанализировать, достаточно небольшой, можно просто перепечатать его содержание, т. е. получить его в электронной форме и представить в виде данных, однако этот вариант является трудоемким и, следовательно, дорогостоящим.

Технологии обработки информации

Существует целый ряд инструментов, применяемых для распознавания текста и его переформатирования, т. е. позволяющих преобразовывать физические документы в электронные и представить их в виде данных. Вот основные из них.

  • Оптическое распознавание символов (Optical character recognition — OCR) — технология перевода символов технически, с помощью соответствующего оборудования, в виде формы или страницы. Системы OCR могут распознавать множество шрифтов, а также символы, используемые в печатных машинках и компьютерах. Поскольку большинство текстов генерируется через компьютер, планшет или смартфон, системы OCR действительно могут помочь перевести текст в формат, необходимый для анализа текста.
  • Интеллектуальное распознавание символов (Intelligent character recognition — ICR) — технология, позволяющая переводить в нужный формат написанные вручную и напечатанные тексты. Это более сложный инструмент, так как он должен учитывать разновидности почерка.
  • Распознавание штрих-кодов — подход, используемый для переформатирования большого числа метаданных, часто хранящихся в виде штрих-кодов на таких документах, как накладные, формы заявлений о принятии в какую-то организацию, регистрационные анкеты и формы, которые могут быть использованы для аналитических целей.
  • Интеллектуальное распознавание документов (Intelligent document recognition — IDR) — инструменты, позволяющие переводить текст в нужную форму «на основе правила, например обрабатывать почтовые индексы, логотипы, ключевые слова. В ходе применения происходит их обучение, т. е., чем дольше они используются, тем лучше осуществляется переформатирование и тем более полезными они становятся. Инструменты этого вида часто используются для сортировки почты.

Мы все знаем, что содержание текста далеко не всегда соответствует тому, что на самом деле имелось в виду при его составлении, и в подобных случаях можно прибегнуть к аналитической обработке текста и анализу тональности, результаты которых помогут гораздо лучше понять клиентов, акционеров, сотрудников и конкурентов и благодаря этому обеспечить более эффективное принятие решений.

С чего следует начать

Прежде всего вам необходимо понять, что именно вы пытаетесь выяснить, какие вопросы вам следует задать, чтобы получить необходимые ответы, и какие текстовые данные потенциально могут помочь вам эти ответы получить.

Если это возможно, целесообразно использовать те текстовые данные, которые у вас уже имеются или к которым вы легко можете получить доступ, и воспользоваться некоторыми из тех инструментов для переформатирования текста, которые широко предлагаются на рынке.

Конечно, есть и другие ценные источники данных, которые могут быть довольно легко преобразованы в текст, такие как документы по аттестации сотрудников или разговоры, которые ведутся в ходе обслуживания клиентов. Если у вас есть отдел обслуживания клиентов, где звонки записываются, то можно прибегнуть к инструментам распознавания речи или программному обеспечению по переводу речи в текст, что позволит вам получить бесконечный поток значимых, самых последних текстов, которые можно использовать для постоянно проводимого анализа клиентов.

Перевод речи в текст

В зависимости от того, на какие ключевые вопросы вы хотите узнать ответы, вы также можете попросить заняться созданием текстов ваших клиентов или группу заинтересованных лиц и предоставлять эти тексты вам для анализа. Например, после онлайнового процесса заказа можно попросить клиента дать отзыв о том, насколько легким для него был этот процесс.

Возможные источники данных

Есть множество источников возможных текстовых данных, в том числе следующие:

  • корпоративные документы, такие как письма, договоры подряда и корреспонденция;
  • электронные адреса;
  • коммуникации с клиентами;
  • сообщения в социальных сетях;
  • счета-фактуры;
  • факсы;
  • разговоры, записанные при обслуживании клиентов.

Насколько трудно или дорого собрать необходимые данные

В настоящее время у большинства компаний уже имеется множество текстовых данных, которые могут быть без больших затрат использованы для анализа. Расходы здесь, как правило, растут, когда вам нужно конвертировать бумажные копии или отсканированные документы в цифровую форму и в файлы, чтобы они были представлены в виде данных. Однако на рынке уже сейчас предлагается большое и к тому же возрастающее число недорогих инструментов, помогающих справиться с этим процессом.

Кроме того, имеется столь же доступное и при этом удивительно точное и эффективное программное обеспечение для распознавания речи и преобразования речи в текст.

Практический пример

Колл-центр генерирует огромное количество данных, относящихся к тому, что клиенты покупают, что им нравится, что не нравится, что их раздражает и насколько эффективно работают сотрудники отделов продаж и обслуживания клиентов. Традиционно многие из этих данных в прошлом терялись, и даже если взаимодействия записывались, это делалось только в целях безопасности и обучения или для доказательства разговора в случае возникновения проблемы. Теперь же все эти голосовые данные могут быть собраны и преобразованы в текст без участия человека, в результате чего создается сокровищница данных, которые непрерывно оцениваются. Такие данные не только позволяют улучшить качество обслуживания клиентов, но и помогают выявить недостатки продукта, проявляющие себя на рынке, или инновации, которые могли бы улучшить продукт или услугу.

О чем не нужно забывать

До конца разберитесь с тем, что вы хотите узнать в собранных вами текстах. Часто компании начинают с рассмотрения имеющихся у них текстовых данных, огромный объем которых при обработке может их захлестнуть, если они решили их все перевести в цифровую форму и представить в виде данных. Сосредоточьтесь только на самых последних данных, если нет очень весомой причины, побуждающей вас обратиться к периоду 5—10-летней давности, давние данные в любом случае будут устаревшими, и поэтому забудьте о прошлом и всегда, где только возможно, собирайте текстовые данные, необходимые для анализа, в режиме реального времени.

Когда мы думаем о тексте, мы часто имеем в виду физическую, материальную копию письма или договора, но зачастую текст существует уже в цифровом виде, в котором он поступает к вам как письмо клиента, присланное по электронной почте, или счет-фактура в формате PDF. Не старайтесь каждое такое сообщение напечатать, а затем преобразовать в текст, представленный в виде данных. Это ненужное занятие, которое к тому же отнимает много времени и потенциально дорого стоит.

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (5 оценок, среднее: 4,40 из 5)
Загрузка...