Автоматическое реферирование и аннотирование текста

Рефератом называется связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемые методы, основные результа­ты описанного исследования или разработки. Рефераты обычно составляют к научно-техническим документам (науч­ным книгам, статьям, патентам на изобретение и т. п.) Реферат ак­центирует внимание читателя на новых сведениях и определяет целесообразность его обращения к исходному документу. Он помо­гает человеку ориентироваться в информационных потоках, опе­ративно отбирать для себя наиболее ценную и полезную информа­цию. Процесс составления реферата называется реферированием .

Аннотацией

Рефераты и аннотации представляют собой вторичные доку­менты (первичные, или исходные, документы — это книги, статьи, патенты и т. п.) В каждом вторичном до­кументе можно выделить два компонента информации:содержательный и документографический. Первый компонент содержит информацию первоисточника (о чем книга, статья).

Второй компонент — это сведения о самом первичном документе (тип документа: книга, статья и т. п.; вид: печатный, рукописный; год издания; место издания и т. д.).

В даль­нейшем речь пойдет только о первом компоненте вторичного до­кумента.

Научно-технический прогресс привел к появлению большого числа публикаций (книг, статей и т. п.) по самым разным проб­лемам науки, техники, образования, и специалисты не успевают следить за новейшей по своей области знания. Для этого, как установлено, человек должен был бы прочитывать еже­дневно 1500 страниц текста на разных языках , что явно превыша­ет его физические возможности. Поэтому для оперативного «по­верхностного» знакомства с новейшими публикациями использу­ются рефераты и аннотации книг и статей, которые составляются в специальных организациях и публикуются в реферативных жур­налах (РЖ) и реферативных сборниках (PC).

Реферирование и аннотирование текста являются сложными видами интеллектуальной деятельности. Составление человеком рефератов или аннотаций занимает много времени. Это приводит к тому, что до ученых, педагогов, инжене­ров и других специалистов новейшая информация (особенно зару­бежная) доходит очень медленно, что, в свою очередь, ведет к повторению в разных странах и в пределах одной страны одних и тех же исследований, более позднему применению новейших ме­тодик, технологий, процессов. Чтобы как-то избежать этого, для и аннотаций применяют современные ком­пьютеры.

7 стр., 3137 слов

Реферат шахтные вагонетки

... шахтных условиях должна производится в соответствии с ПБ и ПТЭ. Поступающие на шахту вагонетки снабжают инвентарным номером и регистрируют в специальной книге. Резервные вагонетки хранят под навесом на ... инструмента. 3) Установление нужной длины волны в радиоприемнике. НАСТУРАН - минерал, см. в ст. Уранинит. НАСТУРЦИЯ (капуцин) - род трав семейства настурциевых. Ок. 80 видов, преимущественно в ...

автоматическим реферированием или ан­нотированием.

При по составлению реферата или аннотации человеком (референтом) обычно выделяют три этапа:

1) подготовительный — референт определяет тематическую направленность текста и пытается понять и осмыслить документ в целом;

2) аналитический — референт делит текст на некоторые фраг­менты (абзацы, аспекты и т. п.).

Каждый фрагмент внимательно изучается, в нем выделяют основные смысловые единицы (пред­ложения, словосочетания, слова).

Данный этап заканчивается со­ставлением плана будущих реферата или аннотации;

3) этап непосредственного построения реферата или аннота­ции — выделенные ранее смысловые единицы (их комбинации или преобразования) располагаются в единый вторичный текст в соответствии с или аннотации.

В качестве основных смысловых единиц, выделяемых из исходного текста на 2-м этапе, могут выступать: 1) целые клю­чевые предложения; 2) ключевые словосочетания и слова.

Ключевое (опорное) слово, Ключевое словосочетание, Ключевым предложением

Составление плана будущих реферата или аннотации заключа­ется в выделении некоторых смысловых ориентиров, которые на 3-м этапе будут развернуты более подробно. В качестве таких ориентиров выступают:

1) основные темы и подтемы исходного текста;

2) основные аспекты исследования;

3) основные ключевые предложения, словосочетания и слова.

Создаваемый на 3-м этапе реферат или аннотация содержат выделенные ранее смысловые единицы. В качестве смысловых еди­ниц реферата могут выступать:

1) полные (без изменения) ключевые предложения исходного текста;

2) перефразированные ключевые предложения исходного текста;

3) предложения, составленные из ключевых слов или словосочетаний исходного текста с помощью специальных связующих элементов;

4) предложения, обобщающие несколько предложений исходного текста (не обязательно ключевых).

При перефразировании применяются различные лексико-грамматические явления: использование синонимов, конверсивов, замен по принципу «вид — род», «часть — целое» и т. п.

потому что, в то время как, поэтому, вследствие

В обобщающих предложениях исходный текст передается со­вершенно другими словами. В них то же самое содержание излага­ется в более кратком виде.

Смысловыми единицами аннотации могут быть:

1) ключевые слова или словосочетания исходного текста с предшествующими им специальными фразами — реляторами типа: «В статье рассматриваются следующие вопросы:…», «Книга посвящена следующим проблемам: …» и т. п.;

2) специальные предложения, содержащие оценочные элемен­ты: «Рассматривается важная проблема…», «Статья посвящена актуальной теме…» и т. д.;

3) специальные предложения, содержащие клише, т. е. специ­ализированные словесные штампы, фиксирующие внимание чи­тателя на определенных аспектах содержания: «Недостаток… за­ключается», «Цель публикации…», «Ставится задача…», «Делает­ся попытка…» и т. д.

11 стр., 5172 слов

Автоматические переводчики текста

... Современный машинный, или автоматический перевод осуществляется с помощью человека. Пред-редактор предварительно обрабатывает подлежащий переводу текст, интер-редактор участвует в процессе перевода, и пост-редактор, ... Джорджтаунского), в ходе которого система, использовавшая словарь из 250 слов и грамматику из 6 синтаксических правил, осуществила перевод 49 заранее отобранных предложений. В том же ...

Следующий важный вопрос, который необходимо рассмотреть, связан с тем, как человек выбирает из текста ключевые предло­жения, словосочетания и слова. Это делается, как уже отмеча­лось, на 2-м этапе общего процесса составления вторичного до­кумента. Читая текст повторно (первый раз он читается на подго­товительном этапе) или в третий раз, человек мысленно выделяет в нем три типа единиц (предложений, словосочетаний, слов):

1) единицы, которые обязательно должны быть включены в реферат или аннотацию. Такие единицы отражают новые идеи, гипотезы, новые методы, явления, процессы, новые результаты, т. е. все новое и оригинальное, что есть в исходном документе. Это, по существу, и есть основные смысловые единицы текста (ключе­вые предложения, словосочетания и слова);

2) единицы, которые отражают фактические данные: параметры изделий, процессов, методов и т. д. Такие единицы не являются принципиально новыми;

3) единицы, которые аргументируют и иллюстрируют едини­цы первых двух типов.

Единицы первого уровня обязательно используются при со­ставлении реферата. Из единиц второго уровня использу­ются лишь некоторые (в зависимости от типа реферата или его потребителя).

Третья группа единиц изредка переносится в рефе­рат в обобщенном виде.

Если поручить составление реферата или аннотации компью­теру, то, очевидно, его надо научить выполнять те же действия, которые осуществляет человек. Компьютер должен уметь:

1) находить в тексте ключевые слова, словосочетания и пред­ложения;

2) находить в тексте менее значимые единицы;

3) составлять из текстовых единиц двух первых типов смысло­вые единицы реферата или аннотации;

4) составлять из таких единиц текст реферата или аннотации. Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматиче­ского реферирования в качестве основных смысловых единиц ре­ферата выступают ключевые предложения или ключевые слово­сочетания и слова исходного текста. Первые в их последователь­ной совокупности (в том порядке, в котором они идут в исходном тексте) образуют текст (квазитекст) реферата. Второй тип смыс­ловых единиц (ключевые словосочетания и слова) используется компьютером для построения так называемых табличных рефе­ратов.

При составлении с помощью компьютера аннотации также используются как ключевые предложения (в том виде, что и при составлении реферата), так и ключевые слова и словосочетания. Последние перечисляются вслед за реляторами вида: «В статье рассматриваются следующие вопросы:…», «Книга посвящена сле­дующим проблемам: …», «Статья раскрывает следующие понятия: …» и т. д.

По способам выделения из исходных текстов ключевых слово­сочетаний и предложений (первые два «умения» компьютера) различают несколько методов автоматического реферирования и аннотирования текстов. Наиболее известны следующие три груп­пы методов:

1) статистические;

2) позиционные;

3) логико-семантические.

Суть статистической группы методов заключается в том, что:

10 стр., 4551 слов

Единицы измерения информации

... один шар, мы также получим информацию о цвете шара в 1 бит. Единица измерения информации называется бит (bit) - сокращение от английских слов binary digit, что означает двоичная ... истину и ложь. Последовательностью битов можно закодировать текст, изображение, звук или какую-либо другую информацию. Такой метод представления информации называется двоичным кодированием (binary encoding). В информатике ...

1) ключевыми словами считаются такие знаменательные слова текста, которые с учетом всех синонимов встречаются в тексте наибольшее число раз;

2) ключевым предложением считается предложение текста, которое:

  • а) имеет несколько ключевых слов;
  • б) содержит ключевые слова на небольшом расстоянии друг от друга.

Принадлежность слова, словосочетания или предложения к числу ключевых определяется специальными статистическими коэффициентами.

В позиционных методах автоматического реферирования и ан­нотирования ключевым предложением считается предложение, входящее в заголовок, подзаголовок, начало или конец какой-то части текста или всего текста. Такие предложения, как правило, содержат информацию о целях, методах, выводах и результатах исследования, описанного в первичном документе. Важность тех или иных предложений с указанной точки зрения определяется экспертами путем изучения семантической структуры первичных документов определенного типа.

Логико-семантические методы опираются на исследование структуры и семантики текстов. Существует несколько вариантов этих методов, но цель их одна — выделить из конкретного текста предложения с наибольшим функциональным весом. Величина эта зависит от многих факторов: наличия в исследуемом предложе­нии специальных семантически значимых слов, связи этого пред­ложения с другими предложениями текста, типа самого предложения и т. д.