Информация - это фундаментальное
понятие информатики, поэтому дать его исчерпывающее определение через
более простые понятия невозможно. Мы понимаем под этим словом
отражение реального мира с помощью некоторых знаков или
сигналов, совокупность знаний о нем.
Термин информация ведет свое происхождение
от латинского слова informatio,
означающего разъяснение, изложение, осведомленность.
С информационными процессами связана и вся
жизнь человека. Он хранит информацию - либо в собственной
памяти, либо на внешних носителях (например, на бумаге). Он
обменивается информацией - принимает и передает ее - или
непосредственно, или с помощью тех или иных технических
средств. При этом из-за дефектов канала связи, шумов, помех
и т.п. возможны искажения или потеря информации. Соответственно,
нужно искать способы обнаружения ошибок передачи и их
исправления.
Наконец, человеку почти непрерывно приходится
обрабатывать информацию: получать новую на основании имеющейся,
изменять ее представление (например, переводить), сортировать, искать
нужную в информационном массиве. И это тоже может делаться
как с помощью вспомогательных средств, так и без них.
Информация может существовать в образной форме (это
запахи, вкус, звуковые или зрительные образы), а может -
в символьной (знаковой).
Хотя человек издавна стремился упростить работу
с информацией, по настоящему универсальный инструмент для
этого появился совсем недавно, и инструмент этот - компьютер.
Поэтому выбранная тема курсовой работы является актуальной. Целью
данной курсовой работы является изучение технологии хранения
текстовой информации в компьютере, изучение устройств ввода и вывода
текстовой информации.
1. Компьютеры и текст
В информатике текстом
считают последовательность любых символов. Сейчас компьютеры в
основном пользуются алфавитами, содержащими 256 знаков1.
Каждому из символов соответствует свой восьмиразрядный двоичный код.
Таким образом любой символ текста, включая пробелы, занимает 8 бит (1
байт) в памяти компьютера. Зная это, можно легко оценить объем
памяти, необходимый для хранения того или иного текстового документа.
Один бит (двоичная цифра) может
принимать два значения, добавление каждого разряда в код удваивает
количество получаемых комбинаций: двухбитовый код - четыре варианта,
трехбитовый - восемь, четырехбитовый - шестнадцать и т. д.
Рассмотрим пример. Машинописная страница
стандартного формата (А4) содержит около 55 строк. На каждой строке
помещается в среднем 60 символов2.
Подсчитаем количество текстовой информации на такой странице. Каждый
символ - 1 байт информации, а всего символов - 60*55=3300. Значит, на
странице 3300 байт (около 3 Кбайт). Как связаны двоичные коды и
соответствующие им символы? Это определяется таблицей
кодировки. Все используемые на персональных
компьютерах таблицы3
основаны на американском стандарте ASCII4.
Он определяет первые 128 кодов: для латинских букв, цифр, основных
знаков препинания и математических операций. Остальные 128 кодов
используются для специальных символов и букв национальных алфавитов
(в том числе, русского). И, поскольку общепринятого стандарта для
этого не было, возникло много различных кодировок,
в том числе, несколько - для кириллицы5.
Именно поэтому, получив от кого-нибудь текст и попытавшись прочесть
его на своем компьютере, мы зачастую видим на экране набор непонятных
"закорючек".
код
CP866
CP1251
KOI-8R
Mac
01011010
Z
Z
Z
Z
10001111
П
П
11111101
$
э
Щ
э
В такой ситуации на помощь
приходят программы-конверторы6.
Они заменяют двоичный код каждого символа на код, которым такой
символ представляется в другой кодировке. Это соответствие
определяется таблицей перекодировки.
Обычно пользователь должен указать, из какой кодировки в какую идет
преобразование, однако появились и программы, умеющие автоматически
определять кодировку исходного текста.
Стремление упростить работу с различными
текстами (сперва текстами программ, затем служебными документами,
газетами, журналами, книгами и т.д.) привело к созданию множества
программ, специально ориентированных на это - текстовых
редакторов (или
текстовых процессоров).
Какими же данными оперируют эти программы? Очевидно, что
наименьшим объектом будет символ. Однако можно работать не только с
отдельными символами, но и со словами, строками, абзацами,
произвольными фрагментами и текстом в целом. Некоторые действия можно
выполнить с любой из этих структур, другие - только с какой-то
определенной. Обрабатываемый текст представляется как бы в виде
рулона "бумаги", который можно прокручивать на экране
вперед и назад. Большинство современных программ позволяет
одновременно работать с несколькими текстами, каждый из которых
выводится в отдельное окно. Кроме основных "листов"
текстовый процессор, как и другие программы использует "конверт"
(или "карман"), в котором можно временно хранить фрагмент
текста при его копировании или перемещении.
Текстовый процессор - не просто заменитель
пишущей машинки, а универсальное средство для работы с текстами. Он
предоставляет очень широкие возможности манипулирования текстовыми
документами. Кроме таких очевидных операций как набор текста,
удаление, копирование и перемещение его фрагментов, а также
сохранение на диск и печать, имеется возможность изменять шрифт,
его начертание, цвет и
размер. Текстовый
процессор может автоматически форматировать
текст (включая установку абзацного отступа и
выравнивание). Можно сразу во всем тексте заменить одно заданное
слово на другое. Например, поменять "ЭВМ" на "компьютер".
Многие редакторы умеют проверять орфографию: компьютер ищет каждое
слово в своем словаре и, если не находит, сообщает об этом
пользователю, предлагая возможные варианты исправления.
2. Кодирование текста в компьютерах
При кодировании текста для
каждого его символа отводится, обычно, по 1 байту. Это
позволяет использовать 28=256
различных символов. Соответствие между символом и его кодом,
вообще говоря, может быть выбрано совершенно произвольно. Однако на
практике необходимо иметь возможность прочесть на одном компьютере
текст, созданный на другом. Поэтому таблицы кодировок стараются
стандартизовать. Практически все использующиеся сейчас таблицы
основаны на "американском стандартном коде обмена информацией"
ASCII7.
Этот стандарт определяет значения для нижней половины кодовой таблицы
- первых 127 кодов (32 управляющих кода, основные знаки препинания
и арифметические символы, цифры и латинские буквы).
В результате, эти символы отображаются верно, какая бы кодировка
не использовалась на конкретном компьютере. Хуже обстоит дело
с "национальными" символами и "типографскими"
знаками препинания. А особенно не повезло языкам, использующим
кириллический алфавит (русскому, украинскому, белорусскому,
болгарскому и т.д.). Например, для русского языка сейчас
широко используются пять таблиц кодировок:
CP866 (DOS-альтернативная)8
- на PC-совместимых компьютерах при работе с операционными
системами DOS и OS/2, а также в любительской
международной сети Фидо (Fidonet).
CP1251 (Windows-кодировка) - на
PC-совместимых при работе под Windows 3.1 и Windows 95
KOI-8r - самая старая из
использующихся до сих пор кодировок. Применяется на компьютерах,
работающих под UNIX, является фактическим стандартом для русских
текстов в сети Internet.
Macintosh Cyrillic - как видно из
названия, предназначена для работы со всеми кириллическими языками
на Макинтошах9.
ISO-8859. Эта кодировка
задумывалась как международный стандарт для кириллических текстов,
однако на территории России практически не применяется.
На самом деле, проблема не
столь уж велика. Если мы знаем, как представлен исходный текст
и какая таблица используется нашим компьютером, преобразование
выполнить очень легко - нужно просто поменять одни коды на другие (по
таблице перекодировки). Для этого служат специальные программы -
текстовые конверторы.
В последнее время появляются конверторы, способные
самостоятельно определять исходную кодировку текста и даже
умеющие "расшифровывать" текст после нескольких
неправильных перекодировок.
Шестнадцатеричные коды некоторых букв
KOI-8r
Win
Alt
Mac
ISO
Unicode
А
E1
C0
80
80
B0
0410
Б
E2
C1
81
81
B1
0411
В
F7
C2
82
82
B2
0412
а
C1
E0
A0
E0
D0
0430
б
C2
E1
A1
E1
D1
0431
в
D7
E2
A2
E2
D2
0432
Заметим, кстати, что существуют
и специальные шрифты (так называемые, дингбатсы), которые
содержат не буквы, а специальные символы, например,
математические или музыкальные; элементы орнаментов, пиктограммы .
Сейчас, когда объем памяти компьютеров чрезвычайно
вырос, уже нет нужды очень сильно экономить при кодировании текста.
Можно позволить себе "роскошь" тратить для хранения текста
вдвое больше памяти (выделяя для каждого символа не 1, а 2 байта).
При этом появляется возможность разместить в кодовой
таблице - каждый на своем месте - не только буквы европейских
алфавитов (латинского, кириллического, греческого), но и буквы
арабского, грузинского и многих других языков и даже
большую часть японских и китайских иероглифов. Ведь два байта
могут хранить уже число от 0 до 65535.
Двухбайтная международная кодировка
Unicode, разработанная
несколько лет назад, теперь начинает внедряться на практике.
3. Вывод текста на экран
Существуют несколько экранных
режимов. Их можно разделить на два основных типа –
текстовые и графические. Текстовый режим характерен тем, что в нем
можно выводить на экран только текст. Он устанавливается при
выполнении программы по умолчанию.
В текстовом режиме экран разделен на строки и столбцы. В
пересечении строки и столбца можно вывести только один символ (Рис.
1). Пересечение строки и столбца называется знакоместом.
Рис.
1
В зависимости от режима, может
быть различное число строк и столбцов. В стандартном
режиме экран разбивается на 25 строк и 80 столбцов.
Любая позиция на экране определяется номером строки и
номером столбца. Нумерация строк и столбцов начинается с левого
верхнего угла, т.е. самый левый столбец и самая верхняя строка имеют
номер 1.
На экране вывода (назовем так экран, на который
программа выводит информацию) существует невидимый курсор. Любая
символьная информация выводится на экран вывода, начиная с той
позиции, где расположен курсор. Т.е. положение курсора на экране и
определяет то, куда будет выведена информация.
В графическом режиме нет разбиения
экрана на знакоместа, изображение любого символа можно вывести
практически в любую позицию экрана. Изображения символов (глифы -
glyphs) для конкретного набора символов составляют шрифт. Шрифты
хранятся в файлах.
4. Устройства ввода и вывода текста
Устройства ввода передают информацию в
ЭВМ от различных внешних источников. Информация может быть
представлена в весьма различных формах: текст - для клавиатуры
(keyboard), звук - для микрофона (microphone), изображение -
для сканера (scanner).
Клавиатура - одно из самых
распространенных на сегодня устройств ввода информации в компьютер.
Она позволяет нажатием клавиш вводить символьную информацию.
Ключевой принцип работы клавиатуры
заключается в том, что она воспринимает нажатия клавиш и преобразует
их в двоичный код, индивидуальный для каждой клавиши.
Сканер - устройство ввода
графической информации. Его особенность - способность считывать
изображение непосредственно с листа бумаги.
Принцип действия сканера напоминает
работу человеческого глаза. Освещенный специальным источником света,
находящимся в самом сканере, лист бумаги с текстом или рисунком
"осматривается" микроскопическим "электронным глазом".
Диаметр участка изображения, воспринимаемого таким "глазом",
составляет 1/20 миллиметра и соответствует диаметру человеческого
волоса. Яркость считываемой в данный момент точки изображения
кодируется двоичным числом и передается в компьютер. Для того чтобы
осмотреть стандартный лист бумаги, "электронному глазу"
приходится строку за строкой обходить его, передавая закодированную
информацию об освещенности каждой точки изображения в компьютер.
Монитор - устройство вывода на
экран текстовой и графической информации. Мониторы бывают цветными и
монохромными. Они могут работать в одном из двух режимов: текстовом
или графическом.
В текстовом режиме экран монитора
условно разбивается на отдельные участки - знакоместа, чаще
всего на 25 строк по 80 символов (знакомест). В каждое знакоместо
может быть выведен один из 256 заранее определенных символов. В число
этих символов входят большие и малые латинские буквы, цифры,
определенные символы, а также псевдографические символы, используемые
для вывода на экран таблиц и диаграмм, построения рамок вокруг
участков экрана и так далее. В число символов, изображаемых на экране
в текстовом режиме, могут входить и символы кириллицы.
На цветных мониторах каждому знакоместу
может соответствовать свой цвет символа и фона, что позволяет
выводить красивые цветные надписи на экран. На монохромных мониторах
для выделения отдельных частей текста и участков экрана используется
повышенная яркость символов, подчеркивание и инверсное изображение.
Графический режим предназначен для
вывода на экран графической информации (рисунки, диаграммы,
фотографии и т. п.). Разумеется в этом режиме можно выводить и
текстовую информацию в виде различных надписей, причем эти надписи
могут иметь произвольный шрифт, размер и др.
В графическом режиме экран состоит из
точек, каждая из которых может быть темной или светлой на монохромных
мониторах и одного или нескольких цветов - на цветном.
Количество точек на экране называется разрешающей способностью
монитора в данном режиме. Следует заметить, что разрешающая
способность не зависит напрямую от размеров экрана монитора.
Принтер - устройство для вывода
результатов работы компьютера на бумагу. Само название произошло от
английского слова printer, означающего "печатник"
(печатающий).
Первые принтеры создавали изображение
из множества точек, получающихся под действием иголок, ударяющих
через красящую ленту по бумаге и оставляющих на ней след. Иголки
закреплены в печатающей головке и приводятся в движение
электромагнитами. Сама же головка движется горизонтально, печатая
строку за строкой. Количество иголок составляет 8 или 24 при одной и
той же высоте печатающей головки. Во втором случае их делают тоньше,
а получаемое изображение оказывается более "мелкозернистым".
Такой принтер преобразует электрические
сигналы, выдаваемый компьютером, в движение иголок. Принтеры,
использующие для получения изображения механический (ударный)
принцип, называют матричными.
Матричные принтеры создают сильный шум
и требуют частой замены красящей ленты, поэтому в 80-х годах был
предложен другой способ печати на бумаге - струйный.
Принцип, лежащий в основе струйной
печати с использованием жидких чернил, состоит в нанесении капелек
чернил непосредственно на поверхность бумаги, пленки или ткани.
Импульсная печатающая головка струйного принтера, подобно головке
матричного принтера, состоит из вертикального ряда камер, способных
нанести на бумагу одну или несколько вертикальных полосок. Число
камер, входящих в состав головки, может достигать 48. Это позволяет
получать очень качественное изображение.
Существуют как черно-белые, так и
цветные струйные принтеры. Последние, кроме головки с черными
чернилами, имеют еще печатную головку с чернилами трех цветов.
Кроме матричных и струйных принтеров,
широкое распространение получили и, так называемые, лазерные
принтеры. Принцип их работы достаточно сложен и требует глубокого
знания физики, поэтому нами рассматриваться не будет. Эти принтеры
при своей относительно высокой стоимости очень экономичны в
эксплуатации и намного менее требовательны к качеству бумаги, по
сравнению со струйными принтерами.
5. Обработка текстовых документов на компьютере
Одной из наиболее распространенных
функций современного персонального компьютера является подготовка
разнообразных текстовых документов.
Различают две основные
группы программ подготовки текстовых документов: текстовые
редакторы и текстовые
процессоры.
Текстовыми редакторами, в основном,
называют программы, создающие текстовые файлы без элементов
форматирования (т. е. не позволяющие выделять части текста
различными шрифтами и гарнитурами). Редакторы такого рода незаменимы
при создании текстов компьютерных программ.
Текстовые процессоры умеют
форматировать текст, вставлять в документ графику и другие объекты,
не относящиеся к классическому понятию "текст". Следует
отметить условность такого разделения - разнообразие программ для
обработки текста позволяет найти редактор с любым набором функций.
Некоторые текстовые
процессоры являются так называемыми WYSIWYG-редакторами.
Название получено по первым буквам фразы What
You See Is What You Get - то, что ты видишь,
есть то, что ты получишь. Когда говорят, что это WYSIWYG-редактор, то
гарантируют полное соответствие внешнего вида документа на экране
компьютера и его печатной копии. К редакторам такого типа относятся
Word и StarWriter.
Некоторые современные редакторы
поддерживают концепцию "почти" WYSIWYG. Вид документа на
экране при этом немного отличается от того, как будет выглядеть
напечатанный документ, но делается это специально с целью более
эффективного использования рабочего окна документа. Примерами "почти"
WYSIWYG-редакторов являются Netscape Composer и KLyX.
Текстовые файлы - наиболее распространенный тип данных в
компьютерном мире. Существуют несколько проблем, связанных с
текстовыми файлами. Первая - чрезвычайно большое количество символов,
требующихся для поддержки различных языков. Американские программисты
для работы со 128 символами используют набор символов US ASCII
(американский стандартный код для обмена информацией). Для поддержки
других языков зачастую не хватает и 256 символов, поэтому сейчас
осуществляется постепенный переход к кодировке Unicode, в которой для
хранения одного символа отводится уже два байта (т. е. имеется
возможность закодировать 65 536 различных символов).
Вторая проблема
заключается в том, что люди хотят, чтобы распечатываемые документы
содержали графики, диаграммы, примечания, заголовки и чтобы при этом
использовались различные шрифты. Документы, распространяемые в
Интернет (онлайновые
документы), могут содержать мультипликацию, ссылки на различные
сетевые ресурсы и звуковое сопровождение.
Многие текстовые файлы
передаются в виде простого текста (plain text). Простой текст сложно
сделать привлекательным и легко читаемым, так как в нем нет шрифтов
различных начертаний, графики, заголовков, подзаголовков и т. д.
Эти дополнительные особенности носят название разметки
текста (markup).
Говоря о разметке текста,
выделяют понятия физической
и логической разметки.
При использовании физической разметки текста указывается точный вид
каждого фрагмента. Например, "центрированный текст, 14-м кеглем,
жирный, гарнитура Times". При логической разметке указывается
логическое значение данного фрагмента, например, "это заголовок
главы". Эти два способа разметки предназначаются, как правило,
для использования в разных ситуациях. Для того чтобы распечатать
текст на принтере, необходимо использовать физическую разметку.
Должны быть приняты решения о размере полей и абзацных отступах.
Ранние версии текстовых процессоров использовали только физический
тип разметки. При этом для каждого фрагмента указывался шрифт, размер
и стиль.
При обмене информацией с другими людьми
физическое оформление текста накладывает ряд ограничений, особенно
для онлайновых документов. Размер экрана, разрешение, шрифты различны
для различных систем. По этим причинам все чаще используется
логическое оформление текста. В некоторых случаях логическое
оформление практически необходимо: при создании электронных
документов типа страниц WWW или при создании и публикации объемных
трудов, таких как книги.
Для сохранения разметки документов при
передаче текстовой информации от машины к машине применяют разные
способы. Текстовые процессоры и издательские системы используют
специально разработанные форматы файлов, содержащие не только текст,
но и информацию о том, как он должен быть оформлен. Основная проблема
здесь в несовместимости таких форматов, хотя наиболее сложные
программы обычно могут читать файлы в форматах программ-конкурентов.
Примерами такого подхода являются текстовые процессоры Word и
StarWriter.
При другом подходе непосредственно в
текст документа вставляются специальные команды разметки. Даже если у
вас нет программного обеспечения, поддерживающего такой формат, вы
все же сумеете в нем разобраться. Существует немало способов
подобного представления разметки текста, в том числе:
HyperText Markup Language (HTML),
использующийся в World Wide Web;
TeX и LaTeX, пользующиеся
популярностью у многих академических изданий, а также у математиков,
физиков, химиков и даже музыкантов.
Примерами программ, которые позволяют
разметить текст подобным образом, служат Netscape Composer и LyX
(KLyX).
Файлы, созданные разными редакторами,
зачастую имеют уникальные расширения, позволяющие, не заглядывая
внутрь документа, догадаться о способах разметки текста. Так файлы,
созданные редакторами подготовки plain-текста, часто имеют расширение
.txt, а подготовленные в редакторе Lyx - .lyx. Текстовый процессор
Word по умолчанию создает файлы в формате MS Word (расширение .doc),
но поддерживает и другие форматы, например RTF (расширение .rtf).
Документы, содержащие команды разметки языка HTML, имеют расширение
.html или .htm.
Очевидно, что невозможно перечислить
все текстовые редакторы. Многие из них "заточены" под ту
или иную специфическую деятельность. В списке, рассмотренном ниже,
представлена лишь небольшая часть текстовых редакторов.
Редакторы неформатированных текстов
NotePad - встроен в операционную
систему Windows, понятен и прост и использовании;
McEdit - имеет сходство с
редактором Edit из MS DOS, компонента файлового менеджера mc
(Midnight Commander) ОС Linux;
KEdit - простейший текстовый редактор,
входит в состав KDE Linux;
KWrite - текстовый редактор, имеющий
ряд дополнительных настроек по сравнению с другими простейшими
текстовыми редакторами;
Emacs - совмещает в себе функции
файлового менеджера и текстового редактора; одной из отличительных
черт является возможность создание макрокоманд (макросов); имеется во
всех клонах Unix, в том числе и Linux; Emacs можно использовать и в
MS Windows.
Редакторы, создающие текст с
элементами разметки
Word - служит для создания
разнообразных печатных документов, является компонентом офисных
приложений в MS Windows;
StarWriter - входит в состав программы
StarOffice, внешним видом и функциональностью он похож на Word,
одинаково хорошо работает как в MS Windows, так и в ОС Linux;
LyX (KLyX в KDE) - современный
текстовый редактор, предназначенный для людей, которые хотят получить
документ, выглядящий профессионально, но затратить на его создание
минимум времени; редактор вставляет в текст команды разметки TeX и
LaTeX;
Netscape Composer - вставляет в текст
команды разметки языка HTML, существуют версии как для ОС Linux, так
и для MS Windows.
6. Поиск текста
Особую ценность
представляет возможность поиска нужной информации или текста с
помощью компьютера. Получение информации -
это получение фактов, сведений и данных о свойствах, структуре или
взаимодействии объектов и явлений окружающего нас мира. Предметное
содержание информации позволяет уяснить ее основные свойства -
достоверность, полноту, ценность, актуальность, ясность и понятность.
В мире существует огромное количество
WWW серверов самого разного назначения. Без специальных средств
ориентировка в этом гигантском объеме информации просто невозможна.
Решают эту проблему поисковые серверы, которые хранят миллионы ссылок
на разные темы и производят поиск нужных документов по запросу
пользователя.
Для того чтобы облегчить поиск документов были созданы
каталоги WEB-серверов и поисковые машины. В большинстве случаев
каталог представляет собой тематические подборки ссылок на
Web-ресурсы (медицина, политика, программирование и т. д.). Поисковые
же машины позволяют попасть на страничку, текст которой содержит
заданный набор слов. Каждая поисковая машина обладает своими
специфическими возможностями, достоинствами и недостатками. Следует
отметить, что наполнение сети Интернет русскоязычной информацией,
хотя и происходит быстрыми темпами, все еще значительно отстает от
уровня англоязычной информацией. Английский язык продолжает
оставаться основным языком общения пользователей Интернет.
Познакомимся с возможностями некоторых поисковых
серверов.
Это одна из первых наиболее мощных поисковых машин. Она
имеет встроенный переводчик страниц с английского языка на
французский, немецкий, итальянский, испанский и т. д. и обратно.
Правда, на русский язык она переводить не умеет. Схема использования
стандартна: в строке для ввода пишутся ключевые слова, а затем
нажимается кнопка Search (поиск). Далее выдается список ссылок на
страницы с краткой аннотацией.
Это не только поисковая машина, но и крупнейший
классификатор ресурсов сети. Здесь выделено несколько разделов
верхнего уровня: исскуство, бизнес, компьютеры, образование,
развлечения, правительство и другие. Каждый из разделов помимо ссылок
содержит подразделы, которые в свою очередь тоже содержат подразделы
и т. д.
Искать интересующую информацию можно как с помощью
строки запроса аналогично AltaVista, так и перемещаясь по разделам,
но в последнем случае необходимо точно знать, к какой именно
категории относится предмет поиска.
Помимо известной поисковой системы, сервер "Rambler"
включает классификационный каталог "Rambler Top 1000",
состоящий из категорий, которые охватывают все основные тематические
направления российских Web-серверов.
В разделах списки серверов оформлены в виде таблицы. На
одном экране выводится 20 ссылок. По умолчанию сортировка идет по
текущей посещаемости серверов в каждой категории. Для каждого ресурса
приводится дополнительная информация о числе посещений и динамике
популярности сервера.
Таким образом, сервер помогает получить верное
представление о популярности отечественных Web-серверов. Российская
часть Интернет представлена здесь достаточно полно.
Занимает одно из ведущих мест среди русскоязычных
поисковых серверов. Активно и динамично развивается.
Стратегии, применяемые для поиска информации в Интернет,
постоянно совершенствуются. Так Google (www.google.com), некоторое
время назад считавшийся экспериментальной поисковой системой, сейчас
пользуются пятнадцать миллионов человек ежемесячно. Секрет Google в
удачном алгоритме отбора документов, отвечающих поисковому запросу.
Предшественники Google пытались определить "ценность"
документа только на основании анализа его текста: как часто и как
близко к началу документа встречаются там слова из запроса, есть ли
они в заголовке и т. д.
Создатели Google решили оценивать соответствие документа
запросу с помощью специального числа, похожего по смыслу на индекс
цитирования: чем больше ссылок на данный документ, тем это число,
называемое PageRank, больше. Если же сервер не находит запрашиваемой
комбинации в своем каталоге, то пользуется тематическим каталогом
Yahoo. Результаты оказались столь хороши, что Google стал "народной"
поисковой системой. Google постоянно совершенствует свой сервис:
проиндексированы все документы в формате pdf, организован поиск
картинок в Интернет (images.google.com).
Одним из недостатков Google можно считать отсутствие
диалога с пользователем во время подбора документов. Этот недостаток
стараются исправить конкуренты Google, классифицируя найденные
документы. Так поисковая система Teoma (www.teoma.com) автоматически
классифицирует найденные ссылки на документы. Результаты при выводе
делятся на три части: собственно классификация, занимающая верхнюю
часть окна, документы, лучше всего соответствующие запросу,
размещаются слева, а справа выводятся документы, в которых много
ссылок на страницы, стоящие слева.
Заключение
Данная курсовая работа была посвящена
изучению технологии кодирования текста, поиска текста, отображения
текста.
Информацию мы извлекаем из учебников и
книг, газет и журналов, телепередач и кинофильмов. Записываем ее в
тетрадях и конспектах. В производственной деятельности информация
передается в виде текстов и чертежей, справок и отчетов, таблиц и
других документов. Такого рода информация может предоставляться и с
помощью ЭВМ.
В любом виде информация для нас
выражает сведения о ком-то или о чем-то. Она отражает происходящее
или происшедшее в нашем мире, например, что мы делали вчера или будем
делать завтра, как провели летний отпуск или каков будет характер
будущей работы. При этом информация обязательно должна получить
некоторую форму - форму рассказа, рисунка, статьи и т. д.
Чертежи и музыкальные произведения, книги и картины, спектакли и
кинофильмы - все это формы представления информации.
Информация, в какой бы форме она ни
предоставлялась, является некоторым отражением реального или
вымышленного мира. Поэтому информация - это отражение
предметного мира с помощью знаков и сигналов.
Стоит отметить, что абсолютно точное
определение информации дать невозможно, это такое же первичное
понятие, как точка или плоскость в геометрии.
Информация достоверна, если она не
искажает истинное положение дел. Недостоверная информация может
привести к неправильному пониманию или принятию неправильных решений.
Информация полна, если ее достаточно
для понимания и принятия решений. Неполнота информации сдерживает
принятие решений или может повлечь ошибки.
Ценность информации зависит от того,
какие задачи мы можем решить с ее помощью.
При работе в постоянно изменяющихся
условиях важно иметь актуальную, т. е. соответствующую
действительности, информацию.
Информация становится понятной, если
она выражена языком, доступным людям, для которых она предназначена.
Литература
Андреев А.В. и др. Основы
информатики и вычислительной техники. – М.: "Феникс",
2002, с. 256
Ляхович В.Ф., Крамаров С.О. Основы информатики. –
М.: "Феникс", 2003, с. 704
Стариченко Б.Е. Теоретические основы информатики. –
М.: "Горячая линия-Телеком, Радио и связь", 2003, с.: 312
Шафрин Ю. А. Информационные технологии. В 2 ч.Ч 1.
Основы информатики и информационных технологий / Учеб. пособие / –
М.: "Издательство `Лаборатория Базовых Знаний`", 2003, с.
316
Черепанов А.Т. Англо-русский словарь сокращений по
компьютерным технологиям, информатике, электронике и связи. 2-е
издание – М.: "Русский язык", 2001, с. 496
Угринович Н., Босова Л., Михайлова Н. Практикум по
информатике и информационным технологиям. – М.: "Лаборатория
базовых знаний", 2002, с. 400
1
Новый стандарт Unicode, на который осуществляется постепенный
переход, позволяет использовать 216=65536 (а в последней
версии - 232) символов. Текст в такой кодировке будет
занимать существенно (в среднем - вдвое) больше памяти. [Примечание
к примечанию: реальные системы используют не непосредственно Unicode
(UTF-32), а представления UTF-8 и UTF-16. В первом из них символ
может занимать от 1 до 6 байт, во втором - 2 или 4 байта]
2
Это - примерные значения для русской пишущей машинки. В англоязычных
странах обычно используют более мелкий шрифт.
3
Речь идет о "стандартных" шрифтах. Кроме них существуют
также шрифты, содержащие (вместо букв и цифр) специальные, например
декоративные, символы.
4
American Standard Code for Information Interchange - Американскийстандартныйкодобменаинформацией.
5
В России широко используются в настоящее время четыре кодировки:
CP866 ("DOS-альтернативная". Для
PC-совместимых компьютеров под MS-DOS и OS/2, а также в
любительской компьютерной сети Fido);
CP1251 (Для PC-совместимых компьютеров под
Windows, а также на большинстве сайтов WWW);
KOI-8R (Компьютеры под UNIX, электронная
почта и конференции Internet);
7
ASCII - American Standard Code for Information Interchange
8
Точнее, альтернативная модифицированная. Такое название сохранилось
с тех времен, когда кроме нее были еще "основная кодировка
ГОСТ" и "альтернативная кодировка ГОСТ"
9
Удивительно, но факт: при разработке этой кодировки не учли одну
букву украинского алфавита. Поэтому украинский - единственный
кириллический язык, для которого на Макинтошах есть своя отдельная
кодировка - Macintosh Ukrainian