编辑推荐

  本版教材系统介绍了多媒体系统的核心技术,在内容上力求选用相对成熟和实用的新技术,在技术原理阐述和解释上力求清楚准确。为保持多媒体技术基础教材内容的系统性和完整性,本教材不免与其他学科教材有交集。此外,教材中包含许多技术背景和技术细节,目的是为更好地理解技术原理,细节也反映理解的深浅。在上述思想指导下,使本教材的篇幅比较大,但还是比国外同类教材的篇幅小很多。

  每章均附有练习和思考题,用于辅助读者掌握本章的要点;每章内容的来源都列出了参考文献和站点,读者可用于加深对教材内容的理解和扩大知识面。

内容简介

《多媒体技术基础》第4版教材在第3版的基础上,对教材内容做了较大幅度的增减。从多媒体系统角度出发,本版教材分成三个部分:(1)多媒体压缩和编码(第2~14章),介绍文字、声音、图像和数字电视媒体的基本知识、压缩和编码方法;(2)多媒体光盘存储技术(第15~17章),介绍CD、DVD、HDDVD和蓝光盘的存储原理和存储格式;(3)多媒体网络(第18~32章),以多媒体网络应用和服务质量(QoS)为中心,介绍计算机网络的互联、宽带(有线、无线和移动)接入因特网的基础知识。每章均附有练习和思考题,用于辅助读者掌握本章的要点;每章内容的来源都列出了参考文献和站点,读者可用于加深对教材内容的理解和扩大知识面。

作者简介

林福宗清华大学计算机科学与技术系退休教授,1970年毕业于清华大学自动控制系,留校工作直至退休。从1989年开始对多媒体产生兴趣,其后一直从事多媒体技术基础的教学和应用研究,曾编写并在清华大学出版社出版《英汉多媒体技术辞典》、《多媒体技术基础》教材等图书。

目录

第1章多媒体技术概要

第一部分多媒体压缩和编码
第2章字符编码与字体
第3章数据无损压缩
第4章数字语音编码
第5章彩色数字图像基础
第6章小波与小波变换
第7章小波图像编码
第8章颜色度量体系
第9章颜色空间转换
第10章数字电视基础
第11章MPEG介绍
第12章MPEG视像
第13章H.264/AVC与H.265/HEVC
第14章MPEG声音

第二部分多媒体光盘存储技术
第15章光盘存储技术
第16章光盘存储格式
第17章错误检测和纠正

第三部分多媒体网络
第18章多媒体网络介绍
第19章计算机网络的概念与模型
第20章互联网上的地址
第21章应用层技术
第22章传输层技术
第23章网络层技术
第24章链路层技术
第25章物理层技术
第26章扩谱技术
第27章多路复用与多址接入
第28章有线宽带接入
第29章无线宽带接入
第30章移动宽带接入
……

精彩书摘

  第5章彩色数字图像基础

  图像是多媒体中携带信息的极其重要的媒体,有人发表过统计资料,认为人们获取的信息的70%来自视觉系统。由于图像数字化之后的数据量非常大,在因特网上传输时很费时间,在盘上存储时很占“地盘”,因此就必须要对图像数据进行压缩。压缩的目的就是要满足存储容量和传输带宽的要求,而付出的代价则是大量的计算。几十年来,许多科技工作者一直在孜孜不倦地寻找更有效的方法,用比较少的数据量表达原始的图像。

  图像数据压缩主要是根据下面两个基本事实来实现的。一个事实是图像数据中有许多重复的数据,使用数学方法来表示这些重复数据可减少数据量;另一个事实是人的眼睛对图像细节和颜色的辨认有一个极限,把超过极限的部分去掉,也就达到压缩数据的目的。利用前一个事实的压缩技术是无损数据压缩技术,利用后一个事实的压缩技术是有损数据压缩技术。实际的图像压缩是综合使用各种有损和无损数据压缩技术来实现的。

  本章将介绍表示数字彩色图像所需要的基本知识、使用得相当广泛的JPEG压缩标准和图像文件的存储格式。在介绍过程中,要涉及有关颜色的度量和颜色空间的转换问题,这些比较深入的问题将在第8章“颜色度量体系”和第9章“颜色空间转换”中介绍。

  5.1视觉系统对颜色的感知

  颜色是视觉系统对可见光的感知结果。可见光是波长在380~780nm之间的电磁波,我们看到的大多数光不是一种波长的光,而是由许多不同波长的光组合成的。人们在研究眼睛对颜色的感知过程中普遍认为,人的视网膜有对红、绿、蓝颜色敏感程度不同的三种锥体细胞,另外还有一种在光功率极端低的条件下才起作用的杆状体细胞,因此颜色只存在于眼睛和大脑。在计算机图像处理中,杆状细胞还没有扮演什么角色。

  人的视觉系统对颜色的感知可归纳出如下几个特性:

  (1)眼睛本质上是一个照相机。视网膜(humanretina)通过神经元来感知外部世界的颜色,每个神经元是一个对颜色敏感的锥体(cone)或是一个对颜色不敏感的杆状体(rod)。

  (2)红、绿和蓝三种锥体细胞对不同频率的光的感知程度不同,对不同亮度的感知程度也不同。这就意味着,人们可以使用数字图像处理技术来降低表示图像的数据量,而不使人感到图像质量有明显下降。

  (3)自然界中的任何一种颜色都可以由R、G、B这三种颜色值之和来确定,它们构成一个三维的RGB矢量空间。这就是说,R、G、B的数值不同,混合得到的颜色就不同,也就是光波的波长不同。

  5.2图像的颜色模型

  在文献和教材中,用于描述颜色的常用词有两个:颜色模型和颜色空间。颜色模型(colormodel)是用数值指定颜色的方法,颜色空间(colorspace)是用空间中点的集合描述颜色的方法,它们互为同义词。RGB和CMYK是计算机系统使用最广泛的两个颜色模型。

  5.2.1显示彩色图像用RGB相加混色模型

  一个能发出光波的物体称为有源物体,它的颜色由该物体发出的光波决定,并且使用RGB相加混色模型。电视机和计算机显示器使用的阴极射线管(CathodeRayTube,CRT)就是一个有源物体。CRT使用3个电子枪分别产生红(red)、绿(green)和蓝(blue)三种波长的光,并以各种不同的相对强度综合起来产生颜色,如图51(a)所示。虽然当今的电视机和计算机显示器几乎都使用彩色LED显示器,但生成颜色的原理与阴极射线管(CRT)类似。

  组合这三种光波来产生特定颜色的方法叫作相加混色法(additivecolormixture),因为这种相加混色是利用R、G和B颜色分量产生颜色,故称为RGB相加混色模型。相加混色是计算机应用中定义颜色的基本方法。

  从理论上讲,任何一种颜色都可用三种基本颜色按不同的比例混合得到。三种颜色的光强越强,到达我们眼睛的光就越多,它们的比例不同,我们看到的颜色也就不同。没有光到达眼睛,就是一片漆黑。当三基色按不同强度相加时,总的光强增强,并可得到任何一种颜色。某一种颜色和这三种颜色之间的关系可用下面的式子来描述:

  颜色=R(红色的百分比)+G(绿色的百分比)+B(蓝色的百分比)

  当三基色等量相加时,得到白色;等量的红绿相加而蓝为0时得到黄色;等量的红蓝相加而绿为0时得到品红色;等量的绿蓝相加而红为0时得到青色。这些三基色相加的结果如图51(b)所示。

  图51颜色生成原理

  一幅彩色图像可以看成是由许多的点组成的,如图52所示。图像中的单个点称为像素(pixel),每个像素都有一个值,称为像素值,它表示特定颜色的强度。图52一幅图像由许多像素组成

  一个像素值往往用R、G、B三个分量表示。如果每个像素的三个颜色分量都用二进制的1位来表示,那么每个颜色的分量只有“1”和“0”这两个值,这也就是说,每个颜色分量的强度是100%或者是0%。在这种情况下,每个像素所显示的颜色是8种可能的颜色之一,见表51。

  对于标准的电视图形阵列(VideoGraphicsArray,VGA)适配卡的16种标准颜色,其对应的R、G、B值见表52。在Microsoft公司的Windows操作系统中,用代码0~15表示。表中的代码1~6表示的颜色比较暗,它们是用最大光强值的一半产生的颜色;9~15是用最大光强值产生的。表51相加色RGB颜色RGB颜色000黑100红001蓝101品红010绿110黄011青111白在表52中,每种基色的强度是用8位表示的,因此可产生224=16777216种颜色。但实际上要用1600多万种颜色的场合是很少的。在多媒体计算机中,除用RGB来表示颜色外,还用色调饱和度亮度(HueSaturationLightness,HSL)表示。

  在HSL模型中,H定义颜色的波长,称为色调;S定义颜色的强度(intensity),表示颜色的深浅程度,称为饱和度;L定义掺入的白光量,称为亮度。用HSL表示颜色的重要性,是因为它比较容易为画家所理解。若把S和L的值设置为1,当改变H时就是选择不同的纯颜色;减小饱和度S时,就可体现掺入白光的效果;降低亮度时,颜色就暗,相当于掺入黑色。因此在Windows附带的画图软件也用了HSL表示法。表5216色VGA调色板的值代码RGBHSL相加色000016000黑(Black)10012816024060蓝(Blue)2012808024060绿(Green)3012812812024060青(Cyan)412800024060红(Red)5128012820024060品红(Magenta)612812804024060褐色(DarkYellow)71921921921600180白(LightGray)81281281281600120深灰(DarkGray)900255160240120淡蓝(LightBlue)100255080240120淡绿(LightGreen)110255255120240120淡青(LightCyan)12255000240120淡红(LightRed)132550255200240120淡品红(LightMagenta)14255255040240120黄(Yellow)152552552551600240高亮白(BrightWhite)5.2.2打印彩色图像用CMY相减混色模型

  一个不发光波的物体称为无源物体,它的颜色由该物体吸收或者反射哪些光波决定,用CMY相减混色模型。用彩色墨水或颜料进行混合,绘制的图画就是一种无源物体,用这种方法生成的颜色称为相减色。从理论上说,任何一种颜色都可以用三种基本颜色的颜料按一定比例混合得到。这三种颜色是青色(cyan)、图53相减混色

  品红(magenta)和黄色(yellow),通常写成CMY,称为CMY模型。用这种方法产生的颜色之所以称为相减色,是因为它减少了为视觉系统识别颜色所需要的反射光。

  在相减混色中,当三基色等量相减时得到黑色;等量黄色(Y)和品红(M)相减而青色(C)为0时,得到红色(R);等量青色(C)和品红(M)相减而黄色(Y)为0时,得到蓝色(B);等量黄色(Y)和青色(C)相减而品红(M)为0时,得到绿色(G)。三基色相减结果如图53所示。

  彩色打印机采用的就是这种原理,印刷彩色图片也是采用这种原理。按每个像素每种颜色用1位表示,相减法产生的8种颜色如表53所示。由于彩色墨水和颜料的化学特性,用等量的三基色得到的黑色不是真正的黑色,因此在印刷术中常加一种真正的黑色(blackink),所以CMY又写成CMYK。表53相减色C(青色)M(品红)Y(黄色)相减色000白001黄010品红011红100青101绿110蓝111黑相加色与相减色之间有一个直接关系,见表54所示。利用它们之间的关系,可以把显示的颜色转换成输出打印的颜色。相加混色和相减混色之间成对出现互补色。例如,当RGB为1∶1∶1时,在相加混色中产生白色,而CMY为1∶1∶1时,在相减混色中产生黑色。从另一个角度也可以看出它们的互补性,例如,RGB为0∶1∶0,对应CMY为1∶0∶1。续表表54相加色与相减色的关系相加混色(RGB)相减混色(CMY)生成的颜色000111黑001110蓝010101绿011100青100011红101010品红110001黄111000白5.3图像的三个基本属性

  属性是标识和描述被管理对象的特性,图像的属性包含分辨率、像素深度、真/伪彩色、图像的表示法和种类等,本节将介绍前面三个特性。

  5.3.1图像分辨率

  我们经常遇到的分辨率(resolution)有两种:屏幕分辨率和图像分辨率。为更好地理解图像分辨率的概念,首先介绍屏幕分辨率。

  1.屏幕分辨率

  屏幕分辨率也称显示分辨率,它是衡量显示设备再现图像时所能达到的精细程度的度量方法。屏幕分辨率通常用水平和垂直方向所能显示的像素数目表示,写成“水平像素数×垂直像素数”,如640×480表示显示屏分成480行,每行显示640个像素,整个显示屏含有307200个显像点。常见的屏幕分辨率包括640×480、800×600、1024×768、1280×1024。水平分辨率与垂直分辨率的比例通常是4∶3,与传统电视的宽高比相同,但与高清晰度电视的宽高比(16∶9)不同。

  屏幕能够显示的像素越多,说明显示设备的分辨率越高,显示的图像质量也就越高。显示屏上的每个彩色像点由代表R、G、B三种模拟信号的相对强度决定,这些彩色像点就构成一幅彩色图像。

  2.图像分辨率

  图像分辨率(imageresolution)是图像精细程度的度量方法。对同样尺寸的一幅图,如果像素数目越多,则说明图像的分辨率越高,看起来就越逼真。相反,图像显得越粗糙。图像分辨率也称空间分辨率(spatialresolution)和像素分辨率(pixelresolution)。

  在图像显示应用中,图像分辨率有多种方法表示。例如:(1)物理尺寸,如“每毫米线数(或行数)”;(2)行列像素,用“像素/行×行/幅”表示,如640像素/行×480行/幅;(3)像素总数,如在手机的相机上标的“1600万像素”;(4)单位长度(面积)的像素,如像素每英寸(PixelsPerInch,PPI);(5)线对(linepair)数,以黑白相邻的两条线为一对,如“每毫米10线”表示黑线和白线相间的5对线;(6)像素深度(见5.3.2节)。

  在图像数字化和打印应用中,通常要指定图像的分辨率,用每英寸多少点(DotsPerInch,DPI)表示。如果用300DPI来扫描一幅8″×10″的彩色图像,就得到一幅2400×3000个像素的图像。分辨率越高,像素就越多。

  图像分辨率与屏幕分辨率是两个不同的概念。从行列像素角度看,图像分辨率是构成一幅图像的像素数目,而屏幕分辨率是显示图像的区域大小。例如,如果屏幕分辨率为640×480,那么一幅320×240像素的图像只占显示屏的1/4;相反,2400×3000像素的图像在这个显示屏上就不能显示其完整的画面。

  5.3.2像素深度与阿尔法(α)通道1.像素深度像素深度是指存储每个像素所用的位数。例如,在电视图像信号数字化时,记录每个图像样本信号的位数为8、10、12或16位。8位表示的分辨率是1/256,10位表示的分辨率是1/1024。在这个意义上,像素深度也被认为是图像分辨率的一种度量方法。

  像素深度决定彩色图像的每个像素可能有的颜色数,或者确定灰度图像的每个像素可能有的灰度级数。例如,一幅彩色图像的每个像素用R、G、B三个分量表示,若每个分量用8位,那么一个像素共用24位表示,就说像素的深度是24,每个像素可以是224=16777216种颜色中的一种。在这个意义上,往往把像素深度说成是图像深度。表示一个像素的位数越多,它能表达的颜色数目就越多,而它的深度就越深。

  虽然像素深度或图像深度可以很深,但各种VGA的颜色深度却受到限制。例如,标准VGA支持4位16种颜色的彩色图像,多媒体应用中通常推荐用8位256种颜色。由于设备的限制,加上人眼分辨率的限制,一般情况下,不一定要追求特别深的像素深度。此外,像素深度越深,所占用的存储空间也越大。相反,如果像素深度太浅,那也影响图像的质量,图像看起来让人觉得很粗糙和很不自然。

  2.α通道

  在用二进制数表示彩色图像的像素时,除R、G、B分量用固定位数表示外,往往还增加1位或几位作为属性(attribute)位。例如,RGB5∶5∶5表示一个像素时,用2个字节共16位表示,其中R、G、B各占5位,剩下最高1位(b15)作为属性位,用来指定该像素应具有的性质,并把它称为透明(transparency)位,记为T。T的含义可以这样来理解:假如显示屏上已经有一幅图存在,如果要把另一幅图重叠在它上面,就可用T位来控制原图是否能看得见。例如,可定义T=1,原图完全看不见;T=0,原图能完全看见。在这种情况下,属性位T称为1位α通道(alphachannel),像素深度为16位,而图像深度为15位。

  在每个像素用32位的图像表示法中,最高8位称为8位α通道,用于表示像素在对象中的透明度,其余24位是颜色通道,红色、绿色和蓝色分量各占8位通道。这个由8位构成的α通道可看作是一个预乘数通道。因此,例如,一个像素(A,R,G,B)的四个分量都用规一化的数值表示,当像素值为(1,1,0,0)时显示红色,当像素值为(0.5,1,0,0)时,使用α通道中的预乘数0.5与R、G、B相乘的结果就为(0.5,0.5,0,0),表示原来该像素显示的红色强度为1,而现在显示的红色的强度为0.5。又如,用两幅图像A和B混合成一幅新图像(New),它的像素为:Newpixel=(alpha)(pixelAcolor)+(alpha)(pixelBcolor)。

  用α通道描述像素属性在实际中很有用。例如,在一幅彩色图像上叠加文字说明,而又不想让文字把图覆盖掉,就可用α通道,而又有人把该像素显示的颜色称为混合色(keycolor)。在视像产品生产过程中,也往往把数字电视图像和计算机生产的图像混合在一起,这种技术称为视图混合(videokeying)技术,它也采用α通道。

  5.3.3真伪彩色和直接色

  了解真彩色、伪彩色与直接色的含义,对于编写图像显示程序、理解图像文件的存储格式都有很大帮助,对“本来是用真彩色表示的图像,但在VGA显示器上显示的颜色却不是原来图像的颜色”这类现象也不会感到困惑。

  1.真彩色

  真彩色(truecolor)是指每个像素的颜色值用红(R)、绿(G)和蓝(B)表示的颜色。例如,用RGB5∶5∶5表示图像颜色,R、G、B各用5位,其值大小直接确定三个基色的强度,这样得到的彩色是真实的原图彩色。真彩色通常用24位表示,因此也称24位颜色(24bitcolor)或全彩色(fullcolor),其颜色数目为224=16777216种。

  2.伪彩色

  伪彩色(pseudocolor)是指每个像素的颜色不是由每个基色分量的数值直接决定的颜色,而是把像素值当作彩色查找表(ColorLookUpTable,CLUT)的表项入口地址,去查找显示图像时使用的R、G、B值,用查找出的R、G、B值产生的彩色称为伪彩色。

  彩色查找表(CLUT)是一个事先做好的表,表项入口地址也称为索引号。例如,在有256种颜色的查找表中,0号索引对应黑色……255号索引对应白色。彩色图像本身的像素数值和彩色查找表的索引号有一个变换关系,这个关系可以使用Windows定义的变换关系,也可以使用你自己定义的变换关系。使用查找得到的数值显示的彩色是真的,但不是图像本身真正的颜色,它没有完全反映原图的颜色。

  3.直接色

  每个像素值由R、G、B分量构成,每个分量作为单独的索引值对它做变换,也就是通过相应的彩色变换表找出基色强度,用变换后的R、G、B强度值产生的颜色称为直接色(directcolor)。它的特点是对每个基色进行变换。

  5.4图像的种类[4/5]5.4.1矢量图与位图在计算机中,表示图像的常用方法有两种,一种称为矢量图法,生成的图像叫作矢量图(vectorgraphics),另一种称为位图法,生成的图像叫作位图(bitmap或bitmappedimage)。虽然这两种图像的表示方法不同,但在显示器上显示的结果几乎没有差别。

  1.矢量图

  矢量图是用一系列计算机指令描绘的图,如点、线、面、曲线、圆、矩形以及它们的组合,如图54(a)所示。这种方法实际上是用许多数学表达式描述一幅图,再用计算机语言来表达,在显示图像时,还可看到画图的过程。绘制和显示这种图的软件通常称为绘图程序(drawprograms),存放这种图的存储格式称为矢量图格式,存储的数据主要是绘制图形的数学描述。

  矢量图有许多优点。例如,目标图像的移动、缩小或放大、旋转、拷贝、属性(如线条变宽变细、颜色)变更都很容易做到;相同的或类似的图可以把它们当作图的构造块,并把它们存到图库中,这样不仅可加速矢量图的生成,而且可减小矢量图的文件大小。

  然而,对于真实世界的彩照,恐怕就很难用数学方法来描述,这就要用位图法表示。

  ……

前言/序言

  前言

  《多媒体技术基础》第3版教材于2008年定稿出版发行。从技术上看,当时许多新技术正处在开发和试验过程中,如H.265/HEVC、移动多媒体等技术,现已趋成熟。从国外的多媒体技术课程来看,教学内容已不再局限于多媒体本身,已经扩展到多媒体系统。

  “多媒体系统”这个名称已在科学技术文献中频繁出现,越来越多地把它作为学术杂志的名称、学术会议的名称、教科书的名称,国外许多高等院校把它作为本科生、研究生的课程名称。从多媒体系统角度考虑,本版教材在内容上做了较大幅度的增减,使《多媒体技术基础》更趋完整,可把它理解为“多媒体系统的技术基础”。

  一、教材内容的组织

  与第3版相比,《多媒体技术基础》第4版教材变动较大的部分如下:

  (1)增加了字符编码和字体技术,系统介绍了汉字编码的过去和现在,弥补了过去多媒体教材没有字符技术的遗憾。

  (2)参照国外多媒体系统课程的教学大纲,较系统地介绍了多媒体互联网络,包括网络互联和宽带接入因特网的技术基础。宽带接入包括有线宽带、无线宽带和移动宽带接入,技术基础包括有线和无线数据通信学科方面的知识。

  (3)为减少教材篇幅,第3版中的不少内容没有保留,但仍然有参考价值,如介绍HTML和XML的多媒体内容处理语言。

  《多媒体技术基础》第4版教材的内容组织成如下三个部分。

  第一部分:多媒体压缩和编码(第2~14章),介绍文字、声音、图像和数字电视媒体的基本知识、压缩技术和编码方法。

  第二部分:多媒体光盘存储技术(第15~17章),介绍CD、DVD、HDDVD和蓝光盘的存储原理和存储格式。

  第三部分:多媒体网络(第18~32章),以多媒体网络应用和服务质量(QoS)为中心,介绍计算机网络、宽带(有线、无线和移动)接入因特网的基础知识。

  每章均附有练习和思考题,用于辅助读者掌握本章的要点;每章内容的来源都列出了参考文献和站点,读者可用于加深对教材内容的理解和扩大知识面。

  二、教材的使用建议

  本版教材系统介绍了多媒体系统的核心技术,在内容上力求选用相对成熟和实用的新技术,在技术原理阐述和解释上力求清楚准确。

  为保持多媒体技术基础教材内容的系统性和完整性,本教材不免与其他学科教材有些交集。此外,教材中包含许多技术背景和技术细节,目的是为更好地理解技术原理。在上述思想指导下,使本教材的篇幅较大。

  对本教材的使用,编者还是建议,教师有所教有所不教,学生有所学有所不学。具体建议详见本教材第3版前言。

  三、衷心感谢

  《多媒体技术基础》由林福宗主持编写,参加编写工作的教授、专家和高级程序员有黄民德、汪健如、黄国健、林彩荣和张哲等。特别感谢中国科学院院士、清华大学张钹教授长时期的直接指导和各方面给予的实质性支持;感谢我们课题组所有老师和硕博研究生为本教材所做的贡献;感谢使用本教材的师生和技术人员给予我们的热情鼓励和提出的宝贵建议。

  林福宗

  退休单位:清华大学计算机科学与技术系

  电子邮件地址:linfz@mail.tsinghua.edu.cn

  2017年3月1日第3版前言

  本教材第2版于2001年定稿,2002年9月第一次印刷。当时许多新技术还没有出现或正在开发之中,如MPEG4AVC/H.264(2003年)和XML1.1(2006年)。有些当时认为比较有前途的技术,现在已经更新,如普遍认为2002年公布的SIP(RFC3261)比1996年公布的H.323更简单。根据笔者过去几年的科研、教学和观察,教材中的大部分内容都适合当前使用,因此确定第3版教材的修改方针是保留第2版的体系结构、更新部分章节内容和增加新内容。

  一、教材的组织结构

  为保持多媒体技术基础课程内容的完整性,第3版教材仍由多媒体压缩和编码、多媒体存储、多媒体传输和多媒体内容处理语言共四个相对独立的部分组成。

  第一部分:多媒体压缩和编码(第2~13章),主要介绍声音、图像和数字电视的基本知识、压缩与编码方法。

  第二部分:多媒体存储(第14~16章),主要介绍CD、DVD、HDDVD和BD(BlurayDisc)光盘的存储原理和多媒体在光盘上的存放格式。

  第三部分:多媒体传输(第17~20章),主要介绍多媒体网络应用、服务质量(QoS)、因特网、TCP/IP协议和多媒体传输的基础知识。

  第四部分:多媒体内容处理语言(第21~22章),主要介绍HTML和XML的基础知识。

  为帮助读者加深对基础知识的理解,每章后面都有练习和思考题,但这些题目没有难度,教师可增加一些有一定深度的练习和思考题。

  每章后面都有参考文献和站点,列出它们有两个目的:(1)表示在编写本教材过程中访问过相关站点,参考或引用了相关内容;(2)更重要的是为读者提供进一步学习的指南,教师要鼓励学生主动上网查阅。虽然到《多媒体技术基础(第4版)(清华大学计算机系列教材)》截稿时每个网址都有效,但以后可能会有变化。

  二、教材修改的内容

  在第2版教材基础上,第3版教材做了如下修改:

  (1)考虑到视像压缩技术在多媒体产品和各种服务中的重要性,因此增加了一章专门用来介绍MPEG4AVC/H.264。此外,考虑到光盘存储器在多媒体存储方面的重要性,因此增加了HDDVD和BlurayDisc的内容。

  (2)考虑到网上多媒体应用如火如荼,如IP电视、IP电话、即时通信和多媒体会议,因此重写了第三部分(第17~20章),突出了多媒体传输或称多媒体通信技术。

  (3)考虑到20世纪90年代末期开展的内容处理已成为重要的研究方向,因此在第22章(XML语言)中增加了XML新版本的内容。HTML和XML等标准已经并将继续对日益增长的包括移动通信在内的多媒体网络应用和多媒体电子出版业等行业产生深远的影响。

  (4)为降低教材篇幅,第2版中的部分内容没有保留,如MIDI系统。

  (5)XHTML是用XML重写的HTML版本,2008年1月介绍的HTML5(也称XHTML5)也是用XML编写的。因此本版教材没有保留第2版中的第23章(XHML语言)。

  三、教材的使用建议

  国内许多大学开设多媒体技术课程已有多年,在网上看到许多兄弟院校在教材建设和课程教学方面已有很多很好的经验,在学习和借鉴他们成功经验的基础上,为使用或打算使用本教材的老师和同学提出如下建议供参考。

  1.有所教有所不教

  在编写本教材过程中笔者注意到,国外有些信息技术学院从本科到研究生阶段,每个年级都开设内容不同、深浅不同的多媒体课程,既有广度又有深度。考虑到我国目前的多媒体课程教学计划一般只安排一个学期,学时也不多,因此教师可采用有所教有所不教和有所学有所不学的策略。任课教师可根据自己的兴趣和专长、学生已有的基础和专业方向,有的放矢地选择其中的部分内容。对于不作为重点的教学内容,如果有需要,学生自己就会主动去钻研。

  2.教材作为参考书

  对于信息技术课程的教材来说,写进正式出版的教材的内容通常是比较成熟的,即使是刚刚出版的教材,其内容也不一定新。据观察,许多大学的多媒体课程内容是当前最新的技术,教师都有自己编写的教学提纲和材料,而把正式出版的教科书列为必要的参考材料加以推荐。这不是说正式出版的教材不重要,而是通过教授新技术来带动基本原理的学习。其结果是学的内容先进,学的基础扎实。

  本教材共22章,比较系统地介绍多媒体技术。笔者有意使本教材覆盖多方面的重要技术,努力选取相对比较新的和实用的技术,力图对多媒体技术原理解释清楚和准确。因此可把本教材作为多媒体技术课程的起点,在此基础上教授最新的技术。

  3.用课程设计驱动

  凡任课教师都很清楚,教一《多媒体技术基础(第4版)(清华大学计算机系列教材)》不等于开设一门课程。为配合我校加强实践教学的教学改革,更好地激励学生学习基础理论和技能的积极性,清华大学出版社出版了经过多年实际使用的《多媒体技术课程设计与学习辅导》。学生对课程设计反响强烈,由于严格实施“允许参考不许抄袭”的措施,学生普遍认为真正学到了知识。

  辅助教材拟了多个难易程度不同的设计题目,每个题目都有原理介绍和示例。为便于学生撰写和教师评估课程设计报告,规范了课程设计报告的格式。由于设计题目的难度不大,任课教师可根据情况,从中选择一个或两个题目,也可在辅助教材所列的“参考选题”或其他参考选题中增加或更改设计题目。课程设计要求使用MATLAB语言来实现,因为MATLAB是攻读学位的大学生、硕士生和博士生必须掌握的基本工具。

  4.用评估系统引导

  评估系统是一个无形的指挥棒,可以引导学生的学习方向。教授本教材是多媒体技术基础课程中的一个部分,而课程设计是课程的另一个重要组成部分。因此笔者的课程评估采用了“基础知识书面开卷考试约占50%,课程设计约占50%”的方法,但对不同专业的学生可以在评估标准或在所占分数的比例上加以调整。

  5.教学辅助材料

  为本教材准备的电子版的辅助材料有四个部分:(1)练习与思考题参考答案;(2)课程设计参考答案;(3)正式出版的本教材中的插图,为制作电子版讲课提纲提供方便;(4)讲课提纲(PPT格式)。这些材料可在清华大学出版社的网站上下载,也可在http://www.csai.tsinghua.edu.cn/linfzmmc/上下载。

  四、关于中文术语

  随着信息科学和技术日新月异,新术语不断涌现,同时也给一些老术语赋予了新的含义,使用准确的术语有利于信息的交流。为使本教材中的中文术语尽量准确,笔者查阅了许多著名的英文词典,阅读了许多相关的科学和技术文献,参考了全国科学技术名词审定委员会2002年公布的《计算机科学技术名词》。

  在本教材中,有几个常用术语有必要在此说明:(1)用“视频”作为video的释义是物理概念上的错误。video的真实含义是由一系列图像组成的(电)视(图)像,确切的中文译名应该是“视像”。“视频(videofrequency)”是电视信号频率的简称,在ITURBT.601标准中,频率范围是0~6.75MHz。(2)不论什么场合,用“音频”作为audio的释义也是物理概念上的错误。audio是指人的听觉系统可感知的声音,是声音(sound)的同义词,作名词时的确切中文术语应该是“声音”。“音频(audiofrequency)”是声音信号频率的简称,频率范围通常认为是15~20000Hz。(3)“分组交换(packetswitching)”是一个不确切的中文术语。“packet”的含义是一个由收、发送地址和实际数据组成的“数据包”,确切的术语应该是“包交换”。(4)“组播(multicast)”是一个容易被误认为“收发关系颠倒”的术语,本教材使用“多目标广播”。尽管我们习惯使用2~3个字构成的术语,但“多目标广播”是顾名就可思义的术语,即一个发送者向多个接收者(多目标)传送(广播)数据的意思。

  五、衷心感谢

  特别感谢中国科学院院士张钹教授多年来的直接指导和各方面给予的实质性支持;衷心感谢我们课题组(智能多媒体组)所有老师和硕博研究生为本教材所做的贡献;衷心感谢使用本教材的老师和学生给予我们的热情鼓励和提出的宝贵建议。

  参加本教材编写工作的有林彩荣、朱高建、朱高东、黄民德和谢霄艳,他们在多媒体语言、程序设计、多媒体通信、教育技术、软件评估、科研和教学方面都有各自的专长。

  林福宗

  清华大学计算机科学与技术系

  智能技术与系统国家重点实验室

  电子邮件地址:linfz@mail.tsinghua.edu.cn

  2008年10月15日


其他推荐