我看过很多有关 ChatGPT 的视频,基本上绝大部分都是流于表面,就很多一知半解的主播到处传播焦虑,当然他目的也有很多个人目的,我作为一个多年的互联网和 AI 的从业者,今天就一次性给你说明白,我相信大家知道了 ChatGPT 的大致工作原理,你大概率就会被这些门外汉就是牵着鼻子走了。
ChatGPT 牛不牛呢?当然牛,对吧? ChatGPT 它的全称是什么?翻译成中文就是生成型、预训练、变换模型。这里的重点是预训练,也就是说生成的结果是预先训练好的 AI 引擎只是根据我们的输入,在海量的数据中搜索,以及通过上下文我们指定的多个逻辑里面组织数据来返回结果。
理论上只要数据足够多,数据结构足够的细致和严密,这个引擎完全可以通过计算输出符合我们人类的思维模式的预计结果,对吧?很久以前的包括这个 Alphago 的实际对局,它的本质上也是通过计下各种棋谱,并在计算多不可能的结果下选择最有力的走法而已。而 ChatGPT 它是开放式的,也就是说它的这个场景会更多需要的这个数据量和训练的工作量更多。
所谓的更多是几何级的增长,成本超乎想象的高,因此看起来也就更加智能、更加实用了,因为我相信大家都已经看过很多这种实际的例子,在这里我就不举例子了,我们看看像百度啊这些传统的搜索引擎,为什么在移动互联网时代它会日渐示威呢?就是因为以前在 PC 的互联网时代,它可以通过浏览器整个网络上扒数据,但到了那个移动互联网时代了,每个 APP 都是一个封闭的数据孤岛,对吧?也就无法那个获得这些孤岛的数据,搜索结果也就大打折扣了。
但是类似这种 ChatGPT 的使用模式就打破了这种孤岛的界限。像这种大数据的 AI 模型,它是属于极大的重投资项目,绝大部分公司都是玩不起的,等会我会给大家介绍,而随着它的发展以后绝大部分产品都需要这个能力,对吧?就确实很方便,但如果你要使用类似 ChatGPT 这样的接口,只要使用它,你就要接受它的条款。
其中就包含了数据的贡献,也就是说你要把自己的数据贡献出去,把自己的数据喂给他,你不同意那就别用,对吧?因此从理论上来说,用的人越多,他输出的这个结果就越靠谱,其他的竞争对手也就越难追赶,极易形成这样的一种垄断。 ChatGPT 为什么这么牛呢?说白了就是大力出奇迹。说的更直白一点就是金钱的力量。老实说,太阳底下没有什么新鲜事, ChatGPT 它的实现机制还是人多力量大、钱多好办事。大家知道,为了实现这一目标,微软为 ChatGPT 的母公司,也就是 OpenAI 设计的这个超级计算机,其中包含了 285, 000 张CPU,还有 1 万多张GPU,光这个硬件的投入就需要几十亿美元。
这还是一两年之前的数据,所有目前我们看到的这些所谓的大数据模型,这些 AI 其实玩的就是一个概率,通过预训练来提高结果的正确的概率。想要机器学习,就需要先通过人工对数据进行标注的越细致,这个模型它就越准确,对吧?大家应该都很好理解,当然了也代表工作量就越大,所以像人工智能行业内就有这样一种玩笑,人工智能有多少人工就有多少智能。我们可以看到像时代周报就曾经出过一则这种报道。
OpenAI 为了训练这个ChatGPT,雇佣了很多实行不到 2 美元的尼日利亚的外包员工,当他们不分昼夜的日夜的对着庞大的数据进行手动的数据标注工作,我在这里简单给大家科普一下何为数据标注。只有经过标注处理后的结构化数据才能被 AI 算法模型用来训练使用。所以 ChatGPT 的每一次运行都离不开亿万字节的被标注的大数据库对数据进行初级标注的那个人,我们就称之为数据标注工。
数据标注工其实经过简单的专业训练后就可以上手了。数据标注工它主要的工作内容就是对图像、语音、文本等内容载体进行标注。拿比较好理解的文本标注来举例一下一段话,数据标注工需要对其打上语义构成、语境、目的、情感等数据标签,从而使 AI 算法能够更好地理解这些语言。值得一提的是,数据标注本质上它是劳动密集型的行业,它的一个显著特质就是工资低微,按行业惯例,多数的这个数据标注公司都会选择开在偏远的地方,这样子就可以节省房住和运营成本,对吧?即便是像拿到微软这么多钱的OpenAI,他们的很多数据标注工都是刚才的那个新闻里讲的,就是尼日利亚人,大家也可以自己度量关键字数据标注,当然你肯定可以看到很多某多的广告,对吧?很多专门从事数据标注的公司,他们真正的办公地点就是在二三线甚至更偏远的地方,人力成本更低,数据标注确实是巨大的劳动密集型产业,当然这也是我们国家的优势之一啊。
大家再随便度量一下数据标注工的招聘要求,在我国它要求也并不高,因为本质上它的工作就是跟在大工厂里面打螺丝是没有什么太大的区别的,追求的就是一个量。 ChatGPT 这样的大模型训练,一次大概要烧掉 200- 1, 200 万美元之间,仅仅是每天的电费,它的消耗就差不多要达到5万美元。仅仅在 2022 年一年, OpenAI 它公司的亏损就高达数十亿美元。如果不是背后有大股东微软源源不断的输血 OpenAI 的 ChatGPT 早就黄了。
ChatGPT 它的数据量真的特别大,也特别烧钱。前微软 AI 国内的某高管,他曾经直接说,就微软小冰,以他们之前的这种框架所支撑的对话量,一天就达到 14 个人类一辈子的对话交互量。如果使用 ChatGPT 的方法,每天的成本将高达3亿元,一年的成本将超过 1, 000 亿元。所以,这种海量投入的项目注定是和绝大部分的创业者没有关系了。
为什么比尔盖茨称 ChatGPT 的诞生,其伟大的意义不低于 PC 和互联网的诞生呢?因为这样举一国之力收集全球数据并进行运算的 AI 引擎,一旦验证其价值,别人想追赶是十分困难的。所有的第三方,不管你愿不愿意,只要想使用该功能,就只能接入其服务进行应用级的开发,类似基于 Windows 的软件开发,对吧?类似基于安卓和 iOS 的 APP 开发,底层还是 OpenAI 的 ChatGPT 实现底层系统级的垄断。所以为什么华为要发展鸿蒙?为什么要发展我们自己的大数据模型?就是为了以后不再被别人掐脖子,对吧?当然很多朋友问了 ChatGPT 为什么使用这种问答的形式直接来给出结论呢?为什么不像传统的搜索引擎那样子一页一页的展示结果?其实这里有一个最大的原因就是为了避免著作权和版权的问题。
像这种对话式的重新组织输出的内容,你根本看不出来它是从哪里扒的数据,数据的源头也无法考证,对吧?也就是说没有所谓的数据侵权的问题了, ChatGPT 会带来众多深远的影响,具体有哪些呢?第一,它确实可以大大提高人类的工作效率,特别是一些重复性的、总结性的工作,对吧?当然需要创造性思维的工作,不用太担心。就如刚才的介绍,你只要了解他的工作原理,就知道他对你不会产生太大的威胁。
第二个比较深远的影响就是 ChatGPT 极有可能会实现全流量入口的垄断,比如说以后手机甚至只有一个 ChatGPT 的入口,没有其他的 APP 了,我们想点外卖、导航、打车等等,都可以通过 ChatGPT 和美团、滴滴等第三方服务进行合作。
当用户习惯养成了之后,作为服务提供方案,你想不跟 ChatGPT 合作的不行,你想不给 ChatGPT 喂数据都不行,因为它是统一甚至是唯一的入口。当然了,一旦合作,基本上你就是裸奔了,你所有的用户数据基本上它都一清二楚,所以可以说 ChatGPT 就像安插在你自己身边的心腹,对吧?你用的越多,你在他面前就越是透明,他可能比你自己还了解你,但愿他不会出卖你的。而且因为像如此大规模投入的 AI 产品,不是有微软这样富可敌国的公司在背后支撑,是不可能实现的。目前微软已经至少为 OpenAI 这个公司投入了超过数百亿美金,类似 ChatGPT 这样的大数据模型,它的可选择性很少,因为玩得起的人特别少,对吧?再加上先发的优势,就更容易形成垄断了。
第三个影响也是藏得比较深的影响,其实也是特别重要的影响。大家有没有发现当你身边有一个天文地理无所不同的人的时候,你遇到问题就想咨询他,对吧?慢慢的养成依赖了之后逐渐失去思考能力的你就会把他封若神明,即便他后来说的话可能会很离谱,对吧?如果我们过度依赖类似 ChatGPT 这样的 AI 产品,可能他的回答有 99% 是很客观的。但是如果其中有夹带私货的回答,你是分辨不出来的,你会习惯性的认为就该是这样,如此很可怕的事情就发生了,它就很容易实现对你在思想上的控制,这种思想上的渗透甚至比飞机、大炮、火箭、导弹还更有威胁。仅从这方面考虑, ChatGPT 就不可能会引入国内了,我们必须发展自己的大数据模型,发展自己的AI。
这个我就不细说了,懂的都懂,对吧?看到这里,大家应该都对类似 ChatGPT 这样的大数据模型 AI 有所了解了,只要了解它的工作原理,就根本不需要担心所谓的目前的 AI 会产生意识,对吧?也更不需要担心它会控制和毁灭人类了。很久之前就有很多网友拿马斯克来攻击我,说马斯克都倡议大家停止 AI 的训练半年,以免带来不可预知的危险,对吧?现在大家也知道了,马斯克就是想让大家都停止训练,好让自己悄悄的追赶而已。我只能说要完成人类的救赎,单靠人类本身是很难的,人类连自己都没完全搞明白,就幻想像神一样造出高于人类的所谓人工智能也是不可能的。至于说硅基生命取代抗击生命,甚至是我们要植民火星,对吧?反正我应该是看不到的了,有空我觉得我们还是先解决咱们地球人家门口的那点破事,有关大数据模型和 AI 今天就介绍到这里,如果你觉得说的还有点道理,欢迎点赞加关注。也算是我们为叹息生命的知识传播做出一点贡献。谢谢你。