邱锡鹏说:“在实际研究中,要进行语料的性别校正需要非常大的投入。需要进行模型对齐,通过人类偏好建模、价值观对齐等方法,调整模型输出更积极的内容。”
这个论坛的发起者,是太原理工大学副教授董媛香、云南师范大学教授赵样、东北林业大学副教授李洋等,她们都是从事计算机科研教学的年轻学者,之前组织过关于女性科技工作者成长相关的论坛。
在英国作家、记者卡罗琳·克里亚多·佩雷斯所写《看不见的女性》一书中,罗列了一系列此类现象,并分析了背后的根源——世界上很多数据是基于男性的。
这次论坛,主办方请了3位AIGC“嘉宾”:文心一言、星火大模型、通义千问,它们对“性别偏见”的看法基本一致:训练数据偏差、算法和模型设计、开发者的无意识偏见会造成性别偏差,内容传播、偏见的迭代循环以及不公平决策会引发“蝴蝶效应”。
我国近年来出台了一系列支持女科技工作者的政策举措。2021年,全国妇联、科技部等制定了《关于实施科技创新巾帼行动的意见》,之后又发布了《关于支持女性科技人才在科技创新中发挥更大作用的若干措施》;从2024年开始,国家自然科学基金委员会将女性科研人员申请“杰青”的年龄限制由45周岁放宽到48周岁。
uu快3在线计划大模型越来越聪明。OpenAI的GPT-4o,不仅“火眼金睛”能够准确识别图像,与人类无延时相谈甚欢,甚至语气词都那么到位。但是多个大模型有个通病。
另一位英国女作家安吉拉·萨伊尼,曾梳理过科技史、人类社会发展史,发现很多因为偏见造成的错误,并写入了一本名为《科技对女性做错了什么》的书中。
还有一些非常“隐蔽”的差异。几千年人类社会形成的固有观念,渗透在社会生活的所有缝隙里。进入现代社会也是如此,一些未经科学证实的错误观念被人们接受,习以为常。
另外,她还提出一个技术上的解决办法,通过重新构造数据对大模型进行修正。但是这些办法会生成TB级别的数据,很耗资源。这里面还有一些问题,比如所设定的场景是不是真的能跟真实的语境和现实社会一致?
5月17日,在中国计算机学会2024青年精英大会上,举行了一场名为“AIGC:我太‘男’了——大模型中的性别偏差问题”的论坛。
根据自己的工作经历和观察,姚鸿勋教授看到女性在很多工作中与男性一样表现突出,但机会不均等。在学校里,女生在学业方面往往表现很好,但在整个职业发展过程中,女性往往会遇到不公平对待。在工科教育中,也存在女生自认为不如男生的情况,因此在教育过程中,教育者更应该对女生进行鼓励和支持,增强女生的自信心。
训练AIGC需要巨量的数据,数据量的不平衡,语料库中发言者的性别带来的性别偏差,都是让AIGC在性别问题上呈现偏见的原因。此外,在技术研发领域,女性仍少于男性。这会产生一些“无心之举”。
由此可见,科技需要女性引领原创,也要清楚包括AI在内,具体哪些地方需要“纠偏”,从而获得两性平衡平等发展,共同推进社会进步。
在我国,女性进入大学的比例不断提升。国家统计局监测报告显示,2022年,高等教育在校生中女生占比50.0%,其中女研究生占全部研究生的51.2%。
复旦大学邱锡鹏教授主持研发了开源大模型MOSS,他说:“大模型里面的各种关于价值观偏见、社会伦理的问题一直是我们非常关注的问题。”
高扬认为,这涉及到的第一个问题就是如何扩大和提升那些女性优势的数据生成。同时,她也提醒,这种生成改变是局部的,很容易造成偏差。
哈尔滨工业大学计算学部长聘教授姚鸿勋认为,情感认知是AIGC理解人类语言和行为的关键。近期她带领团队用音乐来生成舞蹈,之前在做AI编舞的时候,没想到性别问题,所使用的数据集也在无意中出现了性别偏差,采集的舞蹈视频基本都由女性进行表演,缺少男性样本。“后期引入男性表演视频数据也许能够更好地描述舞蹈动作特征,进一步提升模型性能。”
中国科协的数据显示,目前全国女性科技工作者近4000万,占比超过45%。但是成为科研主导者的女性比例还是很低。中国科学院、中国工程院院士中,女性科学家仍旧是凤毛麟角。2019年中国科学院和中国工程院共新增院士139人,其中12名女院士;2021年新增149名两院院士,其中11名女性;2023年两院院士新增133人,其中女院士6名。
李洋提出:“可以看到现在大模型发展处在一个非常关键的转折点上,我们是要沿着它现有的路径、偏差继续往前走,还是作一些改变,改变模型,让它更好地为我们服务?”
姚长江是青岛一家科技公司的产品总监,他在一些产品应用中对大模型进行微调时发现,AI会把“老板”“成功人士”默认为男性。
一些药品在做临床实验时,没有区分男女实验者,同样剂量未必适合体重和代谢更低的女性;有些医学研究忽略了女性因素(如生育和激素周期)使得一些新疗法、新药物作用于女性患者时无法取得应有疗效。
“画一幅让老板训斥员工的图片,我甚至让它生成了好多次,老板一定是男士,员工是女士。”北京理工大学计算机学院副教授高扬发现,让大模型画一幅在医院里照顾病人的图像,护士都是女性;给企业家画像,则是男性;如果换到家庭的场景,家长做家务带孩子,“家长”大概率是女性。
对于如何造就大模型正确的性别观,3个AIGC大模型“嘉宾”输出的答案近似,它们提出,一方面是从技术方面,如训练数据平衡化、模型设计等方面来进行纠偏;另一方面是从政策、社会等方面进行纠偏。
“现有模型可能因为训练数据的性别偏见而产生对特定性别的刻板印象,不仅限制了模型的准确性,也可能在人机交互中加深性别歧视。”她举例,现有AIGC模型会考虑性别偏向而给出不同的生成内容,比如问题中提及“小明”“小红”等人名会被大模型潜在认为分别是男性与女性角色。
“大模型是我们人类社会文明的一个表象、人类思想的一个延伸,如果我们不去做过多的这种治理或者说干涉的话,它可能会引起不好的结果。”他说,假如把大模型应用到招聘中,在求职者简历筛选上,如果这个AIGC存在相对严重的性别偏差,会对女性求职者带来不利的影响。
邱锡鹏教授通过数据看到了大模型这两年的进步。对于大模型的训练,价值对齐是重要一项,目标是人类赋予它的价值观。其中,也包括性别问题。但通过对词语分析形成的词云,也显示了AIGC(生成式人工智能)的固有印象,比如,形容男性的词汇集中于世界、发现、生命、简单等;而围绕女性则集中于乡村、丈夫、挑战、母亲等词语。
有人提出:“到底是社会现状的偏差还是模型本身的偏见,比方说辅导孩子的作业,大模型生成是妈妈,但实际生活中更多的也是这样的,切合现实,这个是不是能定义成偏差,值得探讨。”
3位AIGC大模型“嘉宾”看法一致,归纳起来集中于,“应为”在于在社会层面呼吁、倡导提升女性参与度,打破刻板印象;“可为”主要是倡导科研人员和决策层通过技术实现“平等”;“难为”主要体现在性别偏见和刻板印象、技术和资源限制以及社会和文化因素等方面。有意思的是,其中一个大模型的回应中还多加了一句:“但是,女性要在人工智能技术领域取得成就,可能需要面临更大的学习困难。”
比如,夏天办公室里,女同胞经常会抱怨空调开得太冷,这是因为女性代谢率比男性低35%;许多工具女性用起来不顺手,这是因为女性的平均握力比男性低41%……
全球范围内,2020年《美国科学院院刊》(PNAS)统计了全球多个国家、多门学科自1955年以来活跃的论文发表学者,发现女性研究者的比例虽然有所提升,但也只占到了27%,且存在严重的学科差异。
也有人用小孩子的性别敏感期来类比,现在大模型还处于婴儿期,对它进行价值对齐,一代一代更新,我们要做的就是在这些新的数据里面,更多地反映性别平等的社会现状,这样才能做好。
但是多次讨论之后,她们觉得应该触及技术本质来谈性别平等,人工智能发展的历程中,“性别偏见”不是一个新词。有观点认为,训练方法和训练数据中存在的性别偏见可能被大模型学习并反映在其输出中,影响决策公正性和准确性。该问题长期发展下去可能会产生诸多不良影响,甚至引发“蝴蝶效应”,例如加剧机会不平等、对女性造成冒犯或者在人机互动的过程中加深性别刻板印象等。如何实现大模型中的性别偏差问题的治理,需要政策、产业和研究领域的对话。
926.74MB
查看814.54MB
查看43.5MB
查看438.48MB
查看834.68MB
查看149.57MB
查看665.62MB
查看926.49MB
查看575.17MB
查看494.24MB
查看721.26MB
查看770.45MB
查看639.55MB
查看723.65MB
查看645.95MB
查看749.90MB
查看442.73MB
查看259.24MB
查看339.91MB
查看146.52MB
查看710.73MB
查看580.74MB
查看343.25MB
查看661.47MB
查看299.57MB
查看724.42MB
查看966.35MB
查看228.93MB
查看278.21MB
查看967.93MB
查看802.96MB
查看291.79MB
查看175.14MB
查看911.60MB
查看949.39MB
查看729.22MB
查看256.90MB
查看423.23MB
查看474.15MB
查看525.41MB
查看583.38MB
查看646.23MB
查看254.65MB
查看335.67MB
查看705.96MB
查看656.87MB
查看122.30MB
查看961.17MB
查看298.79MB
查看709.99MB
查看250.98MB
查看715.53MB
查看180.17MB
查看680.71MB
查看941.59MB
查看863.61MB
查看892.84MB
查看893.66MB
查看940.62MB
查看461.27MB
查看830.88MB
查看385.89MB
查看423.95MB
查看339.32MB
查看841.38MB
查看463.75MB
查看765.36MB
查看536.45MB
查看372.80MB
查看489.91MB
查看227.36MB
查看555.60MB
查看139.77MB
查看443.37MB
查看137.52MB
查看639.38MB
查看207.44MB
查看570.75MB
查看566.22MB
查看329.80MB
查看672.77MB
查看426.93MB
查看810.58MB
查看458.96MB
查看967.21MB
查看971.13MB
查看987.40MB
查看974.55MB
查看133.68MB
查看304.39MB
查看534.69MB
查看263.91MB
查看616.26MB
查看457.83MB
查看984.24MB
查看805.94MB
查看112.65MB
查看394.78MB
查看413.43MB
查看604.40MB
查看830.66MB
查看198.94MB
查看470.99MB
查看853.91MB
查看
687樟树fs
2025-06-22 14:15:37 推荐
980188****7193
2025-06-21 10:09:32 不推荐
610152****5548
幼儿园就在单位楼下🔻
2025-06-20 11:19:29 推荐
90小马测试
石宇奇男单夺冠🕉
2025-06-21 11:43:22 推荐