漂亮人妇荡欲在线观看,女人私密部位高清图片,特黄特色视频免费大片,舌头伸进去添的我乱叫,大胸美女揉胸,激情久久综合网,日本xx片

中國論文工廠,已經(jīng)用AI批量生產(chǎn)垃圾論文了?

圖源:Pixabay

圖源:Pixabay

文 | 張?zhí)炱?/span>

● ● ●

Scientific Reports的副主編、英國薩里大學(xué)數(shù)據(jù)科學(xué)家馬特·斯皮克(Matt Spick)注意到,一批垃圾論文正以每天一篇甚至兩篇的速度,在迅速涌入他工作的期刊。

它們選題各異,套路卻驚人地一致。有的研究血清維生素D與抑郁癥的關(guān)系,有的分析碘攝入與糖尿病,有的考察炎癥指數(shù)與睡眠質(zhì)量,總之就是考察一個變量對一種疾病的影響。只需一份標(biāo)準(zhǔn)化的數(shù)據(jù)集、一段回歸模型腳本,再得出一個統(tǒng)計顯著的結(jié)果,這類論文就能迅速成文。換個變量,又是新的一篇。

這種沒有信息含量的垃圾論文數(shù)量在迅速膨脹。2024年,僅1月至10月,全球就發(fā)表了190篇這類基于美國 NHANES 健康數(shù)據(jù)庫的“單因子關(guān)聯(lián)研究”,幾乎是2014至2021年間年均發(fā)表數(shù)量的五十倍。

01

國產(chǎn)垃圾論文攻陷國外期刊

更引人注意的是,垃圾論文數(shù)量的激增幾乎完全集中在中國。2021至2024年間,全球共發(fā)表了316篇此類論文,其中有292篇的第一作者來自中國單位,占比超過92%。而在2014至2020年的25篇中,這一數(shù)字僅為2篇[1]。

這組數(shù)據(jù)來自于斯皮克和他合作者今年發(fā)布的一項(xiàng)研究。為了系統(tǒng)性地研究這一現(xiàn)象,斯派克和他的合作者在PubMed和Scopus等學(xué)術(shù)數(shù)據(jù)庫中,使用精確的關(guān)鍵詞組合進(jìn)行檢索,篩選出過去十年間所有使用NHANES數(shù)據(jù)、且研究設(shè)計為單因素關(guān)聯(lián)的論文。經(jīng)過篩選,他們最終確定了341篇符合條件的論文作為分析對象。

這些論文大多采用相同的方法框架:使用 logistic 回歸模型,研究一個健康變量與一種疾病或生理狀態(tài)之間的統(tǒng)計關(guān)聯(lián),最多控制三五個協(xié)變量,結(jié)論集中在“顯著相關(guān)”這一層面。研究的問題不同,結(jié)構(gòu)幾乎不變。

在對這三百多篇論文進(jìn)行分析后,研究團(tuán)隊發(fā)現(xiàn),它們普遍遵循一套高度重復(fù)的寫作腳本。研究者從數(shù)據(jù)庫中選取一個預(yù)測變量,比如某種維生素水平,再選擇一個健康結(jié)果,比如抑郁癥,通過標(biāo)準(zhǔn)化的統(tǒng)計流程將兩者建立關(guān)聯(lián),最終得出一個簡單的結(jié)論,A 與 B 相關(guān)。在最極端的情況下,研究者甚至只需顛倒自變量和因變量的位置,就能生成另一篇論文,無需任何生理學(xué)依據(jù)或理論假設(shè),便可無限擴(kuò)展變量與結(jié)局的組合方式。

為了進(jìn)一步說明這類研究存在的問題,研究團(tuán)隊使用了網(wǎng)絡(luò)分析方法,把所有論文中提到的預(yù)測變量和疾病之間的配對關(guān)系畫成圖表。結(jié)果顯示,像抑郁癥這樣的復(fù)雜疾病,被幾十個毫無關(guān)聯(lián)的變量分別單獨(dú)研究過一次。圖中呈現(xiàn)出一種“一個變量對應(yīng)一個疾病”的稀疏結(jié)構(gòu),揭示出這類研究往往忽視疾病背后的多重因素,只是簡單地找出某種單一因素與某個結(jié)果之間的聯(lián)系。

團(tuán)隊以抑郁癥為例,檢驗(yàn)這些論文是否可靠。他們統(tǒng)計了所有聲稱與抑郁癥顯著相關(guān)的研究,一共28篇,并使用一種叫“錯誤發(fā)現(xiàn)率”(FDR)的統(tǒng)計方法,對這些結(jié)果重新進(jìn)行了校正。FDR 用來處理多個變量同時檢驗(yàn)時容易出現(xiàn)的假陽性問題。結(jié)果發(fā)現(xiàn),這28項(xiàng)中有15項(xiàng)在校正后不再顯著,說明很多看起來有效的結(jié)果,其實(shí)可能只是偶然波動造成的。

研究人員進(jìn)一步發(fā)現(xiàn),不少論文在數(shù)據(jù)使用上存在操縱的嫌疑。NHANES 是一項(xiàng)跨年滾動調(diào)查,覆蓋數(shù)十年的連續(xù)數(shù)據(jù),供研究者完整調(diào)用。但在大部分論文中,作者卻在沒有提供任何解釋的情況下,僅選取了其中一小段年份區(qū)間進(jìn)行分析。這種精心挑選數(shù)據(jù)的做法,很難不令人懷疑其動機(jī)是為了篩選出p值最低、結(jié)果最漂亮的組合來發(fā)表。

將所有線索串聯(lián)起來,一條AI論文流水線已經(jīng)顯示地非常清晰了。一個對AI開放的數(shù)據(jù)庫作為原料,輔以自動化的分析腳本,再套用高度公式化的研究設(shè)計,最終得以在短期內(nèi)以指數(shù)級速度產(chǎn)出大量雷同的論文。這套流程完美地契合了AI輔助的工作模式,正如報告作者所言,這種生產(chǎn)力的提升,對“旨在通過提供低質(zhì)量或偽造稿件來牟利的論文工廠尤其具有吸引力” 。

02

論文工廠用上AI了

這一切的起點(diǎn),是龐大的公共健康數(shù)據(jù)庫NHANES。這是由美國官方主導(dǎo)的一項(xiàng)長期項(xiàng)目,旨在評估美國成人和兒童的健康與營養(yǎng)狀況。該調(diào)查每兩年進(jìn)行一次,招募約1萬名參與者,通過結(jié)合訪談、體格檢查和實(shí)驗(yàn)室檢測,收集了涵蓋疾病、風(fēng)險因素、營養(yǎng)指標(biāo)等超過700個變量的綜合數(shù)據(jù)。

造成這一局面的部分原因,在于NHANES 本身高度結(jié)構(gòu)化的數(shù)據(jù)形式。它的數(shù)據(jù)可以通過API直接導(dǎo)入Python或R語言環(huán)境,一系列標(biāo)準(zhǔn)庫(如 nhanesA、pynhanes、NHANES pyTOOL 等)支持自動搜索、清洗、建模與輸出。過去需要團(tuán)隊手動完成的數(shù)據(jù)整理和圖表繪制,如今可在更短時間內(nèi)借助腳本工具實(shí)現(xiàn)。

更關(guān)鍵的是,NHANES是一個AI就緒(AI-ready)的數(shù)據(jù)集。 這意味著,研究者可以通過應(yīng)用程序編程接口(API)輕松地、自動化地提取和分析數(shù)據(jù)。 這種設(shè)計本意是為提高科研效率,但它也為“數(shù)據(jù)挖掘”和批量生產(chǎn)論文打開了方便之門。

斯皮克團(tuán)隊認(rèn)為,他們的研究結(jié)果很可能嚴(yán)重低估了問題的規(guī)模。他們的檢索范圍局限于符合利用NHANES的單因子研究。但更寬泛的搜索顯示,僅在一年之間,使用 NHANES 數(shù)據(jù)發(fā)表的論文數(shù)量就從2023年的4926篇增長到了2024年的7876篇。

來自美國西北大學(xué)的研究者瑞茲·理查森(Reese Richardson)一直關(guān)注論文工廠的動向。他在一次快速檢索中,就發(fā)現(xiàn)了5篇未被斯皮克團(tuán)隊納入的 NHANES 論文,這些文章與某個可疑論文工廠有關(guān)聯(lián)。它們的寫作結(jié)構(gòu)與斯皮克所識別出的論文非常相似,同樣是圍繞 NHANES 數(shù)據(jù)中的單一變量與某種疾病的簡單相關(guān)性展開,例如電子煙使用與肺部疾病之間的關(guān)聯(lián)[2]。

以“臨床公共數(shù)據(jù)庫挖掘”為關(guān)鍵詞,在中國社交媒體平臺上不難搜到大量提供服務(wù)的公眾號。其中除了本文提到的 NHANES 數(shù)據(jù)庫,GBD(Global Burden of Disease,全球疾病負(fù)擔(dān)研究)等數(shù)據(jù)庫也頻繁出現(xiàn)在這些平臺的推文和案例中,成為熱門的數(shù)據(jù)來源。

這類公眾號大多提供多種模式的服務(wù),例如:根據(jù)研究主題協(xié)助下載公開數(shù)據(jù),完成統(tǒng)計分析,撰寫數(shù)據(jù)分析報告,或在已有數(shù)據(jù)和主題的基礎(chǔ)上提供論文思路和寫作指導(dǎo)。一些平臺還進(jìn)一步打出“全流程陪跑”的口號,從選題、分析到英文潤色,覆蓋論文寫作的各個階段。

在一些平臺的廣告中,造假的暗示已非常露骨。例如有平臺寫道:“因公共數(shù)據(jù)庫的開放性,我們提供的統(tǒng)計服務(wù)可不斷更換研究主題,挖掘數(shù)據(jù),直至分析出發(fā)表級的統(tǒng)計分析結(jié)果,并可提供中英文的方法和結(jié)果。”換句話說,就是以發(fā)表為目標(biāo),圍繞數(shù)據(jù)庫中的變量反復(fù)組合、拆解、篩選,直到跑出一組足夠顯著的結(jié)果。


上一篇:百度揮刀,砍向地方代理商

下一篇:沒有了

相關(guān)內(nèi)容