主题:【讨论】鲁白提到的这些科学上的不正当行为,怎么处理? -- pkhelen
看过穿越大侠写的鲁白自白
http://www.ccthere.com/article/3007975
觉得受益匪浅,又紧巴巴地看了鲁白其他的帖子,觉得很有意思。
尤其这篇,科学上的不正当行为(剧本)
http://www.sciencenet.cn/m/user_content.aspx?id=332968
给了一个剧本然后提出几个问题供大家思考,讨论。
但是很多问题我不知道怎么回答。虽然每年参加学校的ethic training,但都是提醒自己不要越界.
但是作为同事或者老板,发现共同作者或者组里有人造假该怎么应付呢?有没有规定条文可以具体参考的?
如果各位牛人大夏天有时间,能否讨论一下?
基本上对邓巴的处理是中规中矩的。邓巴最大的问题就是存在明显的主观上的修饰数据,光这一条就犯了科研上的大忌,所以被赶出科研队伍也是必然的。
首先要讨论的是使用photoshop的尺度。现在大概所有搞科研的人都接触过photoshop。在非常老派的实验室里,是不允许任何修饰数据的。但现在大部分实验室里还是允许合理尺度的修饰的。比如说,可以用crop把一张图中无关的部分切除掉。甚至两张照片的拼接也是允许的,前提是用虚线或者其他标记让人一看就明白这图是拼出来的就行。用photoshop调明暗、反差也是可以的,但是需要在整张图上调,不允许只调局部。总而言之,可以用photoshop修改图片,但要让人能意识到图片是做了哪些修改,尽量标识清楚。
其次是实验记录。说实话看到那部分我出了点冷汗,因为这几年我实验室逐渐变懒,大家都喜欢用电脑储存原始数据,比如说一个excel表的数据就直接存在电脑里。图也都是存成JPG文件。勤快点的人处理完数据后会打印下来贴到记录本里,懒的人可能连这个都不做。所以要是我实验室发生伪造数据的事,还真不好查。所以这会是一个棘手的问题。
如果逼着那帮懒人用老式方法写实验报告,估计会有不少不满情绪。也许我可以让每个人把他们的数据、电脑里的实验记录做成PDF文件,每周给我e-mail过来。我自然不会一一查看。但一旦出了什么事,这些PDF就是最好的证据。因为它的每一页内部都不能修改,而文件本身有日期等信息,比较可靠。
不过最重要的还是我一直有的一个观点,就是不要做太难出成果的东西。宁愿不要出大文章,也不要把人逼到绝路上,让人干冒奇险去造假。大部分人还是有理智的,能掂量出风险和收益。
比如 共同作者:拉森和亚当斯该如何面对可能的造假论文呢?
我也很困惑以下问题:
1。 拉森本可以用一种更好、更有说服力的方式讲述他所关注的事情吗? 既然拉森已经和格雷教授说了这件事情, 除此之外, 拉森还应该做些什么吗?
3.并列作者在文章内容的真实性上应该承担什么样的责任?
我觉得这个方式很重要啊,希望既能解决问题也不会引起他人误解我是嫉妒。
咱们都是从小到大,一路考试过来的人。从鲁白的问法就能知道他的倾向性-他认为有更好的方式方法。那我们自然要沿着这个思路往下想。
如果要和现有做法的不同的话,可以和老板发e-mail,不当面谈。这样的好处是可以细细琢磨遣词造句,做到就事论事,客观冷静。而且给老板一个缓冲时间,因为他刚开始时明显大受刺激,反应过度。如果开始时给过他一个缓冲时间,应该会理性得多。也许这是鲁白的标准答案?不过我个人习惯当面说而不是在e-mail里说,如果能当面但还是用e-mail都是为了留下个书面记录。所以不知道在e-mail里说这种事是不是效果更好了。
我认为并列作者不应该承担责任。因为现在合作的人非常多,大家是不会也不现实去检查别人的实验记录。所以有人造假的话,合作人是不容易知道的,而且合作者其实经常不是一个领域的(否则就没必要合作了),他们对假数据的敏感并不比一般的读者要好。我有不少文章是跟人跨领域合作的,隔行如隔山,说实话有的合作者写的部分,我看都看不太懂,更别说去推敲他的实验结果了。所以现在有些杂志要求各个作者说明做了文章的哪一部分,就是为了厘清责任。
比如说实验时间
都写什么4度一小时,4度2小时。这其实是在抄写方法而已
正确的写法是,写一个开始时间,比如10点,写一个结束时间,比如11点06分。这才叫做记录。不少科学发现就是靠这种记录给整出来的,发现某个结果比较特别,拿出记录一看,原来多了15分钟。恩,找到可能的原因了。
如果时间没问题,再一看,昨天5点半,去问问技术员。技术员说,不好意思,昨天5点那批试剂我把浓度搞错了。恩,找到可能原因了。 (熟悉生命科学历史的,应该知道俺提的典故吧,印象中还和华人沾边啊)
防止数据被篡改,最有效的办法是使用电子签名,不过成本太高了,而且一样面临同样的质疑。毕竟电子签名的认证机构不是政府,就算是政府同样会被质疑。无论是文件时间,还是其它,说白了都是数据,只不过一般人不会想到去修改而已。
如果打印的话,天量的数据都打印出来肯定是无法接受的。
我觉得比较可行的方法是对数据文件作校验和(checksum),最后把校验的结果打印出来存档。当然就算这样,也保不了十年二十年后算法被破解。所以最保险的是过一定的时间就升级算法,重新计算校验和并打印出来……
俺也是做生物出身的,可以理解....不过这段话
俺认为有些东西,作为老板要有足够的手段去检验....甲做的实验,乙丙丁都要能重复.....否则,缓一缓.....有些实验换一个方法要能证实,能验证.....
但每一页内部是不能改动的。而且每次改动后文件property信息都有修改日期,老文件如果近期被修改过就很可疑了。
而且格式是公开的标准(当然就算不公开也没什么),其本身是可以hack的,可以使用专门的函数库,例如pdflib, gnu pdf,对PDF进行操作,就算不使用pdflib这样的函数库,依照pdf的参考手册,以特殊的编辑器直接修改PDF文件中的细节本身并非难事。
而修改日期这种文件属性只需要回调计算机的时间就可以做到,就算由于种种限制不能调整计算机时间,只要略微熟悉文件系统(像ntfs,ext2/3/4这些常用的),这种东西形同虚设。
不到一页纸的。
对付造假大部分人就是看看数据跟文献中已知的东西是不是能make sense.科研虽然说是创新,但创新不是凭空掉下来的,都不会真正的匪夷所思。所以有的时候common sense很重要。多和同行讨论,太奇怪的东西就要小心了。
穿越和他的手下每个人自己生成一对比如RSA的公密钥,把所有公钥公开,无论谁都拥有所有人的公钥,私钥当然得好好保存,千万不能给谁偷了。
如果某人做了实验,得到数据或图片,全zip在一个文件a里,有必要的话里面有个txt文件作个小说明,比如时间人物啥的都可以写上。然后某人拿自己的私钥把这个文件a加密变成b,然后寄给穿越。穿越拿此人的公钥把b这个文件解开看到zip文件a,确认里面的东西没有问题后,用自己的私钥把b加密变成c,然后保存c,还可以把c寄回给某人,如果他愿意的话也可以保存这个文件。
这个c文件只有某人和穿越共同合作才能产生,但是任何人拿着某人和穿越的公钥(这两个公钥谁都有)以及c,都可以查看a文件里面到底是什么。
以后有伪造数据的嫌疑了,拿出c来,谁都能检查里面的原始数据是什么,但是某人不能说那是穿越伪造了c来陷害他,因为用穿越的公钥解开来的b是除了某人外没有人可以产生出来的,而穿越也无需担心某人在以后伪造一个c'文件,使得里面是被改过了的a'文件,因为事后某人的确可能伪造出a'文件,然后拿他的私钥产生b'文件来,但是没有穿越的私钥,没办法得到那个假的c'文件。
这其实就是电子签名,无须公证机关。当然私钥怎么管理又是个问题,如果让人偷跑了那就又完蛋了。
这么深奥,简直要崇拜了。
如果你觉得实验室里的确有这种伪造数据的危险值得严肃对待,我建议你使用这样的系统,有软件比如PGP就是专门用来干这事的,你可以咨询学校里或者其他地方的信息系统专业人员来了解具体情况,因为我前面说的略去了一些细节。
而我可以在这里讲讲其中原理。电子签名系统用的是非对称的密钥系统。一般的加密解密都是用同一个密码,比如zip软件在你需要加密时会问你一个口令,以后解密了也同样会问你这个口令,口令对了就解出来了。这是对称的,加密解密同一把钥匙。
非对称系统有两把钥匙,一把公开的公钥,一把私有的私钥(其实是两个很大的数字)。这两把钥匙恰好是互相解码的。假设a是你最开始的文件,你的私钥是S,公钥是G,那么G(a)是用公钥加密的文件,用私钥可以解开:
S(G(a))=a
反过来也一样,G(S(a))=a。
还有一个特别的地方,只知道公钥G是无法算出私钥S的。如果你只有公钥G,你无法只通过G来得到S(a),要得到a用私钥加密出来的东西S(a),只能用私钥S,只知道公钥是没有用的。也就是说,只知道公钥的人是无法伪造拿私钥加密出来的密文的。
这样一个系统有两种用法,都是把公钥公开了,让天下人都知道你的公钥是G,知道的人越多越好。私钥要好好保存,除了你谁都不该知道。
一种用法是别人给你送秘密文件。谁想给你写点东西a,就把G(a)送给你,你的G大家全知道,所以G(a)很容易产生。但是这个G(a)是加密了的乱七八糟的一串数字,想知道a,只能用S来解,S(G(a))=a,但是S只有你有啊,所以这信只有你读得懂,别人当中截获了G(a)是没法知道里面写的啥的。
还有一种用法是电子签名。你寄信给别人,内容是a,可是收信人怎么知道那的确是你写的呢?所以你寄给别人S(a),并且说,我是某某啊,收信人手里有你某某的公钥G,G(S(a))=a,就看见a了,他就知道这信一定是你写的,因为除了你,没有人能伪造只能用S产生的S(a)。
而一般的用法是上面两种方法结合起来,你要给别人发信,先用你的密钥加密,再用收信人的公钥加密,发给收信人。收信人收到了先用他的私钥解密,再用你的公钥验证那的确是你写的。
我前面说的对付伪造数据,则是双重的电子签名(两人都用自己的私钥加密),相当于你们俩都对内容签一下名,这样出来的数据,任何单方面都是无法伪造的。
的身份,文件生成时间的生成时间还是很难被核实。
我是这么看这个问题的,就是数据是何时由何人在何处用何种方法产生的。这里包括了数据本身的真实性。完全验证这几样是个非常复杂的过程,重要的是要独立地对这几个要素进行验证,数据本身需要和时间这类信息分开对待。当然这样必然导致整个过程极其复杂。所以,我只是简单地在校验数据自身的同时,保证数据生成时间可以被核实。
如果要完美的话,不光是经手的人员,还需要给每个生成原始数据的程序(即数据是由何种方法得到的)指定独立的公钥/私钥对。在这里,我们应当只使用私钥来签名,生成一个摘要,再由公钥进行认证,而不对数据本身进行加密。最后自然是时间戳的问题,目前的时间戳认证可以用授时中心提供的方案,也可以由一个独立的程序通过授时服务得到标准时间后,再进行一次签名。当然技术上仍是不对称加密。
最后是公钥的真实性,我的建议还是把公钥打印出来,然后放在保险箱里……但如果要证明自己的清白,还是必须上传到一个有公信力的服务器上。简单地说就是在公钥/私钥对生成以后,将公钥交给独立第三者保管。
经过了这几重保险以后,再加上升级大法,理论上应该是万无一失了……